論文の概要: MisSynth: Improving MISSCI Logical Fallacies Classification with Synthetic Data
- arxiv url: http://arxiv.org/abs/2510.26345v1
- Date: Thu, 30 Oct 2025 10:52:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.76407
- Title: MisSynth: Improving MISSCI Logical Fallacies Classification with Synthetic Data
- Title(参考訳): MisSynth: 合成データによるMISSCI論理誤分類の改善
- Authors: Mykhailo Poliakov, Nadiya Shvai,
- Abstract要約: 本研究では,合成データ生成技術と微調整技術が大規模言語モデルの誤認識能力に与える影響について検討する。
そこで本研究では,検索拡張生成(RAG)を適用して合成誤りサンプルを生成するパイプラインであるMis Synthを提案する。
その結果,バニラベースラインに比べて微調整モデルの精度が向上した。
- 参考スコア(独自算出の注目度): 2.1127261244588156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Health-related misinformation is very prevalent and potentially harmful. It is difficult to identify, especially when claims distort or misinterpret scientific findings. We investigate the impact of synthetic data generation and lightweight fine-tuning techniques on the ability of large language models (LLMs) to recognize fallacious arguments using the MISSCI dataset and framework. In this work, we propose MisSynth, a pipeline that applies retrieval-augmented generation (RAG) to produce synthetic fallacy samples, which are then used to fine-tune an LLM model. Our results show substantial accuracy gains with fine-tuned models compared to vanilla baselines. For instance, the LLaMA 3.1 8B fine-tuned model achieved an over 35% F1-score absolute improvement on the MISSCI test split over its vanilla baseline. We demonstrate that introducing synthetic fallacy data to augment limited annotated resources can significantly enhance zero-shot LLM classification performance on real-world scientific misinformation tasks, even with limited computational resources. The code and synthetic dataset are available on https://github.com/mxpoliakov/MisSynth.
- Abstract(参考訳): 健康関連の誤報は非常に多く、潜在的に有害である。
特に主張が歪んだり、科学的な発見を誤解釈する場合、識別は困難である。
MISSCIデータセットとフレームワークを用いて,合成データ生成と軽量微調整技術が大規模言語モデル(LLM)の誤議論認識能力に与える影響について検討した。
本研究では,LLMモデルの微調整に使用される合成誤りサンプルを生成するために,検索拡張生成(RAG)を適用したパイプラインであるMisSynthを提案する。
その結果,バニラベースラインに比べて微調整モデルの精度が向上した。
例えば、LLaMA 3.1 8Bの微調整モデルでは、そのバニラベースラインで分割されたMISCIテストにおいて、35%以上のF1スコアの絶対的な改善が達成された。
限られたアノテートリソースを増大させるために合成誤りデータを導入することで、実世界の科学的な誤情報処理におけるゼロショットLLM分類性能が、限られた計算資源でも著しく向上することを示した。
コードと合成データセットはhttps://github.com/mxpoliakov/MisSynth.comで入手できる。
関連論文リスト
- Scaling Laws of Synthetic Data for Language Models [125.41600201811417]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。
提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文 参考訳(メタデータ) (2025-03-25T11:07:12Z) - The Canary's Echo: Auditing Privacy Risks of LLM-Generated Synthetic Text [23.412546862849396]
我々は、敵がLarge Language Models(LLMs)によって生成された合成データにアクセス可能であると仮定する。
我々は、データ合成に使用されるLPMを微調整するために使用されるトレーニングデータをターゲットに、メンバーシップ推論攻撃(MIA)を設計する。
モデルに基づくMIAのために作られたカナリアは、合成データのみを公開する場合、プライバシー監査のサブ最適化であることがわかった。
論文 参考訳(メタデータ) (2025-02-19T15:30:30Z) - Why LLMs Are Bad at Synthetic Table Generation (and what to do about it) [11.266896863556124]
合成データ生成は、トレーニングデータを増強したり、機密情報を置き換えたり、DeepSeekのような先進的なプラットフォームに電力を供給するなど、MLパイプラインに不可欠なものだ。
合成データ生成のための微調整 LLM が普及している一方で、合成表生成はテキストや画像合成と比較して未探索のままである。
本稿では, 従来の微調整に用いたとしても, LLMが合成表の生成に不適であることを示す。
論文 参考訳(メタデータ) (2024-06-20T17:52:29Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Beyond Model Collapse: Scaling Up with Synthesized Data Requires Verification [11.6055501181235]
モデル崩壊防止のための合成データに対する検証手法について検討する。
検証器は、たとえ不完全なものであっても、モデル崩壊を防ぐために実際に活用できることが示される。
論文 参考訳(メタデータ) (2024-06-11T17:46:16Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。