論文の概要: Exploring the Impact of Instruction-Tuning on LLM's Susceptibility to Misinformation
- arxiv url: http://arxiv.org/abs/2507.18203v1
- Date: Thu, 24 Jul 2025 08:58:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:43.315673
- Title: Exploring the Impact of Instruction-Tuning on LLM's Susceptibility to Misinformation
- Title(参考訳): インストラクションチューニングがLLMの誤情報感受性に及ぼす影響を探る
- Authors: Kyubeen Han, Junseo Jang, Hongjin Kim, Geunyeong Jeong, Harksoo Kim,
- Abstract要約: 本研究では,大規模言語モデルが誤情報に対する感受性に与える影響について検討する。
分析の結果,命令調整型LPMはユーザによって提示された誤情報を受けやすいことがわかった。
- 参考スコア(独自算出の注目度): 3.032542495872679
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instruction-tuning enhances the ability of large language models (LLMs) to follow user instructions more accurately, improving usability while reducing harmful outputs. However, this process may increase the model's dependence on user input, potentially leading to the unfiltered acceptance of misinformation and the generation of hallucinations. Existing studies primarily highlight that LLMs are receptive to external information that contradict their parametric knowledge, but little research has been conducted on the direct impact of instruction-tuning on this phenomenon. In our study, we investigate the impact of instruction-tuning on LLM's susceptibility to misinformation. Our analysis reveals that instruction-tuned LLMs are significantly more likely to accept misinformation when it is presented by the user. A comparison with base models shows that instruction-tuning increases reliance on user-provided information, shifting susceptibility from the assistant role to the user role. Furthermore, we explore additional factors influencing misinformation susceptibility, such as the role of the user in prompt structure, misinformation length, and the presence of warnings in the system prompt. Our findings underscore the need for systematic approaches to mitigate unintended consequences of instruction-tuning and enhance the reliability of LLMs in real-world applications.
- Abstract(参考訳): インストラクションチューニングは、より大きな言語モデル(LLM)がより正確にユーザ命令に従う能力を高め、有害な出力を減らすとともにユーザビリティを向上させる。
しかし、このプロセスはユーザー入力への依存を増大させ、誤報の未フィルタリングと幻覚の発生につながる可能性がある。
既存の研究では、LLMはパラメトリック知識と矛盾する外部情報を受け入れるが、この現象に対する指導訓練の直接的な影響についてはほとんど研究されていない。
本研究では,LLMの誤情報に対する感受性に及ぼす指導指導の影響について検討した。
分析の結果,命令調整型LPMはユーザによって提示された誤情報を受けやすいことがわかった。
ベースモデルと比較すると、命令チューニングは、ユーザが提供する情報に依存するようになり、アシスタントロールからユーザロールへの感受性がシフトすることを示している。
さらに,利用者の迅速な構造,誤情報長,システムプロンプトにおける警告の存在など,誤情報感受性に影響を及ぼす要因についても検討する。
本研究は,実環境におけるLLMの信頼性向上と教育指導の意図しない結果を軽減するための体系的アプローチの必要性を明らかにするものである。
関連論文リスト
- Investigating the Effects of Cognitive Biases in Prompts on Large Language Model Outputs [3.7302076138352205]
本稿では,認知バイアスがLarge Language Models(LLM)出力に及ぼす影響について検討する。
確認や可用性バイアスなどの認知バイアスは、プロンプトを通じてユーザーの入力を歪ませる。
論文 参考訳(メタデータ) (2025-06-14T04:18:34Z) - From Parameters to Prompts: Understanding and Mitigating the Factuality Gap between Fine-Tuned LLMs [4.447729258258283]
未知の知識と未知の知識を微調整する際に生じる事実のギャップについて検討する。
我々の結果は、微調整データとテストタイムプロンプトの相互作用に光を当てた。
論文 参考訳(メタデータ) (2025-05-29T12:59:30Z) - UIPE: Enhancing LLM Unlearning by Removing Knowledge Related to Forgetting Targets [41.0340052199534]
大規模言語モデル(LLM)は、大規模なデータセットのトレーニング中に必然的に有害な情報を取得する。
既存のアンラーニング手法は、非ラーニングの有効性に論理的関連知識が与える決定的な影響を克服しつつ、対象データを忘れることに重点を置いている。
本研究では,忘れる対象と高い相関性を持つ知識を除去するUIPE(Unlearning Improvement via Extrapolation)を提案する。
論文 参考訳(メタデータ) (2025-03-06T18:40:00Z) - Aligning Large Language Models to Follow Instructions and Hallucinate Less via Effective Data Filtering [66.5524727179286]
NOVAは、幻覚を減らすための学習知識とよく一致した高品質なデータを特定するために設計されたフレームワークである。
内部整合性探索(ICP)とセマンティック等価同定(SEI)が含まれており、LLMが命令データとどれだけ親しみやすいかを測定する。
選択したサンプルの品質を確保するため,親しみ以上の特性を考慮した専門家による報酬モデルを導入する。
論文 参考訳(メタデータ) (2025-02-11T08:05:56Z) - Exploring Knowledge Boundaries in Large Language Models for Retrieval Judgment [56.87031484108484]
大規模言語モデル(LLM)は、その実践的応用でますます認識されている。
Retrieval-Augmented Generation (RAG)はこの課題に取り組み、LLMに大きな影響を与えている。
中立あるいは有害な結果をもたらす検索要求を最小化することにより、時間と計算コストの両方を効果的に削減できる。
論文 参考訳(メタデータ) (2024-11-09T15:12:28Z) - On the Loss of Context-awareness in General Instruction Fine-tuning [101.03941308894191]
教師付き微調整後の文脈認識の喪失について検討した。
性能低下は,会話指導の微調整中に学んだ異なる役割に対する偏見と関連していることがわかった。
一般命令微調整データセットから文脈依存例を識別する指標を提案する。
論文 参考訳(メタデータ) (2024-11-05T00:16:01Z) - How Susceptible are LLMs to Influence in Prompts? [6.644673474240519]
大規模言語モデル(LLM)は、追加のコンテキストを含むプロンプトに非常に敏感である。
我々は,複数の質問に対するLLMの応答が,他のモデルからの予測と説明を含む場合,どのように変化するかを検討する。
本研究は, モデルが強い影響を受けており, 説明が提供されると, 説明の質に関わらず, ゆがみが生じることを示した。
論文 参考訳(メタデータ) (2024-08-17T17:40:52Z) - LLM In-Context Recall is Prompt Dependent [0.0]
これを行うモデルの能力は、実世界のアプリケーションにおける実用性と信頼性に大きな影響を及ぼす。
本研究は, LLMのリコール能力がプロンプトの内容に影響を及ぼすだけでなく, トレーニングデータのバイアスによって損なわれる可能性があることを示す。
論文 参考訳(メタデータ) (2024-04-13T01:13:59Z) - A Closer Look at the Limitations of Instruction Tuning [52.587607091917214]
インストラクションチューニング(IT)は,大規模言語モデル(LLM)における知識やスキルの向上に失敗することを示す。
また、一般的なIT改善手法は、シンプルなLoRA微調整モデルよりも性能改善につながるものではないことも示している。
この結果から,事前学習した知識のみから生成した応答は,オープンソースデータセット上でITから新たな知識を学習するモデルによって,一貫した応答性能が向上することが判明した。
論文 参考訳(メタデータ) (2024-02-03T04:45:25Z) - An Empirical Study of Catastrophic Forgetting in Large Language Models During Continual Fine-tuning [70.48605869773814]
カタストロフィック・ナッシング(英: Catastrophic forgetting、CF)は、機械学習において、モデルが以前に学習した情報を忘れたときに発生する現象である。
本研究では,大規模言語モデルにおける連続的調律時の忘れ現象を実験的に評価する。
論文 参考訳(メタデータ) (2023-08-17T02:53:23Z) - On the Risk of Misinformation Pollution with Large Language Models [127.1107824751703]
本稿では,現代大規模言語モデル (LLM) の誤用の可能性について検討する。
本研究は, LLMが効果的な誤情報発生器として機能し, DOQAシステムの性能が著しく低下することを明らかにする。
論文 参考訳(メタデータ) (2023-05-23T04:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。