論文の概要: Unfamiliar Finetuning Examples Control How Language Models Hallucinate
- arxiv url: http://arxiv.org/abs/2403.05612v2
- Date: Tue, 28 May 2024 23:56:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 23:11:33.885369
- Title: Unfamiliar Finetuning Examples Control How Language Models Hallucinate
- Title(参考訳): 未知のファインタニング例による言語モデルの幻覚制御
- Authors: Katie Kang, Eric Wallace, Claire Tomlin, Aviral Kumar, Sergey Levine,
- Abstract要約: 大規模な言語モデルは、馴染みのないクエリに直面した時に幻覚化することが知られている。
モデルの微調整データの見慣れない例は、これらのエラーを形作るのに不可欠である。
本研究は,RLファインタニング戦略をさらに研究し,長大なモデル生成の現実性を改善することを目的とする。
- 参考スコア(独自算出の注目度): 75.03210107477157
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models are known to hallucinate when faced with unfamiliar queries, but the underlying mechanism that govern how models hallucinate are not yet fully understood. In this work, we find that unfamiliar examples in the models' finetuning data -- those that introduce concepts beyond the base model's scope of knowledge -- are crucial in shaping these errors. In particular, we find that an LLM's hallucinated predictions tend to mirror the responses associated with its unfamiliar finetuning examples. This suggests that by modifying how unfamiliar finetuning examples are supervised, we can influence a model's responses to unfamiliar queries (e.g., say ``I don't know''). We empirically validate this observation in a series of controlled experiments involving SFT, RL, and reward model finetuning on TriviaQA and MMLU. Our work further investigates RL finetuning strategies for improving the factuality of long-form model generations. We find that, while hallucinations from the reward model can significantly undermine the effectiveness of RL factuality finetuning, strategically controlling how reward models hallucinate can minimize these negative effects. Leveraging our previous observations on controlling hallucinations, we propose an approach for learning more reliable reward models, and show that they improve the efficacy of RL factuality finetuning in long-form biography and book/movie plot generation tasks.
- Abstract(参考訳): 大きな言語モデルは、馴染みのないクエリに直面すると幻覚化することが知られているが、モデル幻覚化の方法を管理する基盤となるメカニズムは、まだ完全には理解されていない。
この研究では、ベースモデルの知識の範囲を超えて概念を導入する、モデルの微調整データに見慣れない例が、これらのエラーを形成するのに不可欠であることが分かりました。
特に、LLMの幻覚予測は、馴染みの無い微調整の例と関連する反応を反映する傾向にある。
これは、不慣れな微調整例がどのように教師されるかを変更することで、不慣れなクエリに対するモデルの応答に影響を与える可能性があることを示唆している(例: ‘I don't know'')。
SFT, RL, および報奨モデルによるトリヴィアQAおよびMMLUの微調整を含む一連の制御実験において, この観測を実証的に検証した。
本研究は,RLファインタニング戦略をさらに研究し,長大なモデル生成の現実性を改善することを目的とする。
その結果、報酬モデルによる幻覚は、RLの事実性を微調整する効果を著しく損なうが、報酬モデルによる報酬モデルの幻覚がこれらのネガティブな効果を最小化する方法を戦略的に制御できることが判明した。
幻覚の制御に関するこれまでの知見を活かし、より信頼性の高い報酬モデルを学ぶためのアプローチを提案し、長文の伝記や書物・プロット生成タスクにおけるRL事実性の微調整の有効性を向上することを示す。
関連論文リスト
- Exploring the Knowledge Mismatch Hypothesis: Hallucination Propensity in Small Models Fine-tuned on Data from Larger Models [0.1227734309612871]
より大型のモデルからのデータを持つ微調整言語モデルは類似しているように見えるが、より大型のモデルよりも幻覚を呈することが多い。
1つの仮説は、より大きなモデルによって生成されたデータ上でモデルを微調整すると、幻覚に寄与する知識のミスマッチにつながるというものである。
未確認テストセットでは、より大きなモデルから生成されたデータに基づいて微調整された小さなモデルの方が、小さなモデルによって生成されたデータに基づいて微調整されたモデルと比較して、より間違った回答を得られることを示す。
論文 参考訳(メタデータ) (2024-10-31T13:01:46Z) - A Debate-Driven Experiment on LLM Hallucinations and Accuracy [7.821303946741665]
本研究では,大規模言語モデル(LLM)における幻覚現象について検討する。
GPT-4o-Miniモデルの複数のインスタンスは、TrathfulQAデータセットからの質問によって引き起こされた議論のような相互作用に関与している。
1つのモデルは、もっともらしいが偽の答えを生成するように故意に指示され、他のモデルは真に応答するように要求される。
論文 参考訳(メタデータ) (2024-10-25T11:41:27Z) - Knowledge Overshadowing Causes Amalgamated Hallucination in Large Language Models [65.32990889402927]
「我々はこの現象を知識の誇張として造る。」
その結果, 幻覚率の増大は, 不均衡比と支配的条件記述の長さに左右されることがわかった。
本稿では,その発生前に幻覚をキャッチするための信号として,オーバーシェーディング条件を用いることを提案する。
論文 参考訳(メタデータ) (2024-07-10T20:37:42Z) - Prescribing the Right Remedy: Mitigating Hallucinations in Large Vision-Language Models via Targeted Instruction Tuning [15.156359255401812]
そこで本研究では,異なるモデルの幻覚特異性に合わせたDFTGという命令データ生成フレームワークを提案する。
幻覚ベンチマークによる実験結果から,本手法で生成した目標命令データの方が,従来よりも幻覚の緩和に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-04-16T07:14:32Z) - On Large Language Models' Hallucination with Regard to Known Facts [74.96789694959894]
大規模な言語モデルはファクトイドの質問に答えることに成功したが、幻覚を起こす傾向がある。
正しい解答知識を持つLLMの現象を推論力学の観点から検討する。
我々の研究は、LLMの幻覚が既知の事実について、そしてより重要なのは、幻覚を正確に予測する理由を理解することに光を当てた。
論文 参考訳(メタデータ) (2024-03-29T06:48:30Z) - Less is More: Mitigating Multimodal Hallucination from an EOS Decision Perspective [55.41815486466186]
大規模なマルチモーダルモデル(LMM)は、視覚的な入力に存在しないコンテンツを生成するため、しばしば多モーダル幻覚に悩まされる。
本稿では,モデルが生成をタイムリーに終了する能力を阻害する,過度に詳細なトレーニングデータについて検討する。
生成したテキストと画像を比較し,シーケンス全体の完全性を評価する。
論文 参考訳(メタデータ) (2024-02-22T13:33:13Z) - Alleviating Hallucinations of Large Language Models through Induced
Hallucinations [67.35512483340837]
大規模言語モデル(LLM)は、不正確な情報や製造された情報を含む応答を生成するために観察されている。
幻覚を緩和するための単純なtextitInduce-then-Contrast Decoding (ICD) 戦略を提案する。
論文 参考訳(メタデータ) (2023-12-25T12:32:49Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。