論文の概要: Unfamiliar Finetuning Examples Control How Language Models Hallucinate
- arxiv url: http://arxiv.org/abs/2403.05612v1
- Date: Fri, 8 Mar 2024 18:28:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 12:58:32.497916
- Title: Unfamiliar Finetuning Examples Control How Language Models Hallucinate
- Title(参考訳): 未知のファインタニング例による言語モデルの幻覚制御
- Authors: Katie Kang, Eric Wallace, Claire Tomlin, Aviral Kumar, Sergey Levine
- Abstract要約: 大規模言語モデル(LLM)は、可聴性に富むが、実際には正しくない応答を生成する傾向にある。
我々は,長期化タスクに対する幻覚をより確実に緩和するRLアプローチを開発した。
- 参考スコア(独自算出の注目度): 80.497886066705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have a tendency to generate plausible-sounding
yet factually incorrect responses, especially when queried on unfamiliar
concepts. In this work, we explore the underlying mechanisms that govern how
finetuned LLMs hallucinate. Our investigation reveals an interesting pattern:
as inputs become more unfamiliar, LLM outputs tend to default towards a
``hedged'' prediction, whose form is determined by how the unfamiliar examples
in the finetuning data are supervised. Thus, by strategically modifying these
examples' supervision, we can control LLM predictions for unfamiliar inputs
(e.g., teach them to say ``I don't know''). Based on these principles, we
develop an RL approach that more reliably mitigates hallucinations for
long-form generation tasks, by tackling the challenges presented by reward
model hallucinations. We validate our findings with a series of controlled
experiments in multiple-choice QA on MMLU, as well as long-form biography and
book/movie plot generation tasks.
- Abstract(参考訳): 大規模言語モデル(llm)は、特に不慣れな概念を問合せした場合に、実際的に不正確な応答を生成する傾向がある。
本研究では,llmの幻覚を微調整するメカニズムについて検討する。
入力がより不慣れになるにつれて、LPM出力は `hedged'' 予測に対してデフォルトとなる傾向にあり、その形式は、微調整データの不慣れな例がどのように管理されているかによって決定される。
したがって、これらの例の監督を戦略的に修正することで、未知の入力に対してLSM予測を制御できる(例: 'I don't know')。
これらの原理に基づき、報酬モデル幻覚がもたらす課題に対処することにより、より確実に長文生成タスクの幻覚を緩和するRLアプローチを開発する。
本研究は,MMLU上での複数選択QAにおける一連の制御実験と,長文の伝記および書物プロット生成タスクで検証した。
関連論文リスト
- Exploring the Knowledge Mismatch Hypothesis: Hallucination Propensity in Small Models Fine-tuned on Data from Larger Models [0.1227734309612871]
より大型のモデルからのデータを持つ微調整言語モデルは類似しているように見えるが、より大型のモデルよりも幻覚を呈することが多い。
1つの仮説は、より大きなモデルによって生成されたデータ上でモデルを微調整すると、幻覚に寄与する知識のミスマッチにつながるというものである。
未確認テストセットでは、より大きなモデルから生成されたデータに基づいて微調整された小さなモデルの方が、小さなモデルによって生成されたデータに基づいて微調整されたモデルと比較して、より間違った回答を得られることを示す。
論文 参考訳(メタデータ) (2024-10-31T13:01:46Z) - A Debate-Driven Experiment on LLM Hallucinations and Accuracy [7.821303946741665]
本研究では,大規模言語モデル(LLM)における幻覚現象について検討する。
GPT-4o-Miniモデルの複数のインスタンスは、TrathfulQAデータセットからの質問によって引き起こされた議論のような相互作用に関与している。
1つのモデルは、もっともらしいが偽の答えを生成するように故意に指示され、他のモデルは真に応答するように要求される。
論文 参考訳(メタデータ) (2024-10-25T11:41:27Z) - Knowledge Overshadowing Causes Amalgamated Hallucination in Large Language Models [65.32990889402927]
「我々はこの現象を知識の誇張として造る。」
その結果, 幻覚率の増大は, 不均衡比と支配的条件記述の長さに左右されることがわかった。
本稿では,その発生前に幻覚をキャッチするための信号として,オーバーシェーディング条件を用いることを提案する。
論文 参考訳(メタデータ) (2024-07-10T20:37:42Z) - Prescribing the Right Remedy: Mitigating Hallucinations in Large Vision-Language Models via Targeted Instruction Tuning [15.156359255401812]
そこで本研究では,異なるモデルの幻覚特異性に合わせたDFTGという命令データ生成フレームワークを提案する。
幻覚ベンチマークによる実験結果から,本手法で生成した目標命令データの方が,従来よりも幻覚の緩和に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-04-16T07:14:32Z) - On Large Language Models' Hallucination with Regard to Known Facts [74.96789694959894]
大規模な言語モデルはファクトイドの質問に答えることに成功したが、幻覚を起こす傾向がある。
正しい解答知識を持つLLMの現象を推論力学の観点から検討する。
我々の研究は、LLMの幻覚が既知の事実について、そしてより重要なのは、幻覚を正確に予測する理由を理解することに光を当てた。
論文 参考訳(メタデータ) (2024-03-29T06:48:30Z) - Less is More: Mitigating Multimodal Hallucination from an EOS Decision Perspective [55.41815486466186]
大規模なマルチモーダルモデル(LMM)は、視覚的な入力に存在しないコンテンツを生成するため、しばしば多モーダル幻覚に悩まされる。
本稿では,モデルが生成をタイムリーに終了する能力を阻害する,過度に詳細なトレーニングデータについて検討する。
生成したテキストと画像を比較し,シーケンス全体の完全性を評価する。
論文 参考訳(メタデータ) (2024-02-22T13:33:13Z) - Alleviating Hallucinations of Large Language Models through Induced
Hallucinations [67.35512483340837]
大規模言語モデル(LLM)は、不正確な情報や製造された情報を含む応答を生成するために観察されている。
幻覚を緩和するための単純なtextitInduce-then-Contrast Decoding (ICD) 戦略を提案する。
論文 参考訳(メタデータ) (2023-12-25T12:32:49Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。