論文の概要: Unfamiliar Finetuning Examples Control How Language Models Hallucinate
- arxiv url: http://arxiv.org/abs/2403.05612v1
- Date: Fri, 8 Mar 2024 18:28:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 12:58:32.497916
- Title: Unfamiliar Finetuning Examples Control How Language Models Hallucinate
- Title(参考訳): 未知のファインタニング例による言語モデルの幻覚制御
- Authors: Katie Kang, Eric Wallace, Claire Tomlin, Aviral Kumar, Sergey Levine
- Abstract要約: 大規模言語モデル(LLM)は、可聴性に富むが、実際には正しくない応答を生成する傾向にある。
我々は,長期化タスクに対する幻覚をより確実に緩和するRLアプローチを開発した。
- 参考スコア(独自算出の注目度): 80.497886066705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have a tendency to generate plausible-sounding
yet factually incorrect responses, especially when queried on unfamiliar
concepts. In this work, we explore the underlying mechanisms that govern how
finetuned LLMs hallucinate. Our investigation reveals an interesting pattern:
as inputs become more unfamiliar, LLM outputs tend to default towards a
``hedged'' prediction, whose form is determined by how the unfamiliar examples
in the finetuning data are supervised. Thus, by strategically modifying these
examples' supervision, we can control LLM predictions for unfamiliar inputs
(e.g., teach them to say ``I don't know''). Based on these principles, we
develop an RL approach that more reliably mitigates hallucinations for
long-form generation tasks, by tackling the challenges presented by reward
model hallucinations. We validate our findings with a series of controlled
experiments in multiple-choice QA on MMLU, as well as long-form biography and
book/movie plot generation tasks.
- Abstract(参考訳): 大規模言語モデル(llm)は、特に不慣れな概念を問合せした場合に、実際的に不正確な応答を生成する傾向がある。
本研究では,llmの幻覚を微調整するメカニズムについて検討する。
入力がより不慣れになるにつれて、LPM出力は `hedged'' 予測に対してデフォルトとなる傾向にあり、その形式は、微調整データの不慣れな例がどのように管理されているかによって決定される。
したがって、これらの例の監督を戦略的に修正することで、未知の入力に対してLSM予測を制御できる(例: 'I don't know')。
これらの原理に基づき、報酬モデル幻覚がもたらす課題に対処することにより、より確実に長文生成タスクの幻覚を緩和するRLアプローチを開発する。
本研究は,MMLU上での複数選択QAにおける一連の制御実験と,長文の伝記および書物プロット生成タスクで検証した。
関連論文リスト
- Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback [48.065569871444275]
我々は,LVLM(Large Vision Language Models)における幻覚の検出と緩和について,きめ細かいAIフィードバックを用いて提案する。
プロプライエタリモデルによる小型幻覚アノテーションデータセットを生成する。
そこで本研究では,幻覚緩和モデルの訓練のための選好データセットを自動構築する検出テーマ書き換えパイプラインを提案する。
論文 参考訳(メタデータ) (2024-04-22T14:46:10Z) - Alleviating Hallucinations of Large Language Models through Induced
Hallucinations [67.35512483340837]
大規模言語モデル(LLM)は、不正確な情報や製造された情報を含む応答を生成するために観察されている。
幻覚を緩和するための単純なtextitInduce-then-Contrast Decoding (ICD) 戦略を提案する。
論文 参考訳(メタデータ) (2023-12-25T12:32:49Z) - OPERA: Alleviating Hallucination in Multi-Modal Large Language Models
via Over-Trust Penalty and Retrospection-Allocation [124.9008419182485]
OPERA(Over-trust PenaltyとRetrospection-Allocation戦略に基づく新しいMLLM復号法)を提案する。
私たちのアプローチは、ほとんどの幻覚は自己注意行列の知識集約パターンと密接に結びついているという興味深い観察から始まります。
この観察に基づいて、OPERAは、ビーム探索復号時にモデルロジットにペナルティ項を導入し、オーバートラスト問題を緩和する。
論文 参考訳(メタデータ) (2023-11-29T18:57:07Z) - A Survey on Hallucination in Large Language Models: Principles,
Taxonomy, Challenges, and Open Questions [42.007305423982515]
大型言語モデル(LLM)は幻覚を生じさせ、現実の事実やユーザ入力と矛盾する内容をもたらす。
本調査は, LLM幻覚の分野での最近の進歩について, 徹底的, 徹底的に概観することを目的としている。
論文 参考訳(メタデータ) (2023-11-09T09:25:37Z) - Automatic Hallucination Assessment for Aligned Large Language Models via
Transferable Adversarial Attacks [98.22864957942821]
本稿では,大規模言語モデルが忠実に振る舞う既存データを適切に修正し,評価データを自動的に生成する手法を開発することを目的とする。
具体的には,LLM ベースのフレームワークである Auto Debug について述べる。
実験結果から, LLMは, インプロンプトに与えられた知識とパラメトリック知識との間に矛盾がある場合, 質問応答シナリオの2つのカテゴリに幻覚を与える可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language
Models [63.973142426228016]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z) - Siren's Song in the AI Ocean: A Survey on Hallucination in Large
Language Models [116.01843550398183]
大規模言語モデル(LLM)は、様々な下流タスクで顕著な機能を示している。
LLMは時折、ユーザ入力から分岐するコンテンツを生成し、以前生成されたコンテキストと矛盾する。
論文 参考訳(メタデータ) (2023-09-03T16:56:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。