論文の概要: Inference-Time Intervention: Eliciting Truthful Answers from a Language
Model
- arxiv url: http://arxiv.org/abs/2306.03341v5
- Date: Fri, 20 Oct 2023 01:37:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 04:24:38.430765
- Title: Inference-Time Intervention: Eliciting Truthful Answers from a Language
Model
- Title(参考訳): 推測時間干渉:言語モデルからの真理回答の除去
- Authors: Kenneth Li, Oam Patel, Fernanda Vi\'egas, Hanspeter Pfister, Martin
Wattenberg
- Abstract要約: Inference-Time Intervention (ITI)は,大規模言語モデル(LLM)の「真実性」を高める技術である。
ITIは、推論中にモデルのアクティベーションをシフトし、限られた数の注意ヘッドにまたがる一連の方向に従う。
以上の結果から, LLMは表面の虚偽を生じるとしても, 真実の可能性を内部的に表現できる可能性が示唆された。
- 参考スコア(独自算出の注目度): 66.10330070077583
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Inference-Time Intervention (ITI), a technique designed to
enhance the "truthfulness" of large language models (LLMs). ITI operates by
shifting model activations during inference, following a set of directions
across a limited number of attention heads. This intervention significantly
improves the performance of LLaMA models on the TruthfulQA benchmark. On an
instruction-finetuned LLaMA called Alpaca, ITI improves its truthfulness from
32.5% to 65.1%. We identify a tradeoff between truthfulness and helpfulness and
demonstrate how to balance it by tuning the intervention strength. ITI is
minimally invasive and computationally inexpensive. Moreover, the technique is
data efficient: while approaches like RLHF require extensive annotations, ITI
locates truthful directions using only few hundred examples. Our findings
suggest that LLMs may have an internal representation of the likelihood of
something being true, even as they produce falsehoods on the surface.
- Abstract(参考訳): Inference-Time Intervention (ITI)は,大規模言語モデル(LLM)の「真実性」を高める技術である。
ITIは、推論中にモデルのアクティベーションをシフトし、限られた数の注意ヘッドにまたがる一連の方向に従う。
この介入により、TruthfulQAベンチマークにおけるLLaMAモデルの性能が大幅に向上する。
アルパカ (Alpaca) と呼ばれる命令を微調整したLLaMAでは、ITIは真実性を32.5%から65.1%に改善している。
真理と有益さのトレードオフを特定し,介入力の調整によってバランスをとる方法を示す。
ITIは最小限の侵襲性と計算コストがかかる。
さらに、この手法はデータ効率が良い: RLHFのようなアプローチは広範なアノテーションを必要とするが、ITIは数百の例を使って真正な方向を見つける。
以上の結果から, LLMは表面の虚偽を生じるとしても, 真実の可能性を内部的に表現できる可能性が示唆された。
関連論文リスト
- LITO: Learnable Intervention for Truthfulness Optimization [19.69104070561701]
大きな言語モデル(LLM)は長文で一貫性のあるテキストを生成することができるが、事実を幻覚させることが多い。
真性最適化のための学習可能なインターベンション手法であるLITOを提案する。
論文 参考訳(メタデータ) (2024-05-01T03:50:09Z) - LLM In-Context Recall is Prompt Dependent [0.0]
これを行うモデルの能力は、実世界のアプリケーションにおける実用性と信頼性に大きな影響を及ぼす。
本研究は, LLMのリコール能力がプロンプトの内容に影響を及ぼすだけでなく, トレーニングデータのバイアスによって損なわれる可能性があることを示す。
論文 参考訳(メタデータ) (2024-04-13T01:13:59Z) - Test-Time Zero-Shot Temporal Action Localization [58.84919541314969]
ZS-TALは、トレーニング中に目に見えないビデオのアクションを特定し、見つけようとしている。
トレーニングベースのZS-TALアプローチは、教師あり学習のためのラベル付きデータの可用性を前提としている。
時間的行動ローカライゼーション(T3AL)のためのテスト時間適応を行う新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-08T11:54:49Z) - NL-ITI: Optimizing Probing and Intervention for Improvement of ITI Method [0.0]
大型言語モデル(LLM)は偽情報を返す傾向がある。
Inference-Time-Intervention (ITI)は、最も多く望まれる知識を含む注意ヘッドを識別する。
非線形な探索とマルチトークンの介入を導入することで、ITIフレームワークをさらに改善した。
論文 参考訳(メタデータ) (2024-03-27T15:22:16Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - Identifying Factual Inconsistency in Summaries: Towards Effective
Utilization of Large Language Model [50.71344457241456]
この研究は2つの重要な疑問に焦点をあてる: 現実の不整合検出に大規模言語モデル(LLM)を利用する最善の方法は何か、そして、どのようにしてより小さなLCMを高い効率と有効性で蒸留できるのか?
実験の結果、LLM自体が適切なパラダイム設計の下でこのタスクを無断で解決でき、訓練されたベースラインが平均2.8%を超えることが示唆された。
実用性をさらに向上するため,我々はより小型のオープンソースLCMを蒸留し,要約全体を高精度にまとめることを目指す訓練戦略を提案する。
論文 参考訳(メタデータ) (2024-02-20T08:41:23Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - Ladder-of-Thought: Using Knowledge as Steps to Elevate Stance Detection [73.31406286956535]
姿勢検出タスクにLadder-of-Thought(LoT)を導入する。
LoTは、小さなLMに高品質な外部知識を同化させ、生成した中間的論理を精査するように指示する。
実験では, 姿勢検出タスクにおけるCoTのGPT-3.5よりも16%改善し, 10%向上した。
論文 参考訳(メタデータ) (2023-08-31T14:31:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。