論文の概要: Inference-Time Intervention: Eliciting Truthful Answers from a Language
Model
- arxiv url: http://arxiv.org/abs/2306.03341v2
- Date: Wed, 7 Jun 2023 00:27:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-08 10:45:46.162926
- Title: Inference-Time Intervention: Eliciting Truthful Answers from a Language
Model
- Title(参考訳): 推測時間干渉:言語モデルからの真理回答の除去
- Authors: Kenneth Li, Oam Patel, Fernanda Vi\'egas, Hanspeter Pfister, Martin
Wattenberg
- Abstract要約: 大規模言語モデル(LLM)の真正性を高めるために,ITI(Inference-Time Intervention)を導入する。
ITIは、推論中にモデルのアクティベーションをシフトし、限られた数の注意ヘッドにまたがる一連の方向に従う。
以上の結果から, LLMは表面の虚偽を生じるとしても, 真実の可能性を内部的に表現できる可能性が示唆された。
- 参考スコア(独自算出の注目度): 77.78460456329039
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Inference-Time Intervention (ITI), a technique designed to
enhance the truthfulness of large language models (LLMs). ITI operates by
shifting model activations during inference, following a set of directions
across a limited number of attention heads. This intervention significantly
improves the performance of LLaMA models on the TruthfulQA benchmark. On an
instruction-finetuned LLaMA called Alpaca, ITI improves its truthfulness from
32.5% to 65.1%. We identify a tradeoff between truthfulness and helpfulness and
demonstrate how to balance it by tuning the intervention strength. ITI is
minimally invasive and computationally inexpensive. Moreover, the technique is
data efficient: while approaches like RLHF require extensive annotations, ITI
locates truthful directions using only few hundred examples. Our findings
suggest that LLMs may have an internal representation of the likelihood of
something being true, even as they produce falsehoods on the surface.
- Abstract(参考訳): Inference-Time Intervention (ITI)は,大規模言語モデル(LLM)の真正性を高めるために設計された手法である。
ITIは、推論中にモデルのアクティベーションをシフトし、限られた数の注意ヘッドにまたがる一連の方向に従う。
この介入により、TruthfulQAベンチマークにおけるLLaMAモデルの性能が大幅に向上する。
アルパカ (Alpaca) と呼ばれる命令を微調整したLLaMAでは、ITIは真実性を32.5%から65.1%に改善している。
真理と有益さのトレードオフを特定し,介入力の調整によってバランスをとる方法を示す。
ITIは最小限の侵襲性と計算コストがかかる。
さらに、この手法はデータ効率が良い: RLHFのようなアプローチは広範なアノテーションを必要とするが、ITIは数百の例を使って真正な方向を見つける。
以上の結果から, LLMは表面の虚偽を生じるとしても, 真実の可能性を内部的に表現できる可能性が示唆された。
関連論文リスト
- Exploring Knowledge Boundaries in Large Language Models for Retrieval Judgment [56.87031484108484]
大規模言語モデル(LLM)は、その実践的応用でますます認識されている。
Retrieval-Augmented Generation (RAG)はこの課題に取り組み、LLMに大きな影響を与えている。
中立あるいは有害な結果をもたらす検索要求を最小化することにより、時間と計算コストの両方を効果的に削減できる。
論文 参考訳(メタデータ) (2024-11-09T15:12:28Z) - Enhanced Language Model Truthfulness with Learnable Intervention and Uncertainty Expression [19.69104070561701]
大きな言語モデル(LLM)は長文で一貫性のあるテキストを生成することができるが、事実を幻覚させることが多い。
真性最適化のための学習可能なインターベンション手法であるLITOを提案する。
複数のLLMと質問応答データセットの実験は、LITOがタスク精度を維持しながら真理性を改善することを示した。
論文 参考訳(メタデータ) (2024-05-01T03:50:09Z) - LLM In-Context Recall is Prompt Dependent [0.0]
これを行うモデルの能力は、実世界のアプリケーションにおける実用性と信頼性に大きな影響を及ぼす。
本研究は, LLMのリコール能力がプロンプトの内容に影響を及ぼすだけでなく, トレーニングデータのバイアスによって損なわれる可能性があることを示す。
論文 参考訳(メタデータ) (2024-04-13T01:13:59Z) - Test-Time Zero-Shot Temporal Action Localization [58.84919541314969]
ZS-TALは、トレーニング中に目に見えないビデオのアクションを特定し、見つけようとしている。
トレーニングベースのZS-TALアプローチは、教師あり学習のためのラベル付きデータの可用性を前提としている。
時間的行動ローカライゼーション(T3AL)のためのテスト時間適応を行う新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-08T11:54:49Z) - Non-Linear Inference Time Intervention: Improving LLM Truthfulness [0.0]
Inference Time Intervention (ITI) フレームワークを開発した。
この改善は、非線形多点探索および多点介入の導入において現れている。
ITIの基準値に対して16%以上のMC1改善が報告された。
論文 参考訳(メタデータ) (2024-03-27T15:22:16Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - Ladder-of-Thought: Using Knowledge as Steps to Elevate Stance Detection [73.31406286956535]
姿勢検出タスクにLadder-of-Thought(LoT)を導入する。
LoTは、小さなLMに高品質な外部知識を同化させ、生成した中間的論理を精査するように指示する。
実験では, 姿勢検出タスクにおけるCoTのGPT-3.5よりも16%改善し, 10%向上した。
論文 参考訳(メタデータ) (2023-08-31T14:31:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。