Fugu-MT 論文翻訳(概要): Inference-Time Intervention: Eliciting Truthful Answers from a Language Model

論文の概要: Inference-Time Intervention: Eliciting Truthful Answers from a Language Model

arxiv url: http://arxiv.org/abs/2306.03341v5
Date: Fri, 20 Oct 2023 01:37:21 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-24 04:24:38.430765
Title: Inference-Time Intervention: Eliciting Truthful Answers from a Language Model
Title（参考訳）: 推測時間干渉:言語モデルからの真理回答の除去
Authors: Kenneth Li, Oam Patel, Fernanda Vi\'egas, Hanspeter Pfister, Martin Wattenberg
Abstract要約: Inference-Time Intervention (ITI)は,大規模言語モデル(LLM)の「真実性」を高める技術である。 ITIは、推論中にモデルのアクティベーションをシフトし、限られた数の注意ヘッドにまたがる一連の方向に従う。以上の結果から, LLMは表面の虚偽を生じるとしても, 真実の可能性を内部的に表現できる可能性が示唆された。
参考スコア（独自算出の注目度）: 66.10330070077583
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce Inference-Time Intervention (ITI), a technique designed to enhance the "truthfulness" of large language models (LLMs). ITI operates by shifting model activations during inference, following a set of directions across a limited number of attention heads. This intervention significantly improves the performance of LLaMA models on the TruthfulQA benchmark. On an instruction-finetuned LLaMA called Alpaca, ITI improves its truthfulness from 32.5% to 65.1%. We identify a tradeoff between truthfulness and helpfulness and demonstrate how to balance it by tuning the intervention strength. ITI is minimally invasive and computationally inexpensive. Moreover, the technique is data efficient: while approaches like RLHF require extensive annotations, ITI locates truthful directions using only few hundred examples. Our findings suggest that LLMs may have an internal representation of the likelihood of something being true, even as they produce falsehoods on the surface.
Abstract（参考訳）: Inference-Time Intervention (ITI)は,大規模言語モデル(LLM)の「真実性」を高める技術である。 ITIは、推論中にモデルのアクティベーションをシフトし、限られた数の注意ヘッドにまたがる一連の方向に従う。この介入により、TruthfulQAベンチマークにおけるLLaMAモデルの性能が大幅に向上する。アルパカ (Alpaca) と呼ばれる命令を微調整したLLaMAでは、ITIは真実性を32.5%から65.1%に改善している。真理と有益さのトレードオフを特定し,介入力の調整によってバランスをとる方法を示す。 ITIは最小限の侵襲性と計算コストがかかる。さらに、この手法はデータ効率が良い: RLHFのようなアプローチは広範なアノテーションを必要とするが、ITIは数百の例を使って真正な方向を見つける。以上の結果から, LLMは表面の虚偽を生じるとしても, 真実の可能性を内部的に表現できる可能性が示唆された。

関連論文リスト

Reliable Annotations with Less Effort: Evaluating LLM-Human Collaboration in Search Clarifications [21.698669254520475]
本研究は,高品質な多次元データセットを活用した探索明確化作業のためのアノテーションに焦点を当てた。最新のモデルでさえ、主観的またはきめ細かい評価タスクにおいて、人間レベルのパフォーマンスを再現するのに苦労していることを示す。本稿では,信頼しきい値とモデル間不一致を利用して人間レビューを選択的に含む,シンプルで効果的なHuman-in-the-loop(HITL)ワークフローを提案する。
論文参考訳（メタデータ） (2025-07-01T08:04:58Z)
LUNAR: LLM Unlearning via Neural Activation Redirection [20.60687563657169]
大規模言語モデル(LLM)は、はるかに大量のテキストデータのトレーニングの恩恵を受けるが、個人情報を漏洩するリスクはますます高まっている。線形表現仮説に基づく新しいアンラーニング手法であるLUNARを提案する。我々は,LUNARが,推論中の未学習モデルの制御性を著しく向上しつつ,最先端の未学習性能を達成することを示す。
論文参考訳（メタデータ） (2025-02-11T03:23:22Z)
Boosting LLM-based Relevance Modeling with Distribution-Aware Robust Learning [14.224921308101624]
本稿では,関係モデリングのための新しい分布認識ロバスト学習フレームワーク(DaRL)を提案する。 DaRLはAlipayの保険商品検索のためにオンラインで展開されている。
論文参考訳（メタデータ） (2024-12-17T03:10:47Z)
Exploring Knowledge Boundaries in Large Language Models for Retrieval Judgment [56.87031484108484]
大規模言語モデル(LLM)は、その実践的応用でますます認識されている。 Retrieval-Augmented Generation (RAG)はこの課題に取り組み、LLMに大きな影響を与えている。中立あるいは有害な結果をもたらす検索要求を最小化することにより、時間と計算コストの両方を効果的に削減できる。
論文参考訳（メタデータ） (2024-11-09T15:12:28Z)
Enhanced Language Model Truthfulness with Learnable Intervention and Uncertainty Expression [19.69104070561701]
大きな言語モデル(LLM)は長文で一貫性のあるテキストを生成することができるが、事実を幻覚させることが多い。真性最適化のための学習可能なインターベンション手法であるLITOを提案する。複数のLLMと質問応答データセットの実験は、LITOがタスク精度を維持しながら真理性を改善することを示した。
論文参考訳（メタデータ） (2024-05-01T03:50:09Z)
LLM In-Context Recall is Prompt Dependent [0.0]
これを行うモデルの能力は、実世界のアプリケーションにおける実用性と信頼性に大きな影響を及ぼす。本研究は, LLMのリコール能力がプロンプトの内容に影響を及ぼすだけでなく, トレーニングデータのバイアスによって損なわれる可能性があることを示す。
論文参考訳（メタデータ） (2024-04-13T01:13:59Z)
Test-Time Zero-Shot Temporal Action Localization [58.84919541314969]
ZS-TALは、トレーニング中に目に見えないビデオのアクションを特定し、見つけようとしている。トレーニングベースのZS-TALアプローチは、教師あり学習のためのラベル付きデータの可用性を前提としている。時間的行動ローカライゼーション(T3AL)のためのテスト時間適応を行う新しい手法を提案する。
論文参考訳（メタデータ） (2024-04-08T11:54:49Z)
Non-Linear Inference Time Intervention: Improving LLM Truthfulness [0.0]
Inference Time Intervention (ITI) フレームワークを開発した。この改善は、非線形多点探索および多点介入の導入において現れている。 ITIの基準値に対して16%以上のMC1改善が報告された。
論文参考訳（メタデータ） (2024-03-27T15:22:16Z)
Characterizing Truthfulness in Large Language Model Generations with Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文参考訳（メタデータ） (2024-02-28T04:56:21Z)
InferAligner: Inference-Time Alignment for Harmlessness through Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文参考訳（メタデータ） (2024-01-20T10:41:03Z)
Ladder-of-Thought: Using Knowledge as Steps to Elevate Stance Detection [73.31406286956535]
姿勢検出タスクにLadder-of-Thought(LoT)を導入する。 LoTは、小さなLMに高品質な外部知識を同化させ、生成した中間的論理を精査するように指示する。実験では, 姿勢検出タスクにおけるCoTのGPT-3.5よりも16%改善し, 10%向上した。
論文参考訳（メタデータ） (2023-08-31T14:31:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。