論文の概要: Adaptive Activation Steering: A Tuning-Free LLM Truthfulness Improvement Method for Diverse Hallucinations Categories
- arxiv url: http://arxiv.org/abs/2406.00034v1
- Date: Sun, 26 May 2024 21:39:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-09 16:09:32.330911
- Title: Adaptive Activation Steering: A Tuning-Free LLM Truthfulness Improvement Method for Diverse Hallucinations Categories
- Title(参考訳): アダプティブ・アクティベーション・ステアリング:多変量幻覚カテゴリーのチューニング自由LLM真性改善法
- Authors: Tianlong Wang, Xianfeng Jiao, Yifan He, Zhongzhi Chen, Yinghao Zhu, Xu Chu, Junyi Gao, Yasha Wang, Liantao Ma,
- Abstract要約: 本稿では,適応的アクティベーションステアリング(ACT)について紹介する。
ACT は LLaMA (uparrow$%), LLaMA2 (uparrow$24%), Alpaca (uparrow$36%), Vicuna (uparrow$28%), LLaMA2-Chat (uparrow$19%) の真偽性を大幅に改善する
- 参考スコア(独自算出の注目度): 16.738620412735177
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies have indicated that Large Language Models (LLMs) harbor an inherent understanding of truthfulness, yet often fail to express fully and generate false statements. This gap between "knowing" and "telling" poses a challenge for ensuring the truthfulness of generated content. To address this, we introduce Adaptive Activation Steering (ACT), a tuning-free method that adaptively shift LLM's activations in "truthful" direction during inference. ACT addresses diverse categories of hallucinations by utilizing diverse steering vectors and adjusting the steering intensity adaptively. Applied as an add-on across various models, ACT significantly improves truthfulness in LLaMA ($\uparrow$ 142\%), LLaMA2 ($\uparrow$ 24\%), Alpaca ($\uparrow$ 36\%), Vicuna ($\uparrow$ 28\%), and LLaMA2-Chat ($\uparrow$ 19\%). Furthermore, we verify ACT's scalability across larger models (13B, 33B, 65B), underscoring the adaptability of ACT to large-scale language models.
- Abstract(参考訳): 近年の研究では、Large Language Models (LLMs) は真理性の本質的な理解を保ちつつも、完全表現に失敗し、虚偽の文を生成することが示されている。
この"知識"と"テリング"のギャップは、生成されたコンテンツの真実性を保証する上での課題となる。
そこで本研究では,適応的アクティベーションステアリング (ACT) を導入し,LLMのアクティベーションを推論中に「真正」な方向に適応的にシフトさせるチューニング不要な手法を提案する。
ACTは多様な操舵ベクトルを利用し、操舵強度を適応的に調整することで、幻覚の様々なカテゴリーに対処する。
さまざまなモデルのアドオンとして、ACTはLLaMA($142\%)、LLaMA2($24\%)、Alpaca($36\%)、Vicuna($28\%)、LLaMA2-Chat($19\%)の真正性を大幅に改善する。
さらに,大規模モデル (13B, 33B, 65B) におけるACTのスケーラビリティを検証する。
関連論文リスト
- Enhanced Language Model Truthfulness with Learnable Intervention and Uncertainty Expression [19.69104070561701]
大きな言語モデル(LLM)は長文で一貫性のあるテキストを生成することができるが、事実を幻覚させることが多い。
真性最適化のための学習可能なインターベンション手法であるLITOを提案する。
複数のLLMと質問応答データセットの実験は、LITOがタスク精度を維持しながら真理性を改善することを示した。
論文 参考訳(メタデータ) (2024-05-01T03:50:09Z) - Fine-Grained Self-Endorsement Improves Factuality and Reasoning [72.83651220132495]
本研究は, 大規模言語モデル (LLM) 世代を推定時に改善するために, ファクト・コンプレッション・幻覚を緩和する。
本稿では,複数のサンプル応答におけるファクトレベルの詳細な比較を生かした自己組織化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-23T22:24:40Z) - ProSparse: Introducing and Enhancing Intrinsic Activation Sparsity within Large Language Models [74.59731375779934]
活性化スパーシリティ(Activation sparsity)とは、活性化出力の間に弱い分散要素が存在することを指す。
本稿では,PLMを高活性化空間にプッシュするために,"ProSparse" という,シンプルで効果的なスペース化手法を提案する。
論文 参考訳(メタデータ) (2024-02-21T03:58:49Z) - Steering Llama 2 via Contrastive Activation Addition [41.54815073311959]
コントラストアクティベーション付加(Contrastive Activation Addition、CAA)は、前方通過中にアクティベーションを変更することで言語モデルを操る手法である。
CAAは、Large Language Models (LLMs)において、どのようにハイレベルな概念が表現されるかを正確に判断し、明らかにする。
論文 参考訳(メタデータ) (2023-12-09T04:40:46Z) - Prompt Highlighter: Interactive Control for Multi-Modal LLMs [50.830448437285355]
本研究では,マルチモーダル LLM (LLMs&VLMs) 推論における重要な側面として,明示的な制御可能なテキスト生成を目標とする。
本稿では,新しい推論手法であるPrompt Highlighterを導入し,ユーザが特定のプロンプトスパンをハイライトし,生成中のフォーカスをインタラクティブに制御できるようにする。
推論中、注意重みを通して強調されたトークンでモデルを導くことで、より望ましい出力が得られます。
論文 参考訳(メタデータ) (2023-12-07T13:53:29Z) - DoLa: Decoding by Contrasting Layers Improves Factuality in Large
Language Models [79.01926242857613]
大型言語モデル(LLM)は幻覚を起こす傾向があり、事前訓練中に見られる事実から逸脱した内容を生成する。
事前学習したLLMによる幻覚を低減するための簡単な復号法を提案する。
コントラスティング・レイヤ(DoLa)アプローチによるこのデコーディングは,事実知識をよりよく提示し,誤った事実の生成を減らすことができる。
論文 参考訳(メタデータ) (2023-09-07T17:45:31Z) - Activation Addition: Steering Language Models Without Optimization [40.04138190785384]
アクティベーションエンジニアリングは、モデル動作を予測可能に変更するために、推論時のアクティベーションを変更する。
ActAddは微調整やRLHFよりも計算と実装の労力がはるかに少ない。
その計算オーバーヘッドは、モデルサイズの増加よりも安定または改善しているように見える。
論文 参考訳(メタデータ) (2023-08-20T12:21:05Z) - Inference-Time Intervention: Eliciting Truthful Answers from a Language Model [61.88942482411035]
Inference-Time Intervention (ITI)は,大規模言語モデル(LLM)の「真実性」を高める技術である。
ITIは、推論中にモデルのアクティベーションをシフトし、限られた数の注意ヘッドにまたがる一連の方向に従う。
以上の結果から, LLMは表面の虚偽を生じるとしても, 真実の可能性を内部的に表現できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-06-06T01:26:53Z) - Large Language Models Are Latent Variable Models: Explaining and Finding
Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。
本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文 参考訳(メタデータ) (2023-01-27T18:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。