論文の概要: Adaptive Activation Steering: A Tuning-Free LLM Truthfulness Improvement Method for Diverse Hallucinations Categories
- arxiv url: http://arxiv.org/abs/2406.00034v2
- Date: Wed, 26 Feb 2025 14:07:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 14:54:51.028609
- Title: Adaptive Activation Steering: A Tuning-Free LLM Truthfulness Improvement Method for Diverse Hallucinations Categories
- Title(参考訳): アダプティブ・アクティベーション・ステアリング:多変量幻覚カテゴリーのチューニング自由LLM真性改善法
- Authors: Tianlong Wang, Xianfeng Jiao, Yinghao Zhu, Zhongzhi Chen, Yifan He, Xu Chu, Junyi Gao, Yasha Wang, Liantao Ma,
- Abstract要約: 本稿では、推論中に「真理」の方向にアクティベーションをシフトさせる調整不要な手法であるアダプティブアクティベーションステアリング(ACT)を紹介する。
ACTは、多種多様な真性に関連する操舵ベクトルを利用し、操舵強度を適応的に調整することで、幻覚の様々なカテゴリに対処する。
大規模モデル(13B, 33B, 65B)におけるACTのスケーラビリティを検証する。
- 参考スコア(独自算出の注目度): 16.738620412735177
- License:
- Abstract: Recent studies have indicated that Large Language Models (LLMs) harbor an inherent understanding of truthfulness, yet often fail to consistently express it and generate false statements. This gap between "knowing" and "telling" poses a challenge for ensuring the truthfulness of generated content. Inspired by recent work on the practice of encoding human-interpretable concepts linearly within large language models, we treat truthfulness as a specially linearly encoded concept within LLMs, and introduce Adaptive Activation Steering (ACT), a tuning-free method that adaptively shifts LLM's activations in the "truthful" direction during inference. ACT addresses diverse categories of hallucinations by utilizing diverse truthfulness-related steering vectors and adjusting the steering intensity adaptively. Applied as an add-on across various models, ACT significantly improves truthfulness in LLaMA ($\uparrow$ 142%), LLaMA2 ($\uparrow$ 24%), Alpaca ($\uparrow$ 36%), Vicuna ($\uparrow$ 28%), LLaMA2-Chat ($\uparrow$ 19%), and LLaMA3($\uparrow$ 34%). Furthermore, we verify ACT's scalability across larger models (13B, 33B, 65B), underscoring the adaptability of ACT to large-scale language models. Our code is available at https://github.com/tianlwang/ACT.
- Abstract(参考訳): 近年の研究では、Large Language Models (LLM) は真理性の本質的な理解を保ちつつも、一貫して表現し、偽の文を生成することができないことが示されている。
この"知識"と"テリング"のギャップは、生成されたコンテンツの真実性を保証する上での課題となる。
人間の解釈可能な概念を大規模言語モデル内で線形に符号化する最近の研究に触発され、我々は真理をLLM内で特別に線形に符号化された概念として扱い、推論中にLLMのアクティベーションを「真実」の方向に適応的にシフトするアダプティブアクティベーションステアリング(ACT)を導入する。
ACTは、多種多様な真性に関連する操舵ベクトルを利用し、操舵強度を適応的に調整することで、幻覚の様々なカテゴリに対処する。
さまざまなモデルのアドオンとして、ACTはLLaMA($142%)、LLaMA2($24%)、Alpaca($36%)、Vicuna($28%)、LLaMA2-Chat($19%)、LLaMA3($34%)の真正性を大幅に改善する。
さらに,大規模モデル (13B, 33B, 65B) におけるACTのスケーラビリティを検証する。
私たちのコードはhttps://github.com/tianlwang/ACT.orgで公開されています。
関連論文リスト
- Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。
LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。
モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文 参考訳(メタデータ) (2024-12-19T18:08:04Z) - Identifying and Manipulating Personality Traits in LLMs Through Activation Engineering [0.0]
本研究は「アクティベーション・エンジニアリング」の新たなアプローチに基づくものである。
我々は,アクティベーションエンジニアリングを活用し,性格特性に関連するアクティベーション方向を識別・調整する手法を開発した。
論文 参考訳(メタデータ) (2024-12-10T23:15:25Z) - Sparsing Law: Towards Large Language Models with Greater Activation Sparsity [62.09617609556697]
活性化空間性は、除去できる活性化出力の中に、かなり弱い分散要素が存在することを表す。
PPL-$p%$ sparsity, a accurate and performance-aware activation sparsity metric。
我々は、SiLUよりも活性化関数としてReLUが効率的であることを示し、より多くのトレーニングデータを利用してアクティベーション空間を改善することができることを示した。
論文 参考訳(メタデータ) (2024-11-04T17:59:04Z) - Mitigating Hallucinations of Large Language Models in Medical Information Extraction via Contrastive Decoding [92.32881381717594]
医療情報抽出タスクにおける幻覚の問題を解決するために,ALCD(ALternate Contrastive Decoding)を導入する。
ALCDは, 従来の復号法に比べて幻覚の解消に有意な改善が見られた。
論文 参考訳(メタデータ) (2024-10-21T07:19:19Z) - Semantics-Adaptive Activation Intervention for LLMs via Dynamic Steering Vectors [8.761404991620285]
大規模言語モデル(LLM)の行動を修正するための効果的かつ経済的手法として活性化介入が出現した。
本稿では,モデルアクティベーションを推論時に介入するための動的ステアリングベクトルを構成する新しい手法であるSemantics-Adaptive Dynamic Intervention (SADI)を提案する。
実験結果から,SADIが確立したベースラインをかなりのマージンで上回り,トレーニングなしでのタスク性能が向上した。
論文 参考訳(メタデータ) (2024-10-16T06:58:49Z) - Activation Scaling for Steering and Interpreting Language Models [55.59689963561315]
モデルにうまく介入することは、内部の動作を解釈するための前提条件である、と我々は主張する。
成功した介入は、間違ったトークンで正しいことを正し、その逆を正すべきである。
勾配に基づく最適化を用いることで、特定の種類の効率的かつ解釈可能な介入を学習(そして後で評価)することができる。
論文 参考訳(メタデータ) (2024-10-07T12:01:32Z) - DoLa: Decoding by Contrasting Layers Improves Factuality in Large
Language Models [79.01926242857613]
大型言語モデル(LLM)は幻覚を起こす傾向があり、事前訓練中に見られる事実から逸脱した内容を生成する。
事前学習したLLMによる幻覚を低減するための簡単な復号法を提案する。
コントラスティング・レイヤ(DoLa)アプローチによるこのデコーディングは,事実知識をよりよく提示し,誤った事実の生成を減らすことができる。
論文 参考訳(メタデータ) (2023-09-07T17:45:31Z) - Inference-Time Intervention: Eliciting Truthful Answers from a Language Model [61.88942482411035]
Inference-Time Intervention (ITI)は,大規模言語モデル(LLM)の「真実性」を高める技術である。
ITIは、推論中にモデルのアクティベーションをシフトし、限られた数の注意ヘッドにまたがる一連の方向に従う。
以上の結果から, LLMは表面の虚偽を生じるとしても, 真実の可能性を内部的に表現できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-06-06T01:26:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。