論文の概要: A Unified Understanding and Evaluation of Steering Methods
- arxiv url: http://arxiv.org/abs/2502.02716v1
- Date: Tue, 04 Feb 2025 20:55:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 16:28:50.859995
- Title: A Unified Understanding and Evaluation of Steering Methods
- Title(参考訳): ステアリング手法の統一的理解と評価
- Authors: Shawn Im, Yixuan Li,
- Abstract要約: ステアリング法は、中間活性化にステアリングベクトルを適用することにより、大きな言語モデルを制御するための実践的なアプローチを提供する。
その重要性は増しているが、この分野には、タスクやデータセット間で統一された理解と一貫した評価が欠けている。
本稿では, ステアリング手法を解析・評価し, 基本原理を定式化し, 有効性に関する理論的知見を提供する統一的枠組みを提案する。
- 参考スコア(独自算出の注目度): 17.420727709895736
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Steering methods provide a practical approach to controlling large language models by applying steering vectors to intermediate activations, guiding outputs toward desired behaviors while avoiding retraining. Despite their growing importance, the field lacks a unified understanding and consistent evaluation across tasks and datasets, hindering progress. This paper introduces a unified framework for analyzing and evaluating steering methods, formalizing their core principles and offering theoretical insights into their effectiveness. Through comprehensive empirical evaluations on multiple-choice and open-ended text generation tasks, we validate these insights, identifying key factors that influence performance and demonstrating the superiority of certain methods. Our work bridges theoretical and practical perspectives, offering actionable guidance for advancing the design, optimization, and deployment of steering methods in LLMs.
- Abstract(参考訳): ステアリング手法は、ステアリングベクトルを中間活性化に適用し、出力を所望の動作に誘導し、再訓練を回避し、大きな言語モデルを制御する実践的なアプローチを提供する。
この分野の重要性は増しているが、タスクやデータセット全体に対する統一的な理解と一貫した評価が欠如しており、進歩を妨げている。
本稿では, ステアリング手法を解析・評価し, 基本原理を定式化し, 有効性に関する理論的知見を提供する統一的枠組みを提案する。
複数選択およびオープンなテキスト生成タスクに関する総合的な実証的評価を通じて、これらの知見を検証し、性能に影響を及ぼす重要な要因を特定し、特定の手法の優越性を実証する。
我々の研究は理論的および実践的な視点を橋渡しし、LLMにおけるステアリング手法の設計、最適化、展開を進めるための実用的なガイダンスを提供する。
関連論文リスト
- A Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems [93.8285345915925]
推論(Reasoning)は、論理的推論、問題解決、意思決定を可能にする基本的な認知プロセスである。
大規模言語モデル(LLM)の急速な進歩により、推論は高度なAIシステムを区別する重要な能力として浮上した。
我々は,(1)推論が達成される段階を定義するレジーム,(2)推論プロセスに関与するコンポーネントを決定するアーキテクチャの2つの側面に沿って既存の手法を分類する。
論文 参考訳(メタデータ) (2025-04-12T01:27:49Z) - Why Reasoning Matters? A Survey of Advancements in Multimodal Reasoning (v1) [66.51642638034822]
推論は人間の知性の中心であり、多様なタスクにまたがる構造化された問題解決を可能にする。
大規模言語モデル(LLM)の最近の進歩は、算術、常識、記号領域における推論能力を大幅に向上させてきた。
本稿では,テキストおよびマルチモーダルLLMにおける推論手法の簡潔かつ洞察に富んだ概要について述べる。
論文 参考訳(メタデータ) (2025-04-04T04:04:56Z) - How to Probe: Simple Yet Effective Techniques for Improving Post-hoc Explanations [69.72654127617058]
ポストホック重要属性法は、ディープニューラルネットワーク(DNN)を"説明"するための一般的なツールである
この研究において、我々はこの概念に挑戦する経験的証拠を提示する。
トレーニング済みモデルの分類レイヤのトレーニング詳細が重要な役割を果たすことを示す。
論文 参考訳(メタデータ) (2025-03-01T22:25:11Z) - Unlearning with Control: Assessing Real-world Utility for Large Language Model Unlearning [97.2995389188179]
最近の研究は、勾配上昇(GA)を通した大規模言語モデル(LLM)の未学習にアプローチし始めている。
その単純さと効率性にもかかわらず、我々はGAベースの手法が過剰な未学習の傾向に直面することを示唆している。
過剰な未学習の度合いを制御できるいくつかの制御手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - Reasoning Abilities of Large Language Models: In-Depth Analysis on the Abstraction and Reasoning Corpus [4.569421189811511]
大規模言語モデル(LLM)の推論と文脈理解能力を評価する新しい手法を提案する。
思考仮説言語(LoTH:Logical Coherence, compositionality, Productivity)の3つの重要なコンポーネントに注目します。
実験の結果,LSMは推論能力を示す一方で,これらの3つの側面において,人間レベルの推論に遅れが生じることが判明した。
論文 参考訳(メタデータ) (2024-03-18T13:50:50Z) - Standardizing Your Training Process for Human Activity Recognition
Models: A Comprehensive Review in the Tunable Factors [4.199844472131922]
ウェアラブルヒューマンアクティビティ認識(WHAR)分野における現代ディープラーニング研究の総括的レビューを行う。
この結果から,モデルトレーニングプロトコルが提供する詳細が欠如していることが示唆された。
分析から得られた知見をもとに,WHARモデルに適合した新たな統合トレーニング手順を定義する。
論文 参考訳(メタデータ) (2024-01-10T17:45:28Z) - Personalized Decision Supports based on Theory of Mind Modeling and
Explainable Reinforcement Learning [0.9071985476473737]
我々は、心の理論(ToM)モデリングと説明可能な強化学習(XRL)を組み合わせた、パーソナライズされた意思決定支援システムを提案する。
提案システムは,エンドユーザが容易に解釈可能な,正確でパーソナライズされた介入を生成する。
論文 参考訳(メタデータ) (2023-12-13T00:37:17Z) - A collection of principles for guiding and evaluating large language
models [5.412690203810726]
文献から220の原則のリストを特定し、キュレートし、37のコア原則を7つのカテゴリに分類する。
われわれは、主観的重要性の専門家に異なる原則を課す、小規模の専門家調査を実施している。
原則の共有モデルの開発は、複数の目的を達成することができると想定しています。
論文 参考訳(メタデータ) (2023-12-04T12:06:12Z) - Provable Representation with Efficient Planning for Partial Observable Reinforcement Learning [74.67655210734338]
ほとんどの実世界の強化学習アプリケーションでは、状態情報は部分的にしか観測できないため、マルコフ決定プロセスの仮定を破る。
我々は、部分的な観察から実践的な強化学習のためのコヒーレントな枠組みと抽出可能なアルゴリズムアプローチへと導く表現に基づく視点を開発する。
提案アルゴリズムは,様々なベンチマークで部分的な観察を行い,最先端の性能を超えることができることを実証的に実証した。
論文 参考訳(メタデータ) (2023-11-20T23:56:58Z) - Learning Transferable Conceptual Prototypes for Interpretable
Unsupervised Domain Adaptation [79.22678026708134]
本稿では,Transferable Prototype Learning (TCPL) という,本質的に解釈可能な手法を提案する。
この目的を達成するために、ソースドメインからターゲットドメインにカテゴリの基本概念を転送する階層的なプロトタイプモジュールを設計し、基礎となる推論プロセスを説明するためにドメイン共有プロトタイプを学習する。
総合的な実験により,提案手法は有効かつ直感的な説明を提供するだけでなく,従来の最先端技術よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-12T06:36:41Z) - Re-Reading Improves Reasoning in Large Language Models [87.46256176508376]
既成のLarge Language Models (LLM) の推論能力を高めるため, 単純で汎用的で効果的なプロンプト手法であるRe2を導入する。
CoT (Chain-of-Thought) など、ほとんどの思考を刺激する手法とは異なり、Re2 は質問を2回処理することで入力に焦点を移し、理解プロセスを強化する。
提案手法の有効性と汎用性を検証するため,14のデータセットにまたがる広範囲な推論ベンチマークでRe2を評価した。
論文 参考訳(メタデータ) (2023-09-12T14:36:23Z) - Post Hoc Explanations of Language Models Can Improve Language Models [43.2109029463221]
AMPLIFY(Post Hoc Explanations)を用いたインコンテキスト学習の活用によるモデル性能向上のための新しいフレームワークを提案する。
我々は,各入力特徴がモデル予測に与える影響を抽出し,帰属スコア(説明)を出力するポストホック説明手法を活用する。
AMPLIFYは,幅広いタスクに対して約10~25%の精度向上を実現している。
論文 参考訳(メタデータ) (2023-05-19T04:46:04Z) - Simple Control Baselines for Evaluating Transfer Learning [1.0499611180329802]
我々は,伝達学習のパフォーマンスを定量化し,伝達することを目的とした評価基準を共有している。
自己教師型学習に関するいくつかの基本的な質問について,実証的研究を例に紹介する。
論文 参考訳(メタデータ) (2022-02-07T17:26:26Z) - Hierarchical Variational Imitation Learning of Control Programs [131.7671843857375]
パラメータ化された階層的手順(PHP)で表される制御ポリシーの模倣学習のための変分推論手法を提案する。
本手法は, 教師による実演の観察・行動トレースのデータセットにおける階層構造を, 手続き呼び出しや用語の待ち行列に近似した後続分布を学習することによって発見する。
階層的模倣学習(hierarchical mimicion learning)の文脈における変分推論の新たな利点を実証する。
論文 参考訳(メタデータ) (2019-12-29T08:57:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。