論文の概要: Fast & Faithful Function Vectors
- arxiv url: http://arxiv.org/abs/2606.05079v1
- Date: Wed, 03 Jun 2026 16:36:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.900948
- Title: Fast & Faithful Function Vectors
- Title(参考訳): 高速かつ忠実な関数ベクトル
- Authors: Minh An Pham, Anton Segeler, Thomas Wiegand, Wojciech Samek, Sebastian Lapuschkin, Patrick Kahardipraja, Reduan Achtibat,
- Abstract要約: 関数ベクトル (FV) は、大規模言語モデル (LLM) を操るのに使用できる、コンテキスト内学習中に引き起こされるタスク表現である。
注意点選択とステアリングの2つの自由度に沿った指示に対する異なるFV定義の影響について検討した。
- 参考スコア(独自算出の注目度): 24.484350585583233
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Function vectors (FVs) are task representations elicited during in-context learning that can be used to steer Large Language Models (LLMs). However, design choices in their formulation remain underexplored. In this work, we study the impact of varying FV definitions for instructions along two degrees of freedom: attention head selection and steering. For head selection, using gradient-based attributions with Layer-wise Relevance Propagation (LRP) substantially improves efficiency as well as accuracy. For FV steering, applying it in a distributed manner yields a higher accuracy compared to simple aggregation. Our code is publicly available.
- Abstract(参考訳): 関数ベクトル (FV) は、大規模言語モデル (LLM) を操るのに使用できる、コンテキスト内学習中に引き起こされるタスク表現である。
しかし、その定式化における設計上の選択は未定のままである。
本研究では,異なるFV定義が2つの自由度(アテンションヘッドの選択とステアリング)に沿って与える影響について検討する。
頭部選択では,レイヤワイド・レバレンス・プロパゲーション(LRP, Layer-wise Relevance Propagation)による勾配に基づく属性を用いることで,効率と精度が大幅に向上する。
FVステアリングでは、これを分散的に適用すると単純なアグリゲーションよりも高い精度が得られる。
私たちのコードは公開されています。
関連論文リスト
- VSPO: Vector-Steered Policy Optimization for Behavioral Control [30.80095775190934]
本稿では,言語モデルに対するVector-Steered Policy Optimization (VSPO)を提案する。
VSPOは、ターゲットの振る舞いに関連するステアリングベクトルを使用して、生成されたロールアウトの挙動強度を制御する。
VSPOはタスクの正確性を維持したり改善したりしながら、目標行動に沿った制御を一貫して改善することを示す。
論文 参考訳(メタデータ) (2026-05-15T04:31:06Z) - DISCO: Disentangled Communication Steering for Large Language Models [3.4065590965511436]
本稿では,アテンションヘッド内のクエリおよび値表現空間に直接ステアリングベクトルを注入することを提案する。
本研究では,DISCOステアリング(disentangled Communication, Disentangled Communication,DISCO)と呼ばれる手法がアテンションヘッド出力に与える影響を解析的に評価する。
論文 参考訳(メタデータ) (2025-09-20T21:56:03Z) - REAL: Reading Out Transformer Activations for Precise Localization in Language Model Steering [26.428347164111926]
推論時ステアリングは、パラメータを変更することなく、大きな言語モデルの応答を変更することを目的としている。
既存のアプローチはしばしば単純化的なキューやアドホックな一般化に依存している。
本稿では,Transformerモデルにおける振る舞い関連モジュールを識別するフレームワークであるREALを紹介する。
論文 参考訳(メタデータ) (2025-06-10T02:16:50Z) - Comparing Bottom-Up and Top-Down Steering Approaches on In-Context Learning Tasks [7.363811256593798]
大規模言語モデルにおける解釈可能性研究の主目的は、望ましい行動に向けてモデルをしっかりと操る手法を開発することである。
本研究は, 各ブランチにおける代表ベクトルステアリング手法の有効性を比較したケーススタディである。
ICVは行動シフトにおいてFVよりも優れており、FVはより精度の高いタスクにおいて優れていた。
論文 参考訳(メタデータ) (2024-11-11T18:36:17Z) - Knowledge Composition using Task Vectors with Learned Anisotropic Scaling [51.4661186662329]
本稿では,パラメータブロックと異なる学習係数を線形に組み合わせ,タスクベクトルレベルでの異方性スケーリングを実現するアルゴリズムであるaTLASを紹介する。
このような線形結合は事前学習されたモデルの低内在性を明示的に利用しており、学習可能なパラメータは数係数のみであることを示す。
本稿では,タスク算術,少数ショット認識,テスト時間適応において,教師なしあるいは教師なしの目的を用いた手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-07-03T07:54:08Z) - LoFiT: Localized Fine-tuning on LLM Representations [60.99814930367597]
LoFiT(Localized Fine-Tuning on LLM Representations)というフレームワークを導入する。
LoFiTは、特定のタスクを学習する上で最も重要なアテンションヘッドのサブセットを特定し、それからオフセットベクトルをトレーニングして、選択したヘッドでモデルの隠れ表現に追加する。
真理性や推論タスクにおいて,LoFiTの介入ベクトルは推論時間干渉などの表現介入手法のベクトルよりもLLM適応に有効であることがわかった。
論文 参考訳(メタデータ) (2024-06-03T17:45:41Z) - Beyond Prototypes: Semantic Anchor Regularization for Better
Representation Learning [82.29761875805369]
表現学習の最終的な目標の1つは、クラス内のコンパクトさとクラス間の十分な分離性を達成することである。
本稿では,機能セントロイドとして機能する事前定義されたクラスアンカーを用いて,特徴学習を一方向ガイドする新しい視点を提案する。
提案したSemantic Anchor Regularization (SAR) は,既存モデルのプラグアンドプレイ方式で使用することができる。
論文 参考訳(メタデータ) (2023-12-19T05:52:38Z) - Scalable Rule-Based Representation Learning for Interpretable
Classification [12.736847587988853]
ルールベースのLearner Representation (RRL)は、データ表現と分類のための解釈可能な非ファジィ規則を学習する。
RRLは容易に調整でき、異なるシナリオの分類精度とモデルの複雑さのトレードオフを得ることができる。
論文 参考訳(メタデータ) (2021-09-30T13:07:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。