論文の概要: Learning Distribution-Wise Control in Representation Space for Language Models
- arxiv url: http://arxiv.org/abs/2506.06686v1
- Date: Sat, 07 Jun 2025 06:52:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.43113
- Title: Learning Distribution-Wise Control in Representation Space for Language Models
- Title(参考訳): 言語モデルにおける表現空間における分布幅制御の学習
- Authors: Chunyuan Deng, Ruidi Chang, Hanjie Chen,
- Abstract要約: 学習可能な介入は、概念のサブスペースにポイントワイズ制御を適用することを目的としており、ハイレベルな振る舞いを変更するのに有効であることが証明されている。
我々は、このアプローチを分布レベルにまで拡張し、モデルがポイントワイズ変換だけでなく、概念部分空間の周辺領域も学習できるようにする。
- 参考スコア(独自算出の注目度): 7.756342860929851
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Interventions in language models (LMs) are applied strategically to steer model behavior during the forward pass. Learnable interventions, also known as representation fine-tuning, aim to apply pointwise control within the concept subspace and have proven effective in altering high-level behaviors. In this work, we extend this approach to the distribution level, enabling the model to learn not only pointwise transformations but also the surrounding regions of the concept subspace. We demonstrate that these methods perform effectively in early layers, with larger standard deviations correlating strongly with improved performance. Across eight commonsense reasoning and seven arithmetic reasoning benchmarks, our distribution-wise interventions consistently outperform pointwise interventions in controllability and robustness. These results illustrate that distribution-wise interventions provide a more comprehensive method for steering model behavior and enabling finer-grained control over language models. The code is at: \href{https://github.com/chili-lab/D-Intervention}{https://github.com/chili-lab/D-Intervention}.
- Abstract(参考訳): 言語モデル(LM)の介入は、前方通過時のモデル動作の制御に戦略的に適用される。
学習可能な介入は、表現の微調整としても知られ、概念のサブ空間にポイントワイズ制御を適用することを目的としており、ハイレベルな振る舞いを変えるのに効果的であることが証明されている。
本研究では、この手法を分布レベルにまで拡張し、モデルが点変換だけでなく、概念部分空間の周辺領域も学習できるようにする。
我々は,これらの手法が早期層において有効に機能することを示し,性能改善に強く関係する標準偏差が大きいことを実証した。
8つの常識的推論と7つの算術的推論のベンチマークにおいて、我々の分散的介入は、制御性と堅牢性におけるポイントワイズ介入を一貫して上回っている。
これらの結果から, 分散的介入は, モデル行動のステアリングと, 言語モデルに対するよりきめ細かい制御を実現するための, より包括的な手法を提供することが示された。
コードは以下の通り。 \href{https://github.com/chili-lab/D-Intervention}{https://github.com/chili-lab/D-Intervention}。
関連論文リスト
- HSI: Head-Specific Intervention Can Induce Misaligned AI Coordination in Large Language Models [2.6703221234079946]
Llama 2では、推論時のアクティベーション介入が安全アライメントを回避し、モデル生成を効果的に操り、有害なAIコーディネートへと導くことが示されている。
提案手法は,単純な二分選択探索手法を用いて,特定のモデルサブコンポーネント,特にアテンションヘッドにきめ細かな介入を施す。
本研究は, 全層に介入するよりも, 単一注意頭の方が効果的であることを示し, 4つの注意頭のみに介入することが, 教師付き微調整に匹敵することを示した。
論文 参考訳(メタデータ) (2025-02-09T16:11:57Z) - Diffusion Predictive Control with Constraints [51.91057765703533]
拡散予測制御(Diffusion predictive control with constraints,DPCC)は、拡散に基づく制御のアルゴリズムである。
DPCCは,新しいテスト時間制約を満たすために,既存の手法よりも優れた性能を示すロボットマニピュレータのシミュレーションを通して示す。
論文 参考訳(メタデータ) (2024-12-12T15:10:22Z) - Towards Unifying Interpretability and Control: Evaluation via Intervention [25.4582941170387]
我々は、介入が解釈可能性の基本的な目標であり、介入によるモデル行動の制御方法の評価に成功基準を導入することを論じる。
我々は4つの一般的な解釈可能性手法、スパースオートエンコーダ、ロジットレンズ、チューニングレンズ、および探索を抽象エンコーダデコーダフレームワークに拡張する。
モデルの動作を制御するための説明の正確性とその有用性を測定するために,介入成功率とコヒーレンス・インターベンショントレードオフという2つの新しい評価指標を導入する。
論文 参考訳(メタデータ) (2024-11-07T04:52:18Z) - Generalize or Detect? Towards Robust Semantic Segmentation Under Multiple Distribution Shifts [56.57141696245328]
斬新なクラスとドメインの両方が存在するようなオープンワールドシナリオでは、理想的なセグメンテーションモデルは安全のために異常なクラスを検出する必要がある。
既存の方法はドメインレベルとセマンティックレベルの分散シフトを区別するのに苦労することが多い。
論文 参考訳(メタデータ) (2024-11-06T11:03:02Z) - Representation Surgery: Theory and Practice of Affine Steering [72.61363182652853]
言語モデルは、しばしば好ましくない振る舞いを示す。
モデルが望ましくない振る舞いを示すのを防ぐための自然な(そして一般的な)アプローチの1つは、モデルの表現を操ることである。
本稿では, ステアリング機能の形式的および経験的特性について検討する。
論文 参考訳(メタデータ) (2024-02-15T00:20:30Z) - Learning a Diffusion Model Policy from Rewards via Q-Score Matching [93.0191910132874]
本稿では,拡散モデルポリシの構造を学習されたQ-関数に関連付ける理論的枠組みを提案する。
本稿では,この理論からQスコアマッチングを示す新しいポリシー更新手法を提案する。
論文 参考訳(メタデータ) (2023-12-18T23:31:01Z) - Variance-Preserving-Based Interpolation Diffusion Models for Speech
Enhancement [53.2171981279647]
本稿では,VP-および分散拡散(VE)に基づく拡散法の両方をカプセル化するフレームワークを提案する。
本研究では,拡散モデルで発生する一般的な困難を解析し,性能の向上とモデルトレーニングの容易化を図る。
我々は,提案手法の有効性を示すために,公開ベンチマークを用いたいくつかの手法によるモデルの評価を行った。
論文 参考訳(メタデータ) (2023-06-14T14:22:22Z) - Manifold-Aware Self-Training for Unsupervised Domain Adaptation on
Regressing 6D Object Pose [69.14556386954325]
視覚的回帰における合成データと実データとのドメインギャップは,グローバルな特徴アライメントと局所的な改善によって橋渡しされる。
提案手法は明示的な自己教師付き多様体正規化を取り入れ,領域間の一貫した累積的対象依存性を明らかにする。
暗黙的ニューラルファンクションを学習して、最も近いクラスビンへの相対的な方向と目標の距離を推定し、ターゲット分類予測を洗練することを目的としている。
論文 参考訳(メタデータ) (2023-05-18T08:42:41Z) - On Reinforcement Learning and Distribution Matching for Fine-Tuning
Language Models with no Catastrophic Forgetting [5.5302127686575435]
Reward Maximization (RM) と、最近では Distribution Matching (DM) の2つのパラダイムがこの課題に取り組むために登場した。
RM用に開発されたKL制御などの手法も,DMに属するものと解釈できることを示す。
2つのパラダイム間の接続を利用して、ベースラインの概念をDMメソッドにインポートします。
論文 参考訳(メタデータ) (2022-06-01T20:54:41Z) - Modeling Human Driver Interactions Using an Infinite Policy Space
Through Gaussian Processes [0.0]
本稿では,多出力ガウス過程に依存する人間のドライバインタラクションをモデル化する手法を提案する。
提案手法は,実際のトラフィックデータセット上で,そのコントリビューションと意味を実証するために検証される。
論文 参考訳(メタデータ) (2022-01-03T17:45:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。