論文の概要: Steering off Course: Reliability Challenges in Steering Language Models
- arxiv url: http://arxiv.org/abs/2504.04635v1
- Date: Sun, 06 Apr 2025 22:19:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:12:38.298139
- Title: Steering off Course: Reliability Challenges in Steering Language Models
- Title(参考訳): ステアリングオフコース:ステアリング言語モデルにおける信頼性の課題
- Authors: Patrick Queiroz Da Silva, Hari Sethuraman, Dheeraj Rajagopal, Hannaneh Hajishirzi, Sachin Kumar,
- Abstract要約: 本研究では,DoLa,関数ベクトル,タスクベクトルの3つの顕著なステアリング手法を体系的に検討する。
従来の研究とは対照的に、1.5Bから70Bのパラメータを持つ14の家系に属する36のモデルをテストする。
本実験では, ステアリング性能が向上し, 劣化しないモデルが多数存在するため, ステアリング手法の有効性に大きなばらつきが認められた。
- 参考スコア(独自算出の注目度): 46.284845604507225
- License:
- Abstract: Steering methods for language models (LMs) have gained traction as lightweight alternatives to fine-tuning, enabling targeted modifications to model activations. However, prior studies primarily report results on a few models, leaving critical gaps in understanding the robustness of these methods. In this work, we systematically examine three prominent steering methods -- DoLa, function vectors, and task vectors. In contrast to the original studies, which evaluated a handful of models, we test up to 36 models belonging to 14 families with sizes ranging from 1.5B to 70B parameters. Our experiments reveal substantial variability in the effectiveness of the steering approaches, with a large number of models showing no improvement and at times degradation in steering performance. Our analysis demonstrate fundamental flaws in the assumptions underlying these methods, challenging their reliability as scalable steering solutions.
- Abstract(参考訳): 言語モデル(LM)のステアリング手法は、微調整の軽量な代替手段として注目を集めており、モデルアクティベーションのターゲット変更を可能にしている。
しかしながら、先行研究は主にいくつかのモデルに関する結果を報告し、これらの手法の堅牢性を理解する上で重要なギャップを残している。
本研究では,DoLa,関数ベクトル,タスクベクトルの3つの顕著なステアリング手法を体系的に検討する。
少数のモデルを評価するオリジナルの研究とは対照的に、1.5Bから70Bのパラメータを持つ14のファミリーに属する36のモデルをテストする。
本実験により, ステアリング手法の有効性は著しく, 多数のモデルが改善せず, ステアリング性能も劣化することがわかった。
本分析は,これらの手法の根底にある仮定に根本的な欠陥を示し,スケーラブルなステアリングソリューションとして信頼性に挑戦する。
関連論文リスト
- On-Road Object Importance Estimation: A New Dataset and A Model with Multi-Fold Top-Down Guidance [70.80612792049315]
本稿では,交通オブジェクト重要度(TOI)という,新しい大規模データセットを提案する。
ボトムアップ機能とマルチフォールドトップダウンガイダンスを統合するモデルを提案する。
我々のモデルは最先端の手法を大きなマージンで上回る。
論文 参考訳(メタデータ) (2024-11-26T06:37:10Z) - Enhancing Training Data Attribution for Large Language Models with Fitting Error Consideration [74.09687562334682]
Debias and Denoise Attribution (DDA) と呼ばれる新しいトレーニングデータ属性法を導入する。
提案手法は既存のアプローチよりも優れており,平均91.64%のAUCを実現している。
DDAは、様々なソースとLLaMA2、QWEN2、Mistralのような異なるスケールのモデルに対して、強力な汎用性とスケーラビリティを示す。
論文 参考訳(メタデータ) (2024-10-02T07:14:26Z) - Fine-Tuning with Divergent Chains of Thought Boosts Reasoning Through Self-Correction in Language Models [63.36637269634553]
本稿では,複数の推論連鎖を比較するためにモデルを必要とすることによって,性能を向上する新しい手法を提案する。
DCoTデータセットの命令チューニングにより、より小さく、よりアクセスしやすい言語モデルの性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z) - Impact of Architectural Modifications on Deep Learning Adversarial Robustness [16.991522358940774]
本稿では, モデル修正がディープラーニングモデルの堅牢性に及ぼす影響を, 敵攻撃を用いて実験的に評価する。
以上の結果から,モデル変更がモデルの頑健性に及ぼす影響を詳細に評価する上でのプレッシャーが示唆された。
論文 参考訳(メタデータ) (2024-05-03T08:58:38Z) - RoAST: Robustifying Language Models via Adversarial Perturbation with
Selective Training [105.02614392553198]
選択的トレーニング(RoAST)を用いた逆方向摂動を用いたロバスト化法を提案する。
RoASTは、モデルの堅牢性、摂動入力に対する堅牢性、および事前訓練されたLMにおける一般化可能な知識の2つの重要な情報源を組み込んでいる。
6種類のLM上での最先端の微調整法と比較して,RoASTの有効性を実証した。
論文 参考訳(メタデータ) (2023-12-07T04:23:36Z) - Revisiting Implicit Models: Sparsity Trade-offs Capability in
Weight-tied Model for Vision Tasks [4.872984658007499]
ディープ平衡モデル(Deep Equilibrium Models, DEQ)のような暗黙のモデルは、無限層のモデルを訓練する能力によって、コミュニティにおいて大きな注目を集めている。
暗黙のモデルの行を再検討し、それらを元の重み付けモデルに遡る。
驚くべきことに、重み付けモデルの方がDECの変種と比較して、より効率的で、安定であり、視覚タスク上でも効率的である。
論文 参考訳(メタデータ) (2023-07-16T11:45:35Z) - Investigating Ensemble Methods for Model Robustness Improvement of Text
Classifiers [66.36045164286854]
既存のバイアス機能を分析し、すべてのケースに最適なモデルが存在しないことを実証します。
適切なバイアスモデルを選択することで、より洗練されたモデル設計でベースラインよりもロバスト性が得られる。
論文 参考訳(メタデータ) (2022-10-28T17:52:10Z) - Exploring The Landscape of Distributional Robustness for Question
Answering Models [47.178481044045505]
調査は350以上のモデルと16の質問応答データセットにまたがる。
多くの場合、モデルのバリエーションは堅牢性に影響を与えない。
我々は,質問応答モデルに対するロバストネスの傾向をさらに分析するよう研究者に促すため,すべての評価を公表する。
論文 参考訳(メタデータ) (2022-10-22T18:17:31Z) - Structured Hammerstein-Wiener Model Learning for Model Predictive
Control [0.2752817022620644]
本稿では,機械学習によって構築されたモデルを用いて最適制御の信頼性を向上させることを目的とする。
本稿では,Hammerstein-Wienerモデルと凸ニューラルネットワークを組み合わせたモデルを提案する。
論文 参考訳(メタデータ) (2021-07-09T06:41:34Z) - Sample Efficient Reinforcement Learning via Model-Ensemble Exploration
and Exploitation [3.728946517493471]
MEEEは楽観的な探索と重み付けによる搾取からなるモデルアンサンブル法である。
我々の手法は、特にサンプル複雑性において、他のモデルフリーおよびモデルベース最先端手法よりも優れています。
論文 参考訳(メタデータ) (2021-07-05T07:18:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。