論文の概要: Towards Reliable Evaluation of Behavior Steering Interventions in LLMs
- arxiv url: http://arxiv.org/abs/2410.17245v1
- Date: Tue, 22 Oct 2024 17:59:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:30:21.617149
- Title: Towards Reliable Evaluation of Behavior Steering Interventions in LLMs
- Title(参考訳): LLMにおける動作ステアリングの信頼性評価に向けて
- Authors: Itamar Pres, Laura Ruis, Ekdeep Singh Lubana, David Krueger,
- Abstract要約: 現在の評価から欠落している4つの特性を提唱することで、この問題に対処するための一歩を踏み出したいと考えています。
これらの基準を基礎として評価パイプラインを導入し、与えられた手法がいかに効果的に機能するかを定量的かつ視覚的に分析する。
我々はこのパイプラインを用いて、2つの表現工学手法の評価を行い、それらが真理性や調整可能性などの行動を効果的に操り、いくつかの介入が以前報告したよりも効果が低いことを発見した。
- 参考スコア(独自算出の注目度): 11.671859045659822
- License:
- Abstract: Representation engineering methods have recently shown promise for enabling efficient steering of model behavior. However, evaluation pipelines for these methods have primarily relied on subjective demonstrations, instead of quantitative, objective metrics. We aim to take a step towards addressing this issue by advocating for four properties missing from current evaluations: (i) contexts sufficiently similar to downstream tasks should be used for assessing intervention quality; (ii) model likelihoods should be accounted for; (iii) evaluations should allow for standardized comparisons across different target behaviors; and (iv) baseline comparisons should be offered. We introduce an evaluation pipeline grounded in these criteria, offering both a quantitative and visual analysis of how effectively a given method works. We use this pipeline to evaluate two representation engineering methods on how effectively they can steer behaviors such as truthfulness and corrigibility, finding that some interventions are less effective than previously reported.
- Abstract(参考訳): 表現工学手法は、モデル行動の効率的な操舵を可能にすることを最近示した。
しかし、これらの手法の評価パイプラインは主に定量的な客観的な指標ではなく、主観的な実演に頼っている。
現在の評価から欠落している4つのプロパティを提唱することで、この問題に対処するための一歩を踏み出したいと考えています。
一 下流業務と十分に類似した状況は、介入の質を評価するために使用すべきである。
(ii)モデル可能性は考慮すべきである。
三 評価は、異なる目標行動における基準比較を許容すべきである。
(4)ベースライン比較を提供するべきである。
これらの基準を基礎として評価パイプラインを導入し、与えられた手法がいかに効果的に機能するかを定量的かつ視覚的に分析する。
我々はこのパイプラインを用いて、2つの表現工学手法の評価を行い、それらが真理性や調整可能性などの行動を効果的に操り、いくつかの介入が以前報告したよりも効果が低いことを発見した。
関連論文リスト
- Towards Unifying Interpretability and Control: Evaluation via Intervention [25.4582941170387]
本稿では,解釈可能性の基本的な目標として介入を提案し,手法が介入を通してモデル動作をいかにうまく制御できるかを評価するために成功基準を導入する。
我々は4つの一般的な解釈可能性手法(オートエンコーダ、ロジットレンズ、チューニングレンズ、探索)を抽象エンコーダデコーダフレームワークに拡張する。
本稿では,介入成功率とコヒーレンス・インターベンショントレードオフの2つの新しい評価指標を紹介する。
論文 参考訳(メタデータ) (2024-11-07T04:52:18Z) - Advanced POD-Based Performance Evaluation of Classifiers Applied to Human Driver Lane Changing Prediction [2.8084422332394428]
本稿では、機械学習アルゴリズムの信頼性を評価するために、修正された検出の確率を用いる。
PODに対するヒット/ミスアプローチの信頼性を高めるという利点を生かして、平均的な保守的な振る舞いを提供する。
論文 参考訳(メタデータ) (2024-08-28T11:39:24Z) - Towards Evaluating Transfer-based Attacks Systematically, Practically,
and Fairly [79.07074710460012]
ディープニューラルネットワーク(DNN)の敵対的脆弱性に大きな注目を集めている。
ブラックボックスDNNモデルを騙すための転送ベース手法が増えている。
30以上のメソッドを実装した転送ベースアタックベンチマーク(TA-Bench)を確立する。
論文 参考訳(メタデータ) (2023-11-02T15:35:58Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Better Understanding Differences in Attribution Methods via Systematic Evaluations [57.35035463793008]
モデル決定に最も影響を及ぼす画像領域を特定するために、ポストホック属性法が提案されている。
本稿では,これらの手法の忠実度をより確実に評価するための3つの新しい評価手法を提案する。
これらの評価手法を用いて、広範囲のモデルにおいて広く用いられている属性手法の長所と短所について検討する。
論文 参考訳(メタデータ) (2023-03-21T14:24:58Z) - An Instrumental Variable Approach to Confounded Off-Policy Evaluation [11.785128674216903]
オフ政治評価(Off-policy Evaluation、OPE)は、目標政策の回帰を推定する手法である。
本稿では,マルコフ決定過程における一貫した OPE のインストゥルメンタル変数 (IV) に基づく手法を提案する。
論文 参考訳(メタデータ) (2022-12-29T22:06:51Z) - Towards Better Understanding Attribution Methods [77.1487219861185]
モデル決定に最も影響を及ぼす画像領域を特定するために、ポストホック属性法が提案されている。
本稿では,これらの手法の忠実度をより確実に評価するための3つの新しい評価手法を提案する。
また,いくつかの属性法の性能を著しく向上する処理後平滑化ステップを提案する。
論文 参考訳(メタデータ) (2022-05-20T20:50:17Z) - Scalable Personalised Item Ranking through Parametric Density Estimation [53.44830012414444]
暗黙のフィードバックから学ぶことは、一流問題の難しい性質のために困難です。
ほとんどの従来の方法は、一級問題に対処するためにペアワイズランキングアプローチとネガティブサンプラーを使用します。
本論文では,ポイントワイズと同等の収束速度を実現する学習対ランクアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-11T03:38:16Z) - A Statistical Analysis of Summarization Evaluation Metrics using
Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。
多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文 参考訳(メタデータ) (2021-03-31T18:28:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。