論文の概要: AxBench: Steering LLMs? Even Simple Baselines Outperform Sparse Autoencoders
- arxiv url: http://arxiv.org/abs/2501.17148v1
- Date: Tue, 28 Jan 2025 18:51:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-29 16:43:11.078062
- Title: AxBench: Steering LLMs? Even Simple Baselines Outperform Sparse Autoencoders
- Title(参考訳): AxBench: LLMをステアリングする? 単純なベースラインでさえスパースオートエンコーダより優れている
- Authors: Zhengxuan Wu, Aryaman Arora, Atticus Geiger, Zheng Wang, Jing Huang, Dan Jurafsky, Christopher D. Manning, Christopher Potts,
- Abstract要約: ステアリングと概念検出のための大規模ベンチマークであるAxBenchを紹介する。
ステアリングでは、すべての既存のメソッドを高速に処理し、次いで微調整する。
概念検出では、差分のような表現に基づく手法が最善を尽くす。
- 参考スコア(独自算出の注目度): 73.37603699731329
- License:
- Abstract: Fine-grained steering of language model outputs is essential for safety and reliability. Prompting and finetuning are widely used to achieve these goals, but interpretability researchers have proposed a variety of representation-based techniques as well, including sparse autoencoders (SAEs), linear artificial tomography, supervised steering vectors, linear probes, and representation finetuning. At present, there is no benchmark for making direct comparisons between these proposals. Therefore, we introduce AxBench, a large-scale benchmark for steering and concept detection, and report experiments on Gemma-2-2B and 9B. For steering, we find that prompting outperforms all existing methods, followed by finetuning. For concept detection, representation-based methods such as difference-in-means, perform the best. On both evaluations, SAEs are not competitive. We introduce a novel weakly-supervised representational method (Rank-1 Representation Finetuning; ReFT-r1), which is competitive on both tasks while providing the interpretability advantages that prompting lacks. Along with AxBench, we train and publicly release SAE-scale feature dictionaries for ReFT-r1 and DiffMean.
- Abstract(参考訳): 言語モデル出力のきめ細かいステアリングは、安全性と信頼性に不可欠である。
プロンプティングとファインタニングはこれらの目標を達成するために広く用いられているが、解釈可能性研究者はスパースオートエンコーダ(SAE)、リニア人工トモグラフィー、教師付きステアリングベクトル、線形プローブ、表現ファインタニングなど、様々な表現に基づく手法も提案している。
現在、これらの提案を直接比較するためのベンチマークはない。
そこで我々は,操舵と概念検出のための大規模ベンチマークであるAxBenchを紹介し,Gemma-2-2Bおよび9Bに関する実験を報告する。
ステアリングでは、すべての既存のメソッドを高速に処理し、次いで微調整する。
概念検出では、差分のような表現に基づく手法が最善を尽くす。
どちらの評価においても、SAEは競争力がない。
本稿では,弱教師付き表現法(Rank-1 Representation Finetuning; ReFT-r1)を提案する。
AxBenchとともに、REFT-r1とDiffMeanのためにSAEスケールの機能辞書をトレーニングし、公開しています。
関連論文リスト
- Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Understanding Social Perception, Interactions, and Safety Aspects of Sidewalk Delivery Robots Using Sentiment Analysis [0.3069335774032178]
本稿では、Sidewalk Delivery Robots(SDRs)に関連するYouTubeビデオに対する、総合的な感情分析(SA)について述べる。
収集したYouTubeコメントに陰性(0),陽性(0),中性((2))の3つのラベルを手動で注釈付けした。
次に、テキスト感情分類のためのモデルを構築し、二項分類と三項分類の両方でモデルの性能を検証した。
論文 参考訳(メタデータ) (2024-03-09T23:28:01Z) - Towards Reliable AI Model Deployments: Multiple Input Mixup for
Out-of-Distribution Detection [4.985768723667418]
本稿では,OOD(Out-of-Distribution)検出問題の解法を提案する。
本手法は, 単一エポック微調整によるOOD検出性能の向上に有効である。
我々の方法は、ゼロからモデルを訓練する必要がなく、簡単に分類器にアタッチできる。
論文 参考訳(メタデータ) (2023-12-24T15:31:51Z) - Prototype-based Aleatoric Uncertainty Quantification for Cross-modal
Retrieval [139.21955930418815]
クロスモーダル検索手法は、共通表現空間を共同学習することにより、視覚と言語モダリティの類似性関係を構築する。
しかし、この予測は、低品質なデータ、例えば、腐敗した画像、速いペースの動画、詳細でないテキストによって引き起こされるアレタリック不確実性のために、しばしば信頼性が低い。
本稿では, 原型に基づくAleatoric Uncertainity Quantification (PAU) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-29T09:41:19Z) - Alleviating Over-smoothing for Unsupervised Sentence Representation [96.19497378628594]
本稿では,この問題を緩和するために,SSCL(Self-Contrastive Learning)というシンプルな手法を提案する。
提案手法は非常に単純で,様々な最先端モデルに拡張して,性能向上を図ることができる。
論文 参考訳(メタデータ) (2023-05-09T11:00:02Z) - Accounting for multiplicity in machine learning benchmark performance [0.0]
最先端のパフォーマンスをSOTA(State-of-the-art)のパフォーマンスの見積として使うのはバイアスのある推定器であり、過度に楽観的な結果をもたらす。
本稿では、複数の分類器の場合の確率分布について、既知の解析手法を適用できるようにし、より優れたSOTA推定値を提供する。
論文 参考訳(メタデータ) (2023-03-10T10:32:18Z) - Don't Be So Sure! Boosting ASR Decoding via Confidence Relaxation [7.056222499095849]
ビームサーチは 予測分布を用いて 最大限の確率で 書き起こしを求める
最近提案された自己監督学習(SSL)ベースのASRモデルは、極めて確実な予測をもたらす傾向があることを示す。
細調整されたASRモデルの性能を向上させる復号法を提案する。
論文 参考訳(メタデータ) (2022-12-27T06:42:26Z) - Scene Text Recognition with Permuted Autoregressive Sequence Models [15.118059441365343]
コンテキスト対応STRメソッドは通常、内部自己回帰(AR)言語モデル(LM)を使用する。
提案手法であるPARSeqは、置換言語モデリングを用いて、共有重み付き内部AR LMのアンサンブルを学習する。
コンテキストフリーな非ARおよびコンテキスト対応AR推論を実現し、双方向コンテキストを用いた反復的洗練を実現する。
論文 参考訳(メタデータ) (2022-07-14T14:51:50Z) - PARP: Prune, Adjust and Re-Prune for Self-Supervised Speech Recognition [78.67749936030219]
Prune-Adjust-Re-Prune (PARP) は、より優れたASR性能を実現するための細工品を発見する。
低リソースの英語および多言語ASRの実験では、事前訓練された音声SSLにスパースワークが存在する。
論文 参考訳(メタデータ) (2021-06-10T17:32:25Z) - Inter-class Discrepancy Alignment for Face Recognition [55.578063356210144]
IA(Inter-class DiscrepancyAlignment)という統合フレームワークを提案する。
IDA-DAOは、画像と隣人の相違を考慮した類似度スコアの整合に使用される。
IDA-SSEは、GANで生成された仮想候補画像を導入することで、説得力のあるクラス間隣人を提供できます。
論文 参考訳(メタデータ) (2021-03-02T08:20:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。