Fugu-MT 論文翻訳(概要): Enhancing Automated Interpretability with Output-Centric Feature Descriptions

論文の概要: Enhancing Automated Interpretability with Output-Centric Feature Descriptions

arxiv url: http://arxiv.org/abs/2501.08319v1
Date: Tue, 14 Jan 2025 18:53:00 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-15 17:02:04.584261
Title: Enhancing Automated Interpretability with Output-Centric Feature Descriptions
Title（参考訳）: 出力中心の特徴記述による自動解釈可能性の向上
Authors: Yoav Gur-Arieh, Roy Mayan, Chen Agassy, Atticus Geiger, Mor Geva,
Abstract要約: 本稿では,特徴記述を自動生成する効率的な出力中心手法を提案する。我々の記述は、入力中心の記述よりもモデル出力に対する特徴の因果効果をよりよく捉えている。以前は"デッド"と思われていた特徴を活性化するインプットを見つけるために,出力中心の記述が利用できることを示す。
参考スコア（独自算出の注目度）: 14.591455690954513
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Automated interpretability pipelines generate natural language descriptions for the concepts represented by features in large language models (LLMs), such as plants or the first word in a sentence. These descriptions are derived using inputs that activate the feature, which may be a dimension or a direction in the model's representation space. However, identifying activating inputs is costly, and the mechanistic role of a feature in model behavior is determined both by how inputs cause a feature to activate and by how feature activation affects outputs. Using steering evaluations, we reveal that current pipelines provide descriptions that fail to capture the causal effect of the feature on outputs. To fix this, we propose efficient, output-centric methods for automatically generating feature descriptions. These methods use the tokens weighted higher after feature stimulation or the highest weight tokens after applying the vocabulary "unembedding" head directly to the feature. Our output-centric descriptions better capture the causal effect of a feature on model outputs than input-centric descriptions, but combining the two leads to the best performance on both input and output evaluations. Lastly, we show that output-centric descriptions can be used to find inputs that activate features previously thought to be "dead".
Abstract（参考訳）: 自動解釈可能性パイプラインは、植物や文の最初の単語のような大きな言語モデル(LLM)の機能によって表現される概念について、自然言語記述を生成する。これらの記述は、モデルの表現空間における次元または方向であるかもしれない特徴を活性化する入力を用いて導出される。しかし、アクティベーションインプットの特定にはコストがかかり、入力が機能をどのように活性化させるか、そして機能アクティベーションがアウトプットにどのように影響するかによってモデルビヘイビアにおける機能の役割が決定される。ステアリング評価を用いて、現在のパイプラインは、出力に対する特徴の因果効果を捉えない記述を提供する。そこで本稿では,特徴記述を自動的に生成する効率的な出力中心手法を提案する。これらの方法は、特徴刺激後の重み付けされたトークンや、その特徴に直接語彙の「アンベッドディング」ヘッドを適用した後の最高重み付けトークンを使用する。我々の出力中心記述は、入力中心記述よりもモデル出力に対する特徴の因果効果をよりよくとらえるが、この2つを組み合わせることで、入力と出力の両方の評価において最高のパフォーマンスが得られる。最後に,従来「デッド」と思われていた特徴を活性化するインプットを見つけるために,出力中心の記述が利用できることを示す。

関連論文リスト

SAEs Are Good for Steering -- If You Select the Right Features [45.47261543304217]
現在の方法では、それらを活性化する入力トークンを分析して、SAEの機能をステアに識別する。本研究では,主にモデル入力のパターンをキャプチャする入力特徴と,モデル出力に対する人間の理解可能な影響を持つ出力特徴の2つの特徴を区別する。
論文参考訳（メタデータ） (2025-05-26T14:47:59Z)
Features that Make a Difference: Leveraging Gradients for Improved Dictionary Learning [4.051777802443125]
スパースオートエンコーダ(SAE)は、ニューラルネットワーク表現を抽出するための有望なアプローチである。我々は、TopKアクティベーション関数を増強することにより、$k$-sparseのオートエンコーダアーキテクチャを変更するGradient SAEを紹介する。 g-SAEが任意の文脈でモデルを操る上で平均的に効果的である潜伏者を学ぶ証拠が見つかる。
論文参考訳（メタデータ） (2024-11-15T18:03:52Z)
Adaptive Language-Guided Abstraction from Contrastive Explanations [53.48583372522492]
報酬を計算するためにこれらの特徴をどのように使うべきかを決定する前に、環境のどの特徴が関係しているかを決定する必要がある。連立特徴と報奨学習のためのエンドツーエンドの手法は、しばしば、刺激的な状態特徴に敏感な脆い報酬関数をもたらす。本稿では,言語モデルを用いて人間に意味のある特徴を反復的に識別するALGAEという手法について述べる。
論文参考訳（メタデータ） (2024-09-12T16:51:58Z)
Sparse Feature Circuits: Discovering and Editing Interpretable Causal Graphs in Language Models [55.19497659895122]
本稿ではスパース特徴回路の発見と適用方法を紹介する。これらは言語モデルの振る舞いを説明するための人間の解釈可能な特徴の因果関係の著作である。
論文参考訳（メタデータ） (2024-03-28T17:56:07Z)
ArGue: Attribute-Guided Prompt Tuning for Vision-Language Models [9.261590575715669]
本稿では,ビジョンランゲージ(V&L)モデルのための anAttribute-Guided Prompt Tuning (ArGue) を開発した。大規模言語モデル(LLM)によって生成された原始的な視覚属性とモデルを一致させる。提案手法は,新しいクラス予測とアウト・オブ・ディストリビューション一般化タスクの両方において,最先端のプロンプトチューニング手法を著しく上回っている。
論文参考訳（メタデータ） (2023-11-27T10:34:44Z)
FIND: A Function Description Benchmark for Evaluating Interpretability Methods [86.80718559904854]
本稿では,自動解釈可能性評価のためのベンチマークスイートであるFIND(Function Interpretation and Description)を紹介する。 FINDには、トレーニングされたニューラルネットワークのコンポーネントに似た機能と、私たちが生成しようとしている種類の記述が含まれています。本研究では、事前訓練された言語モデルを用いて、自然言語とコードにおける関数の振る舞いの記述を生成する手法を評価する。
論文参考訳（メタデータ） (2023-09-07T17:47:26Z)
Explaining Recommendation System Using Counterfactual Textual Explanations [4.318555434063274]
エンドユーザーが何らかのアウトプットを生産する理由を理解すれば、システムへの信頼がより容易になる。より説明可能な出力を生成する方法の1つは、反実的推論を使うことである。
論文参考訳（メタデータ） (2023-03-14T06:45:28Z)
Getting the Most out of Simile Recognition [48.5838790615549]
Simile認識には2つのサブタスクがある: 文がsimileを含むかどうかを識別するsimile文分類と、対応するオブジェクトを特定するsimileコンポーネント抽出である。最近の研究は表面弦以外の特徴を無視している。 1)POSタグ,依存性木,単語定義を含む入力側機能,2)デコード決定の相互依存性をキャプチャするデコード機能,の2つの特徴について検討する。
論文参考訳（メタデータ） (2022-11-11T03:22:45Z)
SOInter: A Novel Deep Energy Based Interpretation Method for Explaining Structured Output Models [6.752231769293388]
本稿では,構造化出力モデルの振る舞いを説明する新しい解釈手法を提案する。出力の1つを対象とし、入力空間の各局所性における目標を決定するために構造化モデルが利用する最も重要な特徴を見つけ出そうとする。
論文参考訳（メタデータ） (2022-02-20T21:57:07Z)
Explaining Black Box Predictions and Unveiling Data Artifacts through Influence Functions [55.660255727031725]
影響関数は、影響力のあるトレーニング例を特定することによって、モデルの判断を説明する。本稿では,代表課題における影響関数と共通単語順応法の比較を行う。我々は,学習データ中の成果物を明らかにすることができる影響関数に基づく新しい尺度を開発した。
論文参考訳（メタデータ） (2020-05-14T00:45:23Z)
Self-Attention Attribution: Interpreting Information Interactions Inside Transformer [89.21584915290319]
本稿では,トランスフォーマー内の情報相互作用を解釈する自己帰属属性法を提案する。本研究は,BERT に対する非目標攻撃の実装において,その属性を敵対パターンとして用いることができることを示す。
論文参考訳（メタデータ） (2020-04-23T14:58:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。