論文の概要: ProxySPEX: Inference-Efficient Interpretability via Sparse Feature Interactions in LLMs
- arxiv url: http://arxiv.org/abs/2505.17495v1
- Date: Fri, 23 May 2025 05:44:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.843539
- Title: ProxySPEX: Inference-Efficient Interpretability via Sparse Feature Interactions in LLMs
- Title(参考訳): ProxySPEX:LLMにおけるスパース特徴相互作用による推論効率の良い解釈性
- Authors: Landon Butler, Abhineet Agarwal, Justin Singh Kang, Yigit Efe Erginbas, Bin Yu, Kannan Ramchandran,
- Abstract要約: 大規模言語モデル(LLM)は、入力機能間の複雑な相互作用をキャプチャすることで、優れたパフォーマンスを実現している。
これらの相互作用を識別するには、既存のほとんどのアプローチは、与えられた順序まで全ての可能な特徴の組み合わせを列挙する必要がある。
ProxySPEX(英語版)は、勾配木をマスキングした出力に適合させ、重要な相互作用を抽出する相互作用帰属アルゴリズムである。
- 参考スコア(独自算出の注目度): 14.222006330730311
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have achieved remarkable performance by capturing complex interactions between input features. To identify these interactions, most existing approaches require enumerating all possible combinations of features up to a given order, causing them to scale poorly with the number of inputs $n$. Recently, Kang et al. (2025) proposed SPEX, an information-theoretic approach that uses interaction sparsity to scale to $n \approx 10^3$ features. SPEX greatly improves upon prior methods but requires tens of thousands of model inferences, which can be prohibitive for large models. In this paper, we observe that LLM feature interactions are often hierarchical -- higher-order interactions are accompanied by their lower-order subsets -- which enables more efficient discovery. To exploit this hierarchy, we propose ProxySPEX, an interaction attribution algorithm that first fits gradient boosted trees to masked LLM outputs and then extracts the important interactions. Experiments across four challenging high-dimensional datasets show that ProxySPEX more faithfully reconstructs LLM outputs by 20% over marginal attribution approaches while using $10\times$ fewer inferences than SPEX. By accounting for interactions, ProxySPEX identifies features that influence model output over 20% more than those selected by marginal approaches. Further, we apply ProxySPEX to two interpretability tasks. Data attribution, where we identify interactions among CIFAR-10 training samples that influence test predictions, and mechanistic interpretability, where we uncover interactions between attention heads, both within and across layers, on a question-answering task. ProxySPEX identifies interactions that enable more aggressive pruning of heads than marginal approaches.
- Abstract(参考訳): 大規模言語モデル(LLM)は、入力機能間の複雑な相互作用をキャプチャすることで、優れたパフォーマンスを実現している。
これらの相互作用を識別するためには、既存のほとんどのアプローチでは、すべての可能な機能の組み合わせを与えられた順序まで列挙する必要がある。
最近、Kang et al (2025) は SPEX を提案した。SPEX は、相互作用の間隔を利用して、$n \approx 10^3$ の機能にスケールする情報理論のアプローチである。
SPEXは従来の手法を大幅に改善するが、数万のモデル推論を必要とするため、大型モデルでは禁止される。
本稿では,LLMの特徴的相互作用は階層的であり,高次相互作用は低次部分集合を伴い,より効率的な発見を可能にする。
この階層を利用するために,まず勾配木をマスクしたLLM出力に適合させ,重要な相互作用を抽出する相互作用帰属アルゴリズムProxySPEXを提案する。
4つの挑戦的な高次元データセットに対する実験により、ProxySPEXはSPEXよりも10\times$少ない推論を使用しながら、LLM出力を限界帰属アプローチよりも20%忠実に再構成することが示された。
ProxySPEXはインタラクションを考慮し、モデル出力に影響を及ぼす特徴を、限界アプローチによって選択されたものよりも20%多く特定する。
さらに,ProxySPEXを2つの解釈可能性タスクに適用する。
データアトリビューションでは,テスト予測に影響を与えるCIFAR-10トレーニングサンプル間のインタラクションと,階層内および層内の両方にわたるアテンションヘッド間のインタラクションを質問応答タスクで発見する機械的解釈可能性の識別を行う。
ProxySPEXは、辺縁アプローチよりも攻撃的な頭部切断を可能にする相互作用を識別する。
関連論文リスト
- SPEX: Scaling Feature Interaction Explanations for LLMs [22.651273612351346]
Spectral Explainer (SPEX) は、モデルに依存しない相互作用帰属アルゴリズムである。
大規模な入力では、SPEXは限界属性法を最大20%上回っている。
私たちのデータセットの1つであるHotpotQAでは、SPEXは人間のアノテーションと整合したインタラクションを提供します。
論文 参考訳(メタデータ) (2025-02-19T16:49:55Z) - MMoE: Enhancing Multimodal Models with Mixtures of Multimodal Interaction Experts [92.76662894585809]
MMOE(Multimodal Mixtures of Experts)と呼ばれるマルチモーダルモデルの拡張手法を導入する。
MMoEは様々な種類のモデルに適用でき、改善できる。
論文 参考訳(メタデータ) (2023-11-16T05:31:21Z) - AgentCF: Collaborative Learning with Autonomous Language Agents for
Recommender Systems [112.76941157194544]
本稿では,エージェントベースの協調フィルタリングにより,レコメンデータシステムにおけるユーザとイテムのインタラクションをシミュレートするエージェントCFを提案する。
我々は、ユーザだけでなく、アイテムをエージェントとして、創造的に考慮し、両方のエージェントを同時に最適化する協調学習アプローチを開発します。
全体として、最適化されたエージェントは、ユーザ・イテム、ユーザ・ユーザ・ユーザ、アイテム・イテム、集合的インタラクションなど、フレームワーク内での多様なインタラクションの振る舞いを示す。
論文 参考訳(メタデータ) (2023-10-13T16:37:14Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - Boundary-aware Supervoxel-level Iteratively Refined Interactive 3D Image
Segmentation with Multi-agent Reinforcement Learning [33.181732857907384]
我々は,マルコフ決定プロセス(MDP)を用いた対話型画像分割をモデル化し,強化学習(RL)による解法を提案する。
ボクセル単位の予測のための大規模な探索空間を考えると, エージェント間でボクセルレベルポリシーを共有するマルチエージェント強化学習が採用されている。
4つのベンチマークデータセットによる実験結果から,提案手法は最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-03-19T15:52:56Z) - IPCC-TP: Utilizing Incremental Pearson Correlation Coefficient for Joint
Multi-Agent Trajectory Prediction [73.25645602768158]
IPCC-TPはインクリメンタルピアソン相関係数に基づく新しい関連認識モジュールであり,マルチエージェントインタラクションモデリングを改善する。
我々のモジュールは、既存のマルチエージェント予測手法に便利に組み込んで、元の動き分布デコーダを拡張することができる。
論文 参考訳(メタデータ) (2023-03-01T15:16:56Z) - Detecting Arbitrary Order Beneficial Feature Interactions for
Recommender Systems [15.824220659063046]
HIRSは任意の順序の有益な特徴相互作用を直接生成する最初の作品である。
本稿では,有益な特徴相互作用の3つの特性を活かし,相互作用生成のガイドとなるディープ・インフォマックス法を提案する。
実験の結果、HIRSは推奨精度で最先端のアルゴリズムを最大5%上回っていることがわかった。
論文 参考訳(メタデータ) (2022-06-28T05:27:45Z) - Tesseract: Tensorised Actors for Multi-Agent Reinforcement Learning [92.05556163518999]
MARLは、コミュニケーションと可観測性に様々な制約を課すことによって、問題を悪化させる。
値ベースの手法では、最適な値関数を正確に表現することが課題となる。
政策勾配法では、批判者の訓練を困難にし、遅れる批判者の問題を悪化させる。
学習理論の観点からは、関連するアクション値関数を正確に表現することで、両方の問題に対処できることが示される。
論文 参考訳(メタデータ) (2021-05-31T23:08:05Z) - Neural Graph Matching based Collaborative Filtering [13.086302251856756]
属性相互作用の2つの異なるタイプ、内部相互作用とクロス相互作用を識別する。
既存のモデルはこれら2種類の属性相互作用を区別しない。
ニューラルグラフマッチングに基づく協調フィルタリングモデル(GMCF)を提案する。
我々のモデルは最先端のモデルより優れている。
論文 参考訳(メタデータ) (2021-05-10T01:51:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。