論文の概要: ProxySPEX: Inference-Efficient Interpretability via Sparse Feature Interactions in LLMs
- arxiv url: http://arxiv.org/abs/2505.17495v1
- Date: Fri, 23 May 2025 05:44:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.843539
- Title: ProxySPEX: Inference-Efficient Interpretability via Sparse Feature Interactions in LLMs
- Title(参考訳): ProxySPEX:LLMにおけるスパース特徴相互作用による推論効率の良い解釈性
- Authors: Landon Butler, Abhineet Agarwal, Justin Singh Kang, Yigit Efe Erginbas, Bin Yu, Kannan Ramchandran,
- Abstract要約: 大規模言語モデル(LLM)は、入力機能間の複雑な相互作用をキャプチャすることで、優れたパフォーマンスを実現している。
これらの相互作用を識別するには、既存のほとんどのアプローチは、与えられた順序まで全ての可能な特徴の組み合わせを列挙する必要がある。
ProxySPEX(英語版)は、勾配木をマスキングした出力に適合させ、重要な相互作用を抽出する相互作用帰属アルゴリズムである。
- 参考スコア(独自算出の注目度): 14.222006330730311
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have achieved remarkable performance by capturing complex interactions between input features. To identify these interactions, most existing approaches require enumerating all possible combinations of features up to a given order, causing them to scale poorly with the number of inputs $n$. Recently, Kang et al. (2025) proposed SPEX, an information-theoretic approach that uses interaction sparsity to scale to $n \approx 10^3$ features. SPEX greatly improves upon prior methods but requires tens of thousands of model inferences, which can be prohibitive for large models. In this paper, we observe that LLM feature interactions are often hierarchical -- higher-order interactions are accompanied by their lower-order subsets -- which enables more efficient discovery. To exploit this hierarchy, we propose ProxySPEX, an interaction attribution algorithm that first fits gradient boosted trees to masked LLM outputs and then extracts the important interactions. Experiments across four challenging high-dimensional datasets show that ProxySPEX more faithfully reconstructs LLM outputs by 20% over marginal attribution approaches while using $10\times$ fewer inferences than SPEX. By accounting for interactions, ProxySPEX identifies features that influence model output over 20% more than those selected by marginal approaches. Further, we apply ProxySPEX to two interpretability tasks. Data attribution, where we identify interactions among CIFAR-10 training samples that influence test predictions, and mechanistic interpretability, where we uncover interactions between attention heads, both within and across layers, on a question-answering task. ProxySPEX identifies interactions that enable more aggressive pruning of heads than marginal approaches.
- Abstract(参考訳): 大規模言語モデル(LLM)は、入力機能間の複雑な相互作用をキャプチャすることで、優れたパフォーマンスを実現している。
これらの相互作用を識別するためには、既存のほとんどのアプローチでは、すべての可能な機能の組み合わせを与えられた順序まで列挙する必要がある。
最近、Kang et al (2025) は SPEX を提案した。SPEX は、相互作用の間隔を利用して、$n \approx 10^3$ の機能にスケールする情報理論のアプローチである。
SPEXは従来の手法を大幅に改善するが、数万のモデル推論を必要とするため、大型モデルでは禁止される。
本稿では,LLMの特徴的相互作用は階層的であり,高次相互作用は低次部分集合を伴い,より効率的な発見を可能にする。
この階層を利用するために,まず勾配木をマスクしたLLM出力に適合させ,重要な相互作用を抽出する相互作用帰属アルゴリズムProxySPEXを提案する。
4つの挑戦的な高次元データセットに対する実験により、ProxySPEXはSPEXよりも10\times$少ない推論を使用しながら、LLM出力を限界帰属アプローチよりも20%忠実に再構成することが示された。
ProxySPEXはインタラクションを考慮し、モデル出力に影響を及ぼす特徴を、限界アプローチによって選択されたものよりも20%多く特定する。
さらに,ProxySPEXを2つの解釈可能性タスクに適用する。
データアトリビューションでは,テスト予測に影響を与えるCIFAR-10トレーニングサンプル間のインタラクションと,階層内および層内の両方にわたるアテンションヘッド間のインタラクションを質問応答タスクで発見する機械的解釈可能性の識別を行う。
ProxySPEXは、辺縁アプローチよりも攻撃的な頭部切断を可能にする相互作用を識別する。
関連論文リスト
- Turning Semantics into Topology: LLM-Driven Attribute Augmentation for Collaborative Filtering [27.20519975467197]
Topology-Augmented Graph Collaborative Filtering (TAGCF)は、意味的知識をトポロジ接続に変換する新しいフレームワークである。
この拡張構造における異種関係を効果的にモデル化するために、適応的関係重み付きグラフ畳み込みを提案する。
論文 参考訳(メタデータ) (2026-02-24T17:01:47Z) - Zero-shot HOI Detection with MLLM-based Detector-agnostic Interaction Recognition [71.5328300638085]
Zero-shot Human-Object Interaction (HOI) は、画像中の人間と物体を特定し、その相互作用を認識することを目的としている。
2段階法を含む既存の手法は、特定の検出器との相互作用認識を密に結合する。
本稿では、オブジェクト検出をIRから分離し、マルチモーダル大言語モデル(MLLM)をゼロショットIRに活用する分離フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-16T19:01:31Z) - High-order Interactions Modeling for Interpretable Multi-Agent Q-Learning [22.42637658125405]
高次相互作用をモデル化するためのこれまでの努力は、強化爆発やブラックボックスネットワーク構造の不透明な性質によって妨げられている。
本稿では、任意の順序のエージェント相互作用を柔軟にキャプチャできる、Continued Fraction Q-Learning(QCoFr)と呼ばれる新しい値分解フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-23T05:08:32Z) - Rate optimal learning of equilibria from data [63.14746189846806]
マルチエージェント・イミテーション・ラーニング(MAIL)における理論的ギャップは,非対話的MAILの限界を特徴づけ,ほぼ最適なサンプル複雑性を持つ最初の対話的アルゴリズムを提示することによって解決する。
インタラクティブな設定では、報酬のない強化学習と対話型MAILを組み合わせたフレームワークを導入し、それをMAIL-WARMというアルゴリズムでインスタンス化する。
我々は,我々の理論を裏付ける数値的な結果を提供し,グリッドワールドのような環境において,行動クローンが学習に失敗する状況を示す。
論文 参考訳(メタデータ) (2025-10-10T12:28:35Z) - SPEX: Scaling Feature Interaction Explanations for LLMs [22.651273612351346]
Spectral Explainer (SPEX) は、モデルに依存しない相互作用帰属アルゴリズムである。
大規模な入力では、SPEXは限界属性法を最大20%上回っている。
私たちのデータセットの1つであるHotpotQAでは、SPEXは人間のアノテーションと整合したインタラクションを提供します。
論文 参考訳(メタデータ) (2025-02-19T16:49:55Z) - iLOCO: Distribution-Free Inference for Feature Interactions [4.56754610152086]
我々は、ペアワイズな特徴相互作用の重要性を測定するための新しいモデルに依存しないメトリクスを開発した。
また,iLOCO距離と信頼区間を計算するためのアンサンブル学習手法を提案する。
我々は,iLOCO測定値と信頼区間を,合成データと実データの両方で検証する。
論文 参考訳(メタデータ) (2025-02-10T16:49:46Z) - MMoE: Enhancing Multimodal Models with Mixtures of Multimodal Interaction Experts [92.76662894585809]
MMOE(Multimodal Mixtures of Experts)と呼ばれるマルチモーダルモデルの拡張手法を導入する。
MMoEは様々な種類のモデルに適用でき、改善できる。
論文 参考訳(メタデータ) (2023-11-16T05:31:21Z) - AgentCF: Collaborative Learning with Autonomous Language Agents for
Recommender Systems [112.76941157194544]
本稿では,エージェントベースの協調フィルタリングにより,レコメンデータシステムにおけるユーザとイテムのインタラクションをシミュレートするエージェントCFを提案する。
我々は、ユーザだけでなく、アイテムをエージェントとして、創造的に考慮し、両方のエージェントを同時に最適化する協調学習アプローチを開発します。
全体として、最適化されたエージェントは、ユーザ・イテム、ユーザ・ユーザ・ユーザ、アイテム・イテム、集合的インタラクションなど、フレームワーク内での多様なインタラクションの振る舞いを示す。
論文 参考訳(メタデータ) (2023-10-13T16:37:14Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - HIORE: Leveraging High-order Interactions for Unified Entity Relation
Extraction [85.80317530027212]
本稿では,統合エンティティ関係抽出のための新しい手法であるHIOREを提案する。
重要な洞察は、単語ペア間の複雑な関連を活用することである。
実験の結果,HIOREは従来最高の統一モデルよりも1.11.8 F1ポイント向上した。
論文 参考訳(メタデータ) (2023-05-07T14:57:42Z) - Boundary-aware Supervoxel-level Iteratively Refined Interactive 3D Image
Segmentation with Multi-agent Reinforcement Learning [33.181732857907384]
我々は,マルコフ決定プロセス(MDP)を用いた対話型画像分割をモデル化し,強化学習(RL)による解法を提案する。
ボクセル単位の予測のための大規模な探索空間を考えると, エージェント間でボクセルレベルポリシーを共有するマルチエージェント強化学習が採用されている。
4つのベンチマークデータセットによる実験結果から,提案手法は最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-03-19T15:52:56Z) - IPCC-TP: Utilizing Incremental Pearson Correlation Coefficient for Joint
Multi-Agent Trajectory Prediction [73.25645602768158]
IPCC-TPはインクリメンタルピアソン相関係数に基づく新しい関連認識モジュールであり,マルチエージェントインタラクションモデリングを改善する。
我々のモジュールは、既存のマルチエージェント予測手法に便利に組み込んで、元の動き分布デコーダを拡張することができる。
論文 参考訳(メタデータ) (2023-03-01T15:16:56Z) - You can't pick your neighbors, or can you? When and how to rely on
retrieval in the $k$NN-LM [65.74934004876914]
Retrieval-enhanced Language Model (LM) は、大規模な外部データストアから取得したテキストにそれらの予測を条件付ける。
そのようなアプローチの1つ、$k$NN-LMは、既存のLMの予測を$k$-nearest近くのモデルの出力と補間する。
本研究では,2つの英語モデルデータセットに対するアプローチの有効性を実証的に測定する。
論文 参考訳(メタデータ) (2022-10-28T02:57:40Z) - Detecting Arbitrary Order Beneficial Feature Interactions for
Recommender Systems [15.824220659063046]
HIRSは任意の順序の有益な特徴相互作用を直接生成する最初の作品である。
本稿では,有益な特徴相互作用の3つの特性を活かし,相互作用生成のガイドとなるディープ・インフォマックス法を提案する。
実験の結果、HIRSは推奨精度で最先端のアルゴリズムを最大5%上回っていることがわかった。
論文 参考訳(メタデータ) (2022-06-28T05:27:45Z) - Unlimited Neighborhood Interaction for Heterogeneous Trajectory
Prediction [97.40338982628094]
マルチプライカテゴリにおける異種エージェントの軌跡を予測できる,シンプルで効果的な非境界相互作用ネットワーク (UNIN) を提案する。
具体的には、提案した無制限近傍相互作用モジュールは、相互作用に関与するすべてのエージェントの融合特徴を同時に生成する。
階層型グラフアテンションモジュールを提案し,カテゴリ間相互作用とエージェント間相互作用を求める。
論文 参考訳(メタデータ) (2021-07-31T13:36:04Z) - Tesseract: Tensorised Actors for Multi-Agent Reinforcement Learning [92.05556163518999]
MARLは、コミュニケーションと可観測性に様々な制約を課すことによって、問題を悪化させる。
値ベースの手法では、最適な値関数を正確に表現することが課題となる。
政策勾配法では、批判者の訓練を困難にし、遅れる批判者の問題を悪化させる。
学習理論の観点からは、関連するアクション値関数を正確に表現することで、両方の問題に対処できることが示される。
論文 参考訳(メタデータ) (2021-05-31T23:08:05Z) - Neural Graph Matching based Collaborative Filtering [13.086302251856756]
属性相互作用の2つの異なるタイプ、内部相互作用とクロス相互作用を識別する。
既存のモデルはこれら2種類の属性相互作用を区別しない。
ニューラルグラフマッチングに基づく協調フィルタリングモデル(GMCF)を提案する。
我々のモデルは最先端のモデルより優れている。
論文 参考訳(メタデータ) (2021-05-10T01:51:46Z) - Associating Multi-Scale Receptive Fields for Fine-grained Recognition [5.079292308180334]
マルチスケールの受容場を2つの操作で関連付けるために,新しい多層非局所(CNL)モジュールを提案する。
CNLはクエリ層とすべてのレスポンス層の間の相関を計算する。
モデルでは,多層層間の空間的依存関係を構築し,より識別的な特徴を学習する。
論文 参考訳(メタデータ) (2020-05-19T01:16:31Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。