論文の概要: Breaking Free from MMI: A New Frontier in Rationalization by Probing Input Utilization
- arxiv url: http://arxiv.org/abs/2503.06202v1
- Date: Sat, 08 Mar 2025 13:08:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:51:29.516169
- Title: Breaking Free from MMI: A New Frontier in Rationalization by Probing Input Utilization
- Title(参考訳): MMIから解放される:入力利用の探索による合理化の新しいフロンティア
- Authors: Wei Liu, Zhiying Deng, Zhongyu Niu, Jun Wang, Haozhao Wang, Zhigang Zeng, Ruixuan Li,
- Abstract要約: 最も広く使われている合理抽出の基本基準は、最大相互情報基準である。
MMIの代替目的として合理的候補のノルムを用いる。
提案手法は,MMIとその改良された変種より優れた有理性を見出す上で優れることを示す。
- 参考スコア(独自算出の注目度): 41.791583536425655
- License:
- Abstract: Extracting a small subset of crucial rationales from the full input is a key problem in explainability research. The most widely used fundamental criterion for rationale extraction is the maximum mutual information (MMI) criterion. In this paper, we first demonstrate that MMI suffers from diminishing marginal returns. Once part of the rationale has been identified, finding the remaining portions contributes only marginally to increasing the mutual information, making it difficult to use MMI to locate the rest. In contrast to MMI that aims to reproduce the prediction, we seek to identify the parts of the input that the network can actually utilize. This is achieved by comparing how different rationale candidates match the capability space of the weight matrix. The weight matrix of a neural network is typically low-rank, meaning that the linear combinations of its column vectors can only cover part of the directions in a high-dimensional space (high-dimension: the dimensions of an input vector). If an input is fully utilized by the network, {it generally matches these directions (e.g., a portion of a hypersphere), resulting in a representation with a high norm. Conversely, if an input primarily falls outside (orthogonal to) these directions}, its representation norm will approach zero, behaving like noise that the network cannot effectively utilize. Building on this, we propose using the norms of rationale candidates as an alternative objective to MMI. Through experiments on four text classification datasets and one graph classification dataset using three network architectures (GRUs, BERT, and GCN), we show that our method outperforms MMI and its improved variants in identifying better rationales. We also compare our method with a representative LLM (llama-3.1-8b-instruct) and find that our simple method gets comparable results to it and can sometimes even outperform it.
- Abstract(参考訳): 完全な入力から重要な有理量の小さな部分集合を抽出することは、説明可能性研究の鍵となる問題である。
最も広く使われている合理抽出の基本基準は、最大相互情報(MMI)基準である。
本稿では,まず,MMIが限界リターンの低下に悩まされていることを示す。
論理の一部が特定されると、残りの部分の発見は相互情報の増加にわずかに寄与し、残りの部分を見つけるのにMMIを使うのが困難になる。
予測を再現することを目的としたMMIとは対照的に,ネットワークが実際に利用できる入力部分の同定を試みる。
これは、異なる有理数候補が重み行列の能力空間とどのように一致するかを比較することで達成される。
ニューラルネットワークの重み行列は典型的には低ランクであり、列ベクトルの線形結合は高次元空間(高次元:入力ベクトルの次元)の方向の一部しかカバーできない。
入力がネットワークによって完全に活用される場合、 {it} は一般にこれらの方向(例えば、超球の一部)と一致し、結果として高ノルムの表現となる。
逆に、入力が主にこれらの方向の外側(直交する)に落ちると、その表現ノルムはゼロに近づき、ネットワークが効果的に利用できないノイズのように振る舞う。
そこで本研究では,MMIの代替目的として,合理的候補の規範を用いることを提案する。
3つのネットワークアーキテクチャ(GRUs,BERT,GCN)を用いた4つのテキスト分類データセットと1つのグラフ分類データセットの実験により,本手法がMMIと改良された変種より優れた有理性を識別できることを示す。
また,本手法を代表LLM (llama-3.1-8b-instruct) と比較したところ,本手法はそれと同等の結果となり,時には性能も向上することがわかった。
関連論文リスト
- GHOST: Gaussian Hypothesis Open-Set Technique [10.426399605773083]
大規模認識手法の評価は通常、全体的な性能に重点を置いている。
オープンセット認識(OSR)における公平性に対処し,クラスごとのパフォーマンスが劇的に変化することを示す。
Zスコア正規化をロジットに適用し、モデルの期待から逸脱する特徴量の影響を軽減する。
論文 参考訳(メタデータ) (2025-02-05T16:56:14Z) - Is the MMI Criterion Necessary for Interpretability? Degenerating Non-causal Features to Plain Noise for Self-Rationalization [17.26418974819275]
本稿では, 突発的特徴をプレーンノイズとして扱う新しい基準を開発する。
実験により、我々のMDD基準は、近年の競争力のあるMMIの変種と比較して、有理量品質(人間注釈の有理量との重なりによって測定される)を最大10.4%向上させることが示された。
論文 参考訳(メタデータ) (2024-10-08T13:04:02Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - Why do Nearest Neighbor Language Models Work? [93.71050438413121]
言語モデル(LM)は、すでに見られる文脈の表現を逐次計算することで、テキストの確率を計算する。
Retrieval-augmented LMは、大規模なデータストアから取得した情報にアクセスすることによって、標準的なニューラルLMよりも改善されている。
論文 参考訳(メタデータ) (2023-01-07T11:12:36Z) - Towards Better Out-of-Distribution Generalization of Neural Algorithmic
Reasoning Tasks [51.8723187709964]
ニューラルネットワーク推論タスクのOOD一般化について検討する。
目標は、ディープニューラルネットワークを使用して入出力ペアからアルゴリズムを学ぶことである。
論文 参考訳(メタデータ) (2022-11-01T18:33:20Z) - Bounding generalization error with input compression: An empirical study
with infinite-width networks [16.17600110257266]
Deep Neural Networks(DNN)のGE(Generalization Error)を推定することは、しばしばホールドアウトデータの可用性に依存する重要なタスクである。
GEに関連する量の探索において,入力層と最終層との相互情報(MI)について検討する。
MIとGEをリンクするために、既存の入力圧縮ベースのGEバウンドが使用される。
論文 参考訳(メタデータ) (2022-07-19T17:05:02Z) - KL Guided Domain Adaptation [88.19298405363452]
ドメイン適応は重要な問題であり、現実世界のアプリケーションにしばしば必要である。
ドメイン適応文学における一般的なアプローチは、ソースとターゲットドメインに同じ分布を持つ入力の表現を学ぶことである。
確率的表現ネットワークにより、KL項はミニバッチサンプルにより効率的に推定できることを示す。
論文 参考訳(メタデータ) (2021-06-14T22:24:23Z) - Atlas Based Representation and Metric Learning on Manifolds [0.0]
本稿では,ニューラルネットワークに基づく表現学習タスクのターゲット空間として,グラフの集合として表される位相多様体の利用について検討する。
これは、エンコーダのネットワークアーキテクチャの出力に対する簡単な調整と、正規化のための最大平均不一致(MMD)に基づく損失関数の追加によって達成される。
論文 参考訳(メタデータ) (2021-06-13T18:05:46Z) - Robust Compressed Sensing using Generative Models [98.64228459705859]
本稿では,Median-of-Means (MOM) にヒントを得たアルゴリズムを提案する。
我々のアルゴリズムは、外れ値が存在する場合でも、重み付きデータの回復を保証する。
論文 参考訳(メタデータ) (2020-06-16T19:07:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。