論文の概要: Understanding Matching Mechanisms in Cross-Encoders
- arxiv url: http://arxiv.org/abs/2507.14604v1
- Date: Sat, 19 Jul 2025 13:05:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:31.966599
- Title: Understanding Matching Mechanisms in Cross-Encoders
- Title(参考訳): クロスエンコーダにおけるマッチング機構の理解
- Authors: Mathias Vast, Basile Van Cooten, Laure Soulier, Benjamin Piwowarski,
- Abstract要約: クロスエンコーダは、内部メカニズムがほとんど不明な非常に効果的なモデルである。
ほとんどの作業は、ハイレベルなプロセスに重点を置いている。
より簡単な方法が、すでに価値ある洞察を提供できることを実証します。
- 参考スコア(独自算出の注目度): 11.192264101562786
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural IR architectures, particularly cross-encoders, are highly effective models whose internal mechanisms are mostly unknown. Most works trying to explain their behavior focused on high-level processes (e.g., what in the input influences the prediction, does the model adhere to known IR axioms) but fall short of describing the matching process. Instead of Mechanistic Interpretability approaches which specifically aim at explaining the hidden mechanisms of neural models, we demonstrate that more straightforward methods can already provide valuable insights. In this paper, we first focus on the attention process and extract causal insights highlighting the crucial roles of some attention heads in this process. Second, we provide an interpretation of the mechanism underlying matching detection.
- Abstract(参考訳): ニューラルIRアーキテクチャ、特にクロスエンコーダは、内部メカニズムがほとんど不明な非常に効果的なモデルである。
ほとんどの研究は、高レベルのプロセス(例えば、入力が予測にどんな影響を及ぼすか、そのモデルは既知のIR公理に従属するのか)に焦点をあてて、それらの振る舞いを説明しようとするが、マッチングプロセスを記述するには至らなかった。
ニューラルネットワークの隠れメカニズムの説明を特に目的とする機械的解釈可能性アプローチの代わりに、より単純な手法がすでに価値ある洞察を提供することができることを実証する。
本稿では,まず注意プロセスに焦点をあて,このプロセスにおける注目者の重要な役割を浮き彫りにする因果的洞察を抽出する。
次に、マッチング検出の基礎となるメカニズムを解釈する。
関連論文リスト
- Internal Causal Mechanisms Robustly Predict Language Model Out-of-Distribution Behaviors [61.92704516732144]
正当性予測の最も堅牢な特徴は、モデルの振舞いに特徴的な因果的役割を果たすものであることを示す。
モデル出力の正しさを予測するために因果メカニズムを利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2025-05-17T00:31:39Z) - Systematic Outliers in Large Language Models [41.2150163753952]
外乱はLarge Language Models (LLM) で広く観測されている。
LLMの生成過程,根本原因,機能について詳細な解析を行った。
論文 参考訳(メタデータ) (2025-02-10T12:54:17Z) - Axiomatic Causal Interventions for Reverse Engineering Relevance Computation in Neural Retrieval Models [20.29451537633895]
本稿では,ニューラルランサーのリバースエンジニアリングにおける因果介入法を提案する。
本稿では, 項周波数公理を満たす成分を分離するために, 機械的解釈可能性法をどのように利用できるかを示す。
論文 参考訳(メタデータ) (2024-05-03T22:30:15Z) - Competition of Mechanisms: Tracing How Language Models Handle Facts and Counterfactuals [82.68757839524677]
解釈可能性研究は、経験的成功と大規模言語モデル(LLM)の科学的理解のギャップを埋めることを目的としている。
本稿では,個々のメカニズムではなく,複数のメカニズムの相互作用に着目した,メカニズムの競合の定式化を提案する。
本研究は, 種々のモデル成分間の機構とその競合の痕跡を示し, 特定の機構の強度を効果的に制御する注意位置を明らかにした。
論文 参考訳(メタデータ) (2024-02-18T17:26:51Z) - Attention Meets Post-hoc Interpretability: A Mathematical Perspective [6.492879435794228]
簡単な注意に基づくアーキテクチャを数学的に研究し、ポストホックとアテンションに基づく説明の違いを指摘する。
それらとは全く異なる結果が得られており、その制限にもかかわらず、ポストホック法は単に注意重みを調べるだけでなく、より有用な洞察を捉えることができることを示した。
論文 参考訳(メタデータ) (2024-02-05T19:56:56Z) - Attention mechanisms for physiological signal deep learning: which
attention should we take? [0.0]
我々は,4つのアテンション機構(例えば,圧縮励起,非局所的,畳み込みブロックアテンションモジュール,マルチヘッド自己アテンション)と3つの畳み込みニューラルネットワーク(CNN)アーキテクチャを実験的に解析した。
生理信号深層学習モデルの性能と収束性に関する複数の組み合わせを評価した。
論文 参考訳(メタデータ) (2022-07-04T07:24:08Z) - Guiding Visual Question Answering with Attention Priors [76.21671164766073]
本稿では,言語・視覚的接地による注意機構の導出について述べる。
この基礎は、クエリ内の構造化言語概念を視覚オブジェクト間の参照物に接続することで導かれる。
このアルゴリズムは、注意に基づく推論モデルを調べ、関連する連想的知識を注入し、コア推論プロセスを制御する。
論文 参考訳(メタデータ) (2022-05-25T09:53:47Z) - Properties from Mechanisms: An Equivariance Perspective on Identifiable
Representation Learning [79.4957965474334]
教師なし表現学習の主な目標は、データ生成プロセスが潜在プロパティを回復するために「反転」することである。
この論文は「進化を支配するメカニズムの知識を活用して潜伏特性を識別するのか?」と問う。
我々は、可能なメカニズムの集合に関する知識が異なるため、不特定性の原因の完全な特徴づけを提供する。
論文 参考訳(メタデータ) (2021-10-29T14:04:08Z) - SparseBERT: Rethinking the Importance Analysis in Self-attention [107.68072039537311]
トランスフォーマーベースのモデルは、その強力な能力のために自然言語処理(NLP)タスクに人気がある。
事前学習モデルの注意マップの可視化は,自己着脱機構を理解するための直接的な方法の一つである。
本研究では,sparsebert設計の指導にも適用可能な微分可能アテンションマスク(dam)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-25T14:13:44Z) - Explain and Improve: LRP-Inference Fine-Tuning for Image Captioning
Models [82.3793660091354]
本稿では,注意を可視化する以外に,注意機構を付加した画像キャプションモデルの予測について分析する。
我々は,注意機構を備えた画像キャプションモデルに適したレイヤワイド関連伝搬(LRP)と勾配に基づく説明法を開発した。
論文 参考訳(メタデータ) (2020-01-04T05:15:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。