論文の概要: Interpreting Multilingual and Document-Length Sensitive Relevance Computations in Neural Retrieval Models through Axiomatic Causal Interventions
- arxiv url: http://arxiv.org/abs/2505.02154v1
- Date: Sun, 04 May 2025 15:30:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.455366
- Title: Interpreting Multilingual and Document-Length Sensitive Relevance Computations in Neural Retrieval Models through Axiomatic Causal Interventions
- Title(参考訳): 公理的因果介入によるニューラル検索モデルにおける多言語・文書長感性関連計算の解釈
- Authors: Oliver Savolainen, Dur e Najaf Amjad, Roxana Petcu,
- Abstract要約: 本研究は,ニューラル検索モデルにおけるリバースエンジニアリング関連性のための軸的因果介入の分析と拡張である。
従来の論文から重要な実験を再現し、クエリ項に関する情報がモデルエンコーディングで取得されることを確認した。
この作業は、スペイン語と中国語のデータセットにアクティベーションパッチを適用し、文書の長さの情報もモデルにエンコードされているかどうかを調べることで拡張する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This reproducibility study analyzes and extends the paper "Axiomatic Causal Interventions for Reverse Engineering Relevance Computation in Neural Retrieval Models," which investigates how neural retrieval models encode task-relevant properties such as term frequency. We reproduce key experiments from the original paper, confirming that information on query terms is captured in the model encoding. We extend this work by applying activation patching to Spanish and Chinese datasets and by exploring whether document-length information is encoded in the model as well. Our results confirm that the designed activation patching method can isolate the behavior to specific components and tokens in neural retrieval models. Moreover, our findings indicate that the location of term frequency generalizes across languages and that in later layers, the information for sequence-level tasks is represented in the CLS token. The results highlight the need for further research into interpretability in information retrieval and reproducibility in machine learning research. Our code is available at https://github.com/OliverSavolainen/axiomatic-ir-reproduce.
- Abstract(参考訳): 本研究は,ニューラル検索モデルが項頻度などのタスク関連特性をどのように符号化するかを考察した論文"Axiomatic Causal Interventions for Reverse Engineering Relevance Computation in Neural Retrieval Models"を分析し,拡張する。
従来の論文から重要な実験を再現し、クエリ項に関する情報がモデルエンコーディングで取得されることを確認した。
この作業は、スペイン語と中国語のデータセットにアクティベーションパッチを適用し、文書の長さの情報もモデルにエンコードされているかどうかを調べることで拡張する。
提案手法は, ニューラルネットワークモデルにおいて, 特定のコンポーネントやトークンに対して, 動作を分離することができることを確認した。
さらに, 項頻度の位置は言語間で一般化し, 後層では, CLSトークンでシーケンスレベルのタスクの情報が表現されることが示唆された。
その結果、機械学習研究における情報検索と再現可能性の解釈可能性に関するさらなる研究の必要性が浮き彫りになった。
私たちのコードはhttps://github.com/OliverSavolainen/axiomatic-ir-reproduce.comで公開されています。
関連論文リスト
- LatentQA: Teaching LLMs to Decode Activations Into Natural Language [72.87064562349742]
自然言語におけるモデルアクティベーションに関するオープンな疑問に答えるタスクであるLatentQAを紹介する。
本稿では,アクティベーションと関連する質問応答ペアのデータセット上で,デコーダLLMを微調整するLatent Interpretation Tuning (LIT)を提案する。
我々のデコーダはまた、ステレオタイプ付き文のモデルのデバイアス化や世代ごとの感情制御など、モデルを制御するために使用する差別化可能な損失も規定している。
論文 参考訳(メタデータ) (2024-12-11T18:59:33Z) - Pointwise Mutual Information as a Performance Gauge for Retrieval-Augmented Generation [78.28197013467157]
文脈と問合せの間のポイントワイドな相互情報は,言語モデルの性能向上に有効な指標であることを示す。
本稿では,文書と質問のポイントワイドな相互情報を利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2024-11-12T13:14:09Z) - Investigating the Timescales of Language Processing with EEG and Language Models [0.0]
本研究では,事前学習した言語モデルと脳波データからの単語表現のアライメントを検討することで,言語処理の時間的ダイナミクスについて検討する。
テンポラル・レスポンス・ファンクション(TRF)モデルを用いて、神経活動が異なる層にまたがるモデル表現とどのように対応するかを検討する。
分析の結果,異なる層からのTRFのパターンが明らかとなり,語彙的および構成的処理への様々な貢献が明らかになった。
論文 参考訳(メタデータ) (2024-06-28T12:49:27Z) - A Mechanistic Interpretation of Arithmetic Reasoning in Language Models
using Causal Mediation Analysis [128.0532113800092]
算数問題に対するトランスフォーマーに基づくLMの機械的解釈を提案する。
これにより、算術に関連する情報がLMによってどのように処理されるかについての洞察が得られる。
論文 参考訳(メタデータ) (2023-05-24T11:43:47Z) - Measures of Information Reflect Memorization Patterns [53.71420125627608]
異なるニューロンの活性化パターンの多様性は、モデル一般化と記憶の反映であることを示す。
重要なことは、情報組織が記憶の2つの形態を指していることである。
論文 参考訳(メタデータ) (2022-10-17T20:15:24Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - An Evaluation of Recent Neural Sequence Tagging Models in Turkish Named
Entity Recognition [5.161531917413708]
本研究では,条件付きランダムフィールド層を有する変圧器ベースネットワークを提案する。
本研究は,移動学習が形態的に豊かな言語処理に与える影響を定量化する文献に寄与する。
論文 参考訳(メタデータ) (2020-05-14T06:54:07Z) - Data Mining in Clinical Trial Text: Transformers for Classification and
Question Answering Tasks [2.127049691404299]
本研究は,医学的テキストに基づくエビデンス合成に自然言語処理の進歩を適用した。
主な焦点は、Population、Intervention、Comparator、Outcome(PICO)フレームワークを通じて特徴づけられる情報である。
トランスフォーマーに基づく最近のニューラルネットワークアーキテクチャは、トランスファーラーニングの能力を示し、下流の自然言語処理タスクのパフォーマンスが向上している。
論文 参考訳(メタデータ) (2020-01-30T11:45:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。