Fugu-MT 論文翻訳(概要): A Mechanistic Interpretation of Arithmetic Reasoning in Language Models using Causal Mediation Analysis

論文の概要: A Mechanistic Interpretation of Arithmetic Reasoning in Language Models using Causal Mediation Analysis

arxiv url: http://arxiv.org/abs/2305.15054v2
Date: Fri, 20 Oct 2023 12:13:27 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-24 05:44:52.624180
Title: A Mechanistic Interpretation of Arithmetic Reasoning in Language Models using Causal Mediation Analysis
Title（参考訳）: 因果メディエーション分析を用いた言語モデルにおける算数推論の機械論的解釈
Authors: Alessandro Stolfo, Yonatan Belinkov, Mrinmaya Sachan
Abstract要約: 算数問題に対するトランスフォーマーに基づくLMの機械的解釈を提案する。これにより、算術に関連する情報がLMによってどのように処理されるかについての洞察が得られる。
参考スコア（独自算出の注目度）: 128.0532113800092
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Mathematical reasoning in large language models (LMs) has garnered significant attention in recent work, but there is a limited understanding of how these models process and store information related to arithmetic tasks within their architecture. In order to improve our understanding of this aspect of language models, we present a mechanistic interpretation of Transformer-based LMs on arithmetic questions using a causal mediation analysis framework. By intervening on the activations of specific model components and measuring the resulting changes in predicted probabilities, we identify the subset of parameters responsible for specific predictions. This provides insights into how information related to arithmetic is processed by LMs. Our experimental results indicate that LMs process the input by transmitting the information relevant to the query from mid-sequence early layers to the final token using the attention mechanism. Then, this information is processed by a set of MLP modules, which generate result-related information that is incorporated into the residual stream. To assess the specificity of the observed activation dynamics, we compare the effects of different model components on arithmetic queries with other tasks, including number retrieval from prompts and factual knowledge questions.
Abstract（参考訳）: 大規模言語モデル(lms)における数学的推論は、最近の研究で大きな注目を集めているが、これらのモデルがどのようにして算術タスクに関連する情報をアーキテクチャ内で処理し保存するかについての理解は限られている。言語モデルにおけるこの側面の理解を深めるために, 因果的調停分析フレームワークを用いて, 算術問題に対する変圧器に基づくlmsの機械的解釈を提案する。特定のモデルコンポーネントのアクティベーションに介入し、予測される確率の変化を測定することで、特定の予測に責任のあるパラメータのサブセットを識別する。これにより、算術に関する情報がlsmによってどのように処理されるかに関する洞察が得られる。実験の結果, lmsは, 問合せに関する情報を初期層から最終トークンにアテンション機構を用いて送信することで入力を処理できることが示されている。そして、この情報を一連のMLPモジュールで処理し、残ストリームに組み込まれた結果関連情報を生成する。観測されたアクティベーションダイナミクスの特異性を評価するために、異なるモデルコンポーネントが演算クエリに与える影響を、プロンプトからの数値検索や事実知識質問を含む他のタスクと比較する。

関連論文リスト

IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文参考訳（メタデータ） (2025-05-23T09:37:52Z)
How do Large Language Models Understand Relevance? A Mechanistic Interpretability Perspective [64.00022624183781]
大規模言語モデル(LLM)は、関連性を評価し、情報検索(IR)タスクをサポートする。メカニスティック・インタプリタビリティのレンズを用いて,異なるLLMモジュールが関係判断にどのように寄与するかを検討する。
論文参考訳（メタデータ） (2025-04-10T16:14:55Z)
Aggregation Artifacts in Subjective Tasks Collapse Large Language Models' Posteriors [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理の主要な手法となっている。本研究は,低アグリゲーション,異質なアノテーションを組み合わせたアグリゲーションの結果が,プロンプトに有害なノイズを生じさせるアノテーションのアーティファクトに繋がるかどうかを考察する。この結果から,アグリゲーションは主観的タスクのモデル化において不明瞭な要因であり,代わりに個人をモデリングすることを重視することが示唆された。
論文参考訳（メタデータ） (2024-10-17T17:16:00Z)
Interpreting token compositionality in LLMs: A robustness analysis [10.777646083061395]
Constituent-Aware Pooling (CAP)は、大規模言語モデルが言語構造をどのように処理するかを分析するために設計された方法論である。 CAPは様々なモデルレベルで構成型プールを通してモデル活性化に介入する。
論文参考訳（メタデータ） (2024-10-16T18:10:50Z)
Interpreting and Improving Large Language Models in Arithmetic Calculation [72.19753146621429]
大規模言語モデル(LLM)は、多くのアプリケーションにまたがる顕著な可能性を示している。本研究では,LLMが計算を行う特定のメカニズムを明らかにする。 LLMの計算性能を高めるために、これらの必須ヘッド/MLPを選択的に微調整する潜在的な利点について検討する。
論文参考訳（メタデータ） (2024-09-03T07:01:46Z)
From Feature Importance to Natural Language Explanations Using LLMs with RAG [4.204990010424084]
大規模言語モデル(LLM)の応答に外部知識リポジトリを活用して,トレーサブルな質問応答を導入する。この知識リポジトリは、高レベルの特徴、特徴の重要性、代替確率を含む、モデルの出力に関するコンテキストの詳細を含む。社会的・因果的・選択的・コントラスト的な4つの重要な特徴を、人間の説明に関する社会科学研究から一発のプロンプトへと統合し、応答生成過程を導く。
論文参考訳（メタデータ） (2024-07-30T17:27:20Z)
Understanding Large Language Model Behaviors through Interactive Counterfactual Generation and Analysis [22.755345889167934]
本稿では,大規模言語モデル (LLM) の対実解析による探索を可能にする対話型可視化システムを提案する。本システムは,意味論的に意味のある反事実を生成する新しいアルゴリズムを特徴とする。 LLM実践者とのユーザスタディと専門家とのインタビューは、システムのユーザビリティと有効性を示している。
論文参考訳（メタデータ） (2024-04-23T19:57:03Z)
Competence-Based Analysis of Language Models [21.43498764977656]
CALM (Competence-based Analysis of Language Models) は、特定のタスクの文脈におけるLLM能力を調べるために設計された。我々は,勾配に基づく対向攻撃を用いた因果探究介入を行うための新しい手法を開発した。これらの介入を用いてCALMのケーススタディを行い、様々な語彙推論タスクにおけるLCM能力の分析と比較を行う。
論文参考訳（メタデータ） (2023-03-01T08:53:36Z)
Tracing and Manipulating Intermediate Values in Neural Math Problem Solvers [29.957075459315384]
複数の推論ステップを必要とする複雑な入力を、言語モデルがどのように処理するかは、よく理解されていない。これまでの研究では、これらの入力の中間値に関する情報はモデルの活性化から抽出できることが示されている。本稿では、簡単な算術問題とその中間値に着目して、トランスフォーマーモデルがこれらの入力をどのように処理するかを分析する手法を提案する。
論文参考訳（メタデータ） (2023-01-17T08:46:50Z)
Explainability in Process Outcome Prediction: Guidelines to Obtain Interpretable and Faithful Models [77.34726150561087]
本稿では、プロセス結果予測の分野における説明可能性モデルと説明可能性モデルの忠実性を通して、説明可能性を定義する。本稿では,イベントログの仕様に基づいて適切なモデルを選択することのできる,X-MOPというガイドラインのセットを提案する。
論文参考訳（メタデータ） (2022-03-30T05:59:50Z)
Learning Operators with Coupled Attention [9.715465024071333]
本稿では,近年の注目機構の成功を動機とした,新しい演算子学習手法であるLOCAを提案する。我々のアーキテクチャでは、入力関数は有限個の特徴にマッピングされ、その特徴は出力クエリの場所に依存する注意重みで平均化される。これらの注意重みを積分変換と組み合わせることで、LOCAは目標出力関数の相関関係を明示的に学習することができる。
論文参考訳（メタデータ） (2022-01-04T08:22:03Z)
Multilingual Multi-Aspect Explainability Analyses on Machine Reading Comprehension Models [76.48370548802464]
本稿では,マルチヘッド自己注意と最終MRCシステム性能の関係を検討するために,一連の解析実験を実施することに焦点を当てる。問合せ及び問合せ理解の注意が問合せプロセスにおいて最も重要なものであることが判明した。包括的可視化とケーススタディを通じて、注意マップに関するいくつかの一般的な知見も観察し、これらのモデルがどのように問題を解くかを理解するのに役立ちます。
論文参考訳（メタデータ） (2021-08-26T04:23:57Z)
Did the Cat Drink the Coffee? Challenging Transformers with Generalized Event Knowledge [59.22170796793179]
Transformers Language Models (TLMs) を数学的適合のテクトダイナミックな評価のためのベンチマークで検証した。以上の結果から, TLM は SDM に匹敵する性能が得られることが示された。しかし、さらなる分析は、TLMがイベント知識の重要な側面を捉えていないことを一貫して示唆している。
論文参考訳（メタデータ） (2021-07-22T20:52:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。