Fugu-MT 論文翻訳(概要): Competition of Mechanisms: Tracing How Language Models Handle Facts and Counterfactuals

論文の概要: Competition of Mechanisms: Tracing How Language Models Handle Facts and Counterfactuals

arxiv url: http://arxiv.org/abs/2402.11655v1
Date: Sun, 18 Feb 2024 17:26:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-20 19:42:22.012514
Title: Competition of Mechanisms: Tracing How Language Models Handle Facts and Counterfactuals
Title（参考訳）: メカニズムの競合:言語モデルがファクトやカウンターファクトをどう扱うかの追跡
Authors: Francesco Ortu, Zhijing Jin, Diego Doimo, Mrinmaya Sachan, Alberto Cazzaniga, Bernhard Sch\"olkopf
Abstract要約: 解釈可能性の研究は、経験的成功と大規模言語モデルの内部動作に関する科学的理解のギャップを埋めることを目的としている。個別のメカニズムの代わりに複数のメカニズムの相互作用に焦点を当てたメカニズムの競合の定式化を提案する。本研究は, 種々のモデル成分間の機構とその競合の痕跡を示し, 特定の機構の強度を効果的に制御する注意位置を明らかにした。
参考スコア（独自算出の注目度）: 55.23587651065376
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Interpretability research aims to bridge the gap between the empirical success and our scientific understanding of the inner workings of large language models (LLMs). However, most existing research in this area focused on analyzing a single mechanism, such as how models copy or recall factual knowledge. In this work, we propose the formulation of competition of mechanisms, which instead of individual mechanisms focuses on the interplay of multiple mechanisms, and traces how one of them becomes dominant in the final prediction. We uncover how and where the competition of mechanisms happens within LLMs using two interpretability methods, logit inspection and attention modification. Our findings show traces of the mechanisms and their competition across various model components, and reveal attention positions that effectively control the strength of certain mechanisms. Our code and data are at https://github.com/francescortu/Competition_of_Mechanisms.
Abstract（参考訳）: 解釈可能性の研究は、経験的成功と大規模言語モデル(LLM)の内部動作に関する科学的理解のギャップを埋めることを目的としている。しかし、この分野の既存の研究のほとんどは、モデルが事実の知識をコピーまたはリコールする方法のような単一のメカニズムの分析に焦点を当てている。本研究では,個々のメカニズムではなく,複数のメカニズムの相互作用に着目したメカニズムの競合の定式化を提案し,そのひとつが最終予測において支配的になることを示す。我々は,ロジット検査と注意修正という2つの解釈方法を用いて,llm内の機構の競合がどのようにして起こるかを明らかにする。本研究は,様々なモデル成分間の機構とその競合の痕跡を示し,特定の機構の強度を効果的に制御する注意位置を明らかにした。私たちのコードとデータはhttps://github.com/francescortu/Competition_of_Mechanismsにあります。

関連論文リスト

Understanding Matching Mechanisms in Cross-Encoders [11.192264101562786]
クロスエンコーダは、内部メカニズムがほとんど不明な非常に効果的なモデルである。ほとんどの作業は、ハイレベルなプロセスに重点を置いている。より簡単な方法が、すでに価値ある洞察を提供できることを実証します。
論文参考訳（メタデータ） (2025-07-19T13:05:27Z)
Internal Causal Mechanisms Robustly Predict Language Model Out-of-Distribution Behaviors [61.92704516732144]
正当性予測の最も堅牢な特徴は、モデルの振舞いに特徴的な因果的役割を果たすものであることを示す。モデル出力の正しさを予測するために因果メカニズムを利用する2つの手法を提案する。
論文参考訳（メタデータ） (2025-05-17T00:31:39Z)
Understanding Multimodal LLMs: the Mechanistic Interpretability of Llava in Visual Question Answering [19.472889262384818]
我々は,ユーザと研究者が最終予測のための重要な視覚的位置を特定するのに役立つ解釈可能性ツールを開発した。提案手法は,既存の解釈可能性アプローチと比較して,より高速かつ効果的な結果を示す。
論文参考訳（メタデータ） (2024-11-17T03:32:50Z)
Reasoning Circuits in Language Models: A Mechanistic Interpretation of Syllogistic Inference [13.59675117792588]
言語モデル(LM)に関する最近の研究は、体系的な推論原理を学べるかという議論を巻き起こしている。本稿では,シロメトリクス推論の機械論的解釈について述べる。
論文参考訳（メタデータ） (2024-08-16T07:47:39Z)
Compete and Compose: Learning Independent Mechanisms for Modular World Models [57.94106862271727]
異なる環境における再利用可能な独立したメカニズムを活用するモジュール型世界モデルであるCOMETを提案する。 COMETは、コンペティションとコンポジションという2段階のプロセスを通じて、動的に変化する複数の環境でトレーニングされている。 COMETは,従来のファインタニング手法に比べて,サンプル効率が向上し,多様なオブジェクト数で新しい環境に適応できることを示す。
論文参考訳（メタデータ） (2024-04-23T15:03:37Z)
On the Discussion of Large Language Models: Symmetry of Agents and Interplay with Prompts [51.3324922038486]
本稿では,プロンプトの相互作用と議論機構の実証結果について報告する。また、コンピュートとマージに基づくスケーラブルな議論機構も提案している。
論文参考訳（メタデータ） (2023-11-13T04:56:48Z)
Properties from Mechanisms: An Equivariance Perspective on Identifiable Representation Learning [79.4957965474334]
教師なし表現学習の主な目標は、データ生成プロセスが潜在プロパティを回復するために「反転」することである。この論文は「進化を支配するメカニズムの知識を活用して潜伏特性を識別するのか?」と問う。我々は、可能なメカニズムの集合に関する知識が異なるため、不特定性の原因の完全な特徴づけを提供する。
論文参考訳（メタデータ） (2021-10-29T14:04:08Z)
Multilingual Multi-Aspect Explainability Analyses on Machine Reading Comprehension Models [76.48370548802464]
本稿では,マルチヘッド自己注意と最終MRCシステム性能の関係を検討するために,一連の解析実験を実施することに焦点を当てる。問合せ及び問合せ理解の注意が問合せプロセスにおいて最も重要なものであることが判明した。包括的可視化とケーススタディを通じて、注意マップに関するいくつかの一般的な知見も観察し、これらのモデルがどのように問題を解くかを理解するのに役立ちます。
論文参考訳（メタデータ） (2021-08-26T04:23:57Z)
Transformers with Competitive Ensembles of Independent Mechanisms [97.93090139318294]
隠れた表現とパラメータを複数のメカニズムに分割し、注意を通して情報を交換する新しいトランスフォーマー層を提案する。 TIM を大規模 BERT モデル、画像変換器、および音声強調について研究し、意味的に意味のある専門化とパフォーマンスの向上の証拠を見つけます。
論文参考訳（メタデータ） (2021-02-27T21:48:46Z)
Empirically Classifying Network Mechanisms [0.0]
ネットワークモデルは、多くの物理的、生物学的、社会的分野にわたる相互接続システムの研究に使用される。任意のネットワークデータを機械的に分類できる単純な経験的アプローチを導入する。
論文参考訳（メタデータ） (2020-12-22T01:41:34Z)
Reinforcement Learning of Sequential Price Mechanisms [24.302600030585275]
本稿では、間接的なメカニズムに強化学習を導入し、既存のシーケンシャルな価格体系のクラスで作業する。提案手法は,複数の実験環境において最適あるいは準最適メカニズムを学習可能であることを示す。
論文参考訳（メタデータ） (2020-10-02T19:57:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。