論文の概要: Competition of Mechanisms: Tracing How Language Models Handle Facts and
Counterfactuals
- arxiv url: http://arxiv.org/abs/2402.11655v1
- Date: Sun, 18 Feb 2024 17:26:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 19:42:22.012514
- Title: Competition of Mechanisms: Tracing How Language Models Handle Facts and
Counterfactuals
- Title(参考訳): メカニズムの競合:言語モデルがファクトやカウンターファクトをどう扱うかの追跡
- Authors: Francesco Ortu, Zhijing Jin, Diego Doimo, Mrinmaya Sachan, Alberto
Cazzaniga, Bernhard Sch\"olkopf
- Abstract要約: 解釈可能性の研究は、経験的成功と大規模言語モデルの内部動作に関する科学的理解のギャップを埋めることを目的としている。
個別のメカニズムの代わりに複数のメカニズムの相互作用に焦点を当てたメカニズムの競合の定式化を提案する。
本研究は, 種々のモデル成分間の機構とその競合の痕跡を示し, 特定の機構の強度を効果的に制御する注意位置を明らかにした。
- 参考スコア(独自算出の注目度): 55.23587651065376
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interpretability research aims to bridge the gap between the empirical
success and our scientific understanding of the inner workings of large
language models (LLMs). However, most existing research in this area focused on
analyzing a single mechanism, such as how models copy or recall factual
knowledge. In this work, we propose the formulation of competition of
mechanisms, which instead of individual mechanisms focuses on the interplay of
multiple mechanisms, and traces how one of them becomes dominant in the final
prediction. We uncover how and where the competition of mechanisms happens
within LLMs using two interpretability methods, logit inspection and attention
modification. Our findings show traces of the mechanisms and their competition
across various model components, and reveal attention positions that
effectively control the strength of certain mechanisms. Our code and data are
at https://github.com/francescortu/Competition_of_Mechanisms.
- Abstract(参考訳): 解釈可能性の研究は、経験的成功と大規模言語モデル(LLM)の内部動作に関する科学的理解のギャップを埋めることを目的としている。
しかし、この分野の既存の研究のほとんどは、モデルが事実の知識をコピーまたはリコールする方法のような単一のメカニズムの分析に焦点を当てている。
本研究では,個々のメカニズムではなく,複数のメカニズムの相互作用に着目したメカニズムの競合の定式化を提案し,そのひとつが最終予測において支配的になることを示す。
我々は,ロジット検査と注意修正という2つの解釈方法を用いて,llm内の機構の競合がどのようにして起こるかを明らかにする。
本研究は,様々なモデル成分間の機構とその競合の痕跡を示し,特定の機構の強度を効果的に制御する注意位置を明らかにした。
私たちのコードとデータはhttps://github.com/francescortu/Competition_of_Mechanismsにあります。
関連論文リスト
- Compete and Compose: Learning Independent Mechanisms for Modular World Models [57.94106862271727]
異なる環境における再利用可能な独立したメカニズムを活用するモジュール型世界モデルであるCOMETを提案する。
COMETは、コンペティションとコンポジションという2段階のプロセスを通じて、動的に変化する複数の環境でトレーニングされている。
COMETは,従来のファインタニング手法に比べて,サンプル効率が向上し,多様なオブジェクト数で新しい環境に適応できることを示す。
論文 参考訳(メタデータ) (2024-04-23T15:03:37Z) - A Framework of Defining, Modeling, and Analyzing Cognition Mechanisms [0.0]
認知メカニズムを定義し,モデル化し,分析する枠組みを提案する。
認知基盤は人間の認知自己の特徴を持っていると私は主張する。
論文 参考訳(メタデータ) (2023-11-13T12:31:46Z) - On the Discussion of Large Language Models: Symmetry of Agents and
Interplay with Prompts [51.3324922038486]
本稿では,プロンプトの相互作用と議論機構の実証結果について報告する。
また、コンピュートとマージに基づくスケーラブルな議論機構も提案している。
論文 参考訳(メタデータ) (2023-11-13T04:56:48Z) - Properties from Mechanisms: An Equivariance Perspective on Identifiable
Representation Learning [79.4957965474334]
教師なし表現学習の主な目標は、データ生成プロセスが潜在プロパティを回復するために「反転」することである。
この論文は「進化を支配するメカニズムの知識を活用して潜伏特性を識別するのか?」と問う。
我々は、可能なメカニズムの集合に関する知識が異なるため、不特定性の原因の完全な特徴づけを提供する。
論文 参考訳(メタデータ) (2021-10-29T14:04:08Z) - Multilingual Multi-Aspect Explainability Analyses on Machine Reading Comprehension Models [76.48370548802464]
本稿では,マルチヘッド自己注意と最終MRCシステム性能の関係を検討するために,一連の解析実験を実施することに焦点を当てる。
問合せ及び問合せ理解の注意が問合せプロセスにおいて最も重要なものであることが判明した。
包括的可視化とケーススタディを通じて、注意マップに関するいくつかの一般的な知見も観察し、これらのモデルがどのように問題を解くかを理解するのに役立ちます。
論文 参考訳(メタデータ) (2021-08-26T04:23:57Z) - Transformers with Competitive Ensembles of Independent Mechanisms [97.93090139318294]
隠れた表現とパラメータを複数のメカニズムに分割し、注意を通して情報を交換する新しいトランスフォーマー層を提案する。
TIM を大規模 BERT モデル、画像変換器、および音声強調について研究し、意味的に意味のある専門化とパフォーマンスの向上の証拠を見つけます。
論文 参考訳(メタデータ) (2021-02-27T21:48:46Z) - Empirically Classifying Network Mechanisms [0.0]
ネットワークモデルは、多くの物理的、生物学的、社会的分野にわたる相互接続システムの研究に使用される。
任意のネットワークデータを機械的に分類できる単純な経験的アプローチを導入する。
論文 参考訳(メタデータ) (2020-12-22T01:41:34Z) - Reinforcement Learning of Sequential Price Mechanisms [24.302600030585275]
本稿では、間接的なメカニズムに強化学習を導入し、既存のシーケンシャルな価格体系のクラスで作業する。
提案手法は,複数の実験環境において最適あるいは準最適メカニズムを学習可能であることを示す。
論文 参考訳(メタデータ) (2020-10-02T19:57:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。