論文の概要: Competition of Mechanisms: Tracing How Language Models Handle Facts and Counterfactuals
- arxiv url: http://arxiv.org/abs/2402.11655v2
- Date: Thu, 6 Jun 2024 21:45:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 19:57:35.465482
- Title: Competition of Mechanisms: Tracing How Language Models Handle Facts and Counterfactuals
- Title(参考訳): メカニズムの競合:言語モデルがファクトやカウンターファクトをどう扱うかの追跡
- Authors: Francesco Ortu, Zhijing Jin, Diego Doimo, Mrinmaya Sachan, Alberto Cazzaniga, Bernhard Schölkopf,
- Abstract要約: 解釈可能性研究は、経験的成功と大規模言語モデル(LLM)の科学的理解のギャップを埋めることを目的としている。
本稿では,個々のメカニズムではなく,複数のメカニズムの相互作用に着目した,メカニズムの競合の定式化を提案する。
本研究は, 種々のモデル成分間の機構とその競合の痕跡を示し, 特定の機構の強度を効果的に制御する注意位置を明らかにした。
- 参考スコア(独自算出の注目度): 82.68757839524677
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Interpretability research aims to bridge the gap between empirical success and our scientific understanding of the inner workings of large language models (LLMs). However, most existing research focuses on analyzing a single mechanism, such as how models copy or recall factual knowledge. In this work, we propose a formulation of competition of mechanisms, which focuses on the interplay of multiple mechanisms instead of individual mechanisms and traces how one of them becomes dominant in the final prediction. We uncover how and where mechanisms compete within LLMs using two interpretability methods: logit inspection and attention modification. Our findings show traces of the mechanisms and their competition across various model components and reveal attention positions that effectively control the strength of certain mechanisms. Code: https://github.com/francescortu/comp-mech. Data: https://huggingface.co/datasets/francescortu/comp-mech.
- Abstract(参考訳): 解釈可能性の研究は、経験的成功と、大規模言語モデル(LLM)の内部動作に関する科学的理解のギャップを埋めることを目的としている。
しかし、既存の研究のほとんどは、モデルが事実の知識をコピーまたはリコールする方法など、単一のメカニズムの分析に重点を置いている。
本研究では,個々のメカニズムではなく,複数のメカニズムの相互作用に着目したメカニズムの競合の定式化を提案し,最終予測においてその1つが支配的になる様子を追究する。
我々は,ロジト検査とアテンション修正という2つの解釈可能性手法を用いて,LLM内でのメカニズムの競合の方法と方法を明らかにする。
本研究は, 種々のモデル成分間の機構とその競合の痕跡を示し, 特定の機構の強度を効果的に制御する注意位置を明らかにした。
コード:https://github.com/francescortu/comp-mech。
データ:https://huggingface.co/datasets/francescortu/comp-mech。
関連論文リスト
- Compete and Compose: Learning Independent Mechanisms for Modular World Models [57.94106862271727]
異なる環境における再利用可能な独立したメカニズムを活用するモジュール型世界モデルであるCOMETを提案する。
COMETは、コンペティションとコンポジションという2段階のプロセスを通じて、動的に変化する複数の環境でトレーニングされている。
COMETは,従来のファインタニング手法に比べて,サンプル効率が向上し,多様なオブジェクト数で新しい環境に適応できることを示す。
論文 参考訳(メタデータ) (2024-04-23T15:03:37Z) - A Framework of Defining, Modeling, and Analyzing Cognition Mechanisms [0.0]
認知メカニズムを定義し,モデル化し,分析する枠組みを提案する。
認知基盤は人間の認知自己の特徴を持っていると私は主張する。
論文 参考訳(メタデータ) (2023-11-13T12:31:46Z) - On the Discussion of Large Language Models: Symmetry of Agents and
Interplay with Prompts [51.3324922038486]
本稿では,プロンプトの相互作用と議論機構の実証結果について報告する。
また、コンピュートとマージに基づくスケーラブルな議論機構も提案している。
論文 参考訳(メタデータ) (2023-11-13T04:56:48Z) - Properties from Mechanisms: An Equivariance Perspective on Identifiable
Representation Learning [79.4957965474334]
教師なし表現学習の主な目標は、データ生成プロセスが潜在プロパティを回復するために「反転」することである。
この論文は「進化を支配するメカニズムの知識を活用して潜伏特性を識別するのか?」と問う。
我々は、可能なメカニズムの集合に関する知識が異なるため、不特定性の原因の完全な特徴づけを提供する。
論文 参考訳(メタデータ) (2021-10-29T14:04:08Z) - Understanding Attention in Machine Reading Comprehension [56.72165932439117]
本稿では,多面的自己意識と最終的なパフォーマンスとの関係を検討するために,一連の分析実験を実施することに焦点を当てる。
SQuAD(英語)とCMRC 2018(中国語)の定量的解析を行い、BERT, ALBERT, ELECTRAの2つのスパン抽出MCCデータセットについて検討した。
本研究は, 問合せ及び問合せに対する注意が最重要であり, 最終結果と強い相関関係を示すものであることを明らかにする。
論文 参考訳(メタデータ) (2021-08-26T04:23:57Z) - Transformers with Competitive Ensembles of Independent Mechanisms [97.93090139318294]
隠れた表現とパラメータを複数のメカニズムに分割し、注意を通して情報を交換する新しいトランスフォーマー層を提案する。
TIM を大規模 BERT モデル、画像変換器、および音声強調について研究し、意味的に意味のある専門化とパフォーマンスの向上の証拠を見つけます。
論文 参考訳(メタデータ) (2021-02-27T21:48:46Z) - Empirically Classifying Network Mechanisms [0.0]
ネットワークモデルは、多くの物理的、生物学的、社会的分野にわたる相互接続システムの研究に使用される。
任意のネットワークデータを機械的に分類できる単純な経験的アプローチを導入する。
論文 参考訳(メタデータ) (2020-12-22T01:41:34Z) - Reinforcement Learning of Sequential Price Mechanisms [24.302600030585275]
本稿では、間接的なメカニズムに強化学習を導入し、既存のシーケンシャルな価格体系のクラスで作業する。
提案手法は,複数の実験環境において最適あるいは準最適メカニズムを学習可能であることを示す。
論文 参考訳(メタデータ) (2020-10-02T19:57:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。