論文の概要: Competition of Mechanisms: Tracing How Language Models Handle Facts and
Counterfactuals
- arxiv url: http://arxiv.org/abs/2402.11655v1
- Date: Sun, 18 Feb 2024 17:26:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 19:42:22.012514
- Title: Competition of Mechanisms: Tracing How Language Models Handle Facts and
Counterfactuals
- Title(参考訳): メカニズムの競合:言語モデルがファクトやカウンターファクトをどう扱うかの追跡
- Authors: Francesco Ortu, Zhijing Jin, Diego Doimo, Mrinmaya Sachan, Alberto
Cazzaniga, Bernhard Sch\"olkopf
- Abstract要約: 解釈可能性の研究は、経験的成功と大規模言語モデルの内部動作に関する科学的理解のギャップを埋めることを目的としている。
個別のメカニズムの代わりに複数のメカニズムの相互作用に焦点を当てたメカニズムの競合の定式化を提案する。
本研究は, 種々のモデル成分間の機構とその競合の痕跡を示し, 特定の機構の強度を効果的に制御する注意位置を明らかにした。
- 参考スコア(独自算出の注目度): 55.23587651065376
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interpretability research aims to bridge the gap between the empirical
success and our scientific understanding of the inner workings of large
language models (LLMs). However, most existing research in this area focused on
analyzing a single mechanism, such as how models copy or recall factual
knowledge. In this work, we propose the formulation of competition of
mechanisms, which instead of individual mechanisms focuses on the interplay of
multiple mechanisms, and traces how one of them becomes dominant in the final
prediction. We uncover how and where the competition of mechanisms happens
within LLMs using two interpretability methods, logit inspection and attention
modification. Our findings show traces of the mechanisms and their competition
across various model components, and reveal attention positions that
effectively control the strength of certain mechanisms. Our code and data are
at https://github.com/francescortu/Competition_of_Mechanisms.
- Abstract(参考訳): 解釈可能性の研究は、経験的成功と大規模言語モデル(LLM)の内部動作に関する科学的理解のギャップを埋めることを目的としている。
しかし、この分野の既存の研究のほとんどは、モデルが事実の知識をコピーまたはリコールする方法のような単一のメカニズムの分析に焦点を当てている。
本研究では,個々のメカニズムではなく,複数のメカニズムの相互作用に着目したメカニズムの競合の定式化を提案し,そのひとつが最終予測において支配的になることを示す。
我々は,ロジット検査と注意修正という2つの解釈方法を用いて,llm内の機構の競合がどのようにして起こるかを明らかにする。
本研究は,様々なモデル成分間の機構とその競合の痕跡を示し,特定の機構の強度を効果的に制御する注意位置を明らかにした。
私たちのコードとデータはhttps://github.com/francescortu/Competition_of_Mechanismsにあります。
関連論文リスト
- A Framework of Defining, Modeling, and Analyzing Cognition Mechanisms [0.0]
認知メカニズムを定義し,モデル化し,分析する枠組みを提案する。
認知基盤は人間の認知自己の特徴を持っていると私は主張する。
論文 参考訳(メタデータ) (2023-11-13T12:31:46Z) - On the Discussion of Large Language Models: Symmetry of Agents and
Interplay with Prompts [51.3324922038486]
本稿では,プロンプトの相互作用と議論機構の実証結果について報告する。
また、コンピュートとマージに基づくスケーラブルな議論機構も提案している。
論文 参考訳(メタデータ) (2023-11-13T04:56:48Z) - Learning Causal Mechanisms through Orthogonal Neural Networks [2.77390041716769]
歪みデータポイントから独立したメカニズムの集合の逆転を,教師なしの方法で学習する問題について検討する。
本研究では,ラベルのないデータから独立したメカニズムの集合を発見・解離する教師なしの手法を提案し,それらを逆転する方法を学習する。
論文 参考訳(メタデータ) (2023-06-05T13:11:33Z) - Recent Advances of Local Mechanisms in Computer Vision: A Survey and
Outlook of Recent Work [48.69845068325126]
ローカルメカニズムはコンピュータビジョンの開発を促進するように設計されている。
識別的局所表現を学習するために対象部品に焦点を合わせるだけでなく、効率を向上させるために選択的に情報を処理することができる。
本稿では,様々なコンピュータビジョンタスクやアプローチの局所的なメカニズムを体系的に検討する。
論文 参考訳(メタデータ) (2023-06-02T22:05:52Z) - Investigating Fairness Disparities in Peer Review: A Language Model
Enhanced Approach [77.61131357420201]
我々は、大規模言語モデル(LM)の助けを借りて、ピアレビューにおける公平性格差の徹底した厳密な研究を行う。
我々は、2017年から現在までのICLR(International Conference on Learning Representations)カンファレンスで、包括的なリレーショナルデータベースを収集、組み立て、維持しています。
我々は、著作者性別、地理、著作者、機関的名声など、興味のある複数の保護属性に対する公平性の違いを仮定し、研究する。
論文 参考訳(メタデータ) (2022-11-07T16:19:42Z) - Properties from Mechanisms: An Equivariance Perspective on Identifiable
Representation Learning [79.4957965474334]
教師なし表現学習の主な目標は、データ生成プロセスが潜在プロパティを回復するために「反転」することである。
この論文は「進化を支配するメカニズムの知識を活用して潜伏特性を識別するのか?」と問う。
我々は、可能なメカニズムの集合に関する知識が異なるため、不特定性の原因の完全な特徴づけを提供する。
論文 参考訳(メタデータ) (2021-10-29T14:04:08Z) - Transformers with Competitive Ensembles of Independent Mechanisms [97.93090139318294]
隠れた表現とパラメータを複数のメカニズムに分割し、注意を通して情報を交換する新しいトランスフォーマー層を提案する。
TIM を大規模 BERT モデル、画像変換器、および音声強調について研究し、意味的に意味のある専門化とパフォーマンスの向上の証拠を見つけます。
論文 参考訳(メタデータ) (2021-02-27T21:48:46Z) - Empirically Classifying Network Mechanisms [0.0]
ネットワークモデルは、多くの物理的、生物学的、社会的分野にわたる相互接続システムの研究に使用される。
任意のネットワークデータを機械的に分類できる単純な経験的アプローチを導入する。
論文 参考訳(メタデータ) (2020-12-22T01:41:34Z) - Reinforcement Learning of Sequential Price Mechanisms [24.302600030585275]
本稿では、間接的なメカニズムに強化学習を導入し、既存のシーケンシャルな価格体系のクラスで作業する。
提案手法は,複数の実験環境において最適あるいは準最適メカニズムを学習可能であることを示す。
論文 参考訳(メタデータ) (2020-10-02T19:57:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。