論文の概要: On the Generalizability of "Competition of Mechanisms: Tracing How Language Models Handle Facts and Counterfactuals"
- arxiv url: http://arxiv.org/abs/2506.22977v1
- Date: Sat, 28 Jun 2025 18:29:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.655338
- Title: On the Generalizability of "Competition of Mechanisms: Tracing How Language Models Handle Facts and Counterfactuals"
- Title(参考訳): メカニズムの競争」の一般化可能性について : 言語モデルがファクトとカウンターファクトをどう扱うかの追跡
- Authors: Asen Dotsinski, Udit Thakur, Marko Ivanov, Mohammad Hafeez Khan, Maria Heuss,
- Abstract要約: 我々は,「メカニズムの競争:言語モデルがファクトとカウンターファクトをどう扱うかの追跡」の研究を再現する。
事実的リコールと対実的インコンテキスト反復の間の言語モデルにおけるメカニズムについて検討する。
We found that the attention head ablation proposed in Ortu et al. (2024) is not effective for the domain are underrepresented in their dataset。
- 参考スコア(独自算出の注目度): 0.8621608193534839
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a reproduction study of "Competition of Mechanisms: Tracing How Language Models Handle Facts and Counterfactuals" (Ortu et al., 2024), which investigates competition of mechanisms in language models between factual recall and counterfactual in-context repetition. Our study successfully reproduces their primary findings regarding the localization of factual and counterfactual information, the dominance of attention blocks in mechanism competition, and the specialization of attention heads in handling competing information. We reproduce their results on both GPT-2 (Radford et al., 2019) and Pythia 6.9B (Biderman et al., 2023). We extend their work in three significant directions. First, we explore the generalizability of these findings to even larger models by replicating the experiments on Llama 3.1 8B (Grattafiori et al., 2024), discovering greatly reduced attention head specialization. Second, we investigate the impact of prompt structure by introducing variations where we avoid repeating the counterfactual statement verbatim or we change the premise word, observing a marked decrease in the logit for the counterfactual token. Finally, we test the validity of the authors' claims for prompts of specific domains, discovering that certain categories of prompts skew the results by providing the factual prediction token as part of the subject of the sentence. Overall, we find that the attention head ablation proposed in Ortu et al. (2024) is ineffective for domains that are underrepresented in their dataset, and that the effectiveness varies based on model architecture, prompt structure, domain and task.
- Abstract(参考訳): 本稿では, 言語モデルにおける現実的リコールと反実的インコンテキスト反復のメカニズムの競合について検討した, 言語モデルと対実的ファクトと対実的ファクトの競合の追跡に関する再現的研究について述べる。
本研究は, 現実情報と反現実情報の局所化, メカニズム競争における注目ブロックの優位性, 競合情報を扱う上での注目ヘッドの専門化について, 主要な知見を再現する。
我々は, GPT-2 (Radford et al , 2019) と Pythia 6.9B (Biderman et al , 2023) を再現した。
私たちは彼らの仕事を3つの重要な方向に広げる。
まず,Llama 3.1 8B (Grattafiori et al , 2024) 実験を再現することにより,これらの発見のより大規模なモデルへの一般化可能性について検討した。
第2に,偽造語文を冗長に繰り返すことを避けたり,前提語を変更することを避けて,偽造語トークンのロジットの顕著な減少を観察することで,即時構造の影響を調査する。
最後に,著者の主張する特定のドメインのプロンプトに対する妥当性を検証し,あるカテゴリのプロンプトが文の主題の一部として事実予測トークンを提供することで結果を歪ませることを発見した。
全体として、Ortu et al (2024) で提案されたアテンションヘッドアブレーションは、データセットに不足しているドメインに対して効果がなく、その有効性はモデルアーキテクチャ、プロンプト構造、ドメインおよびタスクによって異なる。
関連論文リスト
- What Makes a Good Natural Language Prompt? [72.3282960118995]
我々は,2022年から2025年にかけて,NLPおよびAIカンファレンスを主導する150以上のプロンプト関連論文を対象としたメタ分析調査を実施している。
本研究では,6次元に分類した21の特性を含む,迅速な品質評価のための特性・人間中心のフレームワークを提案する。
次に、複数プロパティのプロンプト強化を実証的に検討し、単一プロパティのプロンプトが最大の影響を与える場合が多いことを観察する。
論文 参考訳(メタデータ) (2025-06-07T23:19:27Z) - Structured Thinking Matters: Improving LLMs Generalization in Causal Inference Tasks [0.7988085110283119]
Corr2Cause のデータセットによる最近の結果は、最先端の LLM がランダムベースラインをわずかに上回っていることを示している。
我々は、構造化知識グラフを構築するためのモデルを導くことによって、その思考を構造化する能力を備えたモデルを提供する。
Qwen3-32Bモデル(推論モデル)を用いたCorr2Causeデータセットベンチマークのテストサブセットの実験は、標準的なダイレクトプロンプトメソッドよりも大幅に向上したことを示している。
論文 参考訳(メタデータ) (2025-05-23T15:37:40Z) - CiteFusion: An Ensemble Framework for Citation Intent Classification Harnessing Dual-Model Binary Couples and SHAP Analyses [1.7812428873698407]
CiteFusionは、SciCiteとACL-ARCという2つのベンチマークデータセット上のマルチクラスCitation Intent Classificationタスクに対処する。
このフレームワークは、マルチクラスタスクをクラス固有のバイナリサブタスクに1-vs-all分解する。
その結果、CiteFusionは最先端のパフォーマンスを達成し、Macro-F1スコアはSciCiteで89.60%、ACL-ARCで76.24%であった。
論文 参考訳(メタデータ) (2024-07-18T09:29:33Z) - Competition of Mechanisms: Tracing How Language Models Handle Facts and Counterfactuals [82.68757839524677]
解釈可能性研究は、経験的成功と大規模言語モデル(LLM)の科学的理解のギャップを埋めることを目的としている。
本稿では,個々のメカニズムではなく,複数のメカニズムの相互作用に着目した,メカニズムの競合の定式化を提案する。
本研究は, 種々のモデル成分間の機構とその競合の痕跡を示し, 特定の機構の強度を効果的に制御する注意位置を明らかにした。
論文 参考訳(メタデータ) (2024-02-18T17:26:51Z) - Advancing Counterfactual Inference through Nonlinear Quantile Regression [77.28323341329461]
ニューラルネットワークで実装された効率的かつ効果的な対実的推論のためのフレームワークを提案する。
提案手法は、推定された反事実結果から見つからないデータまでを一般化する能力を高める。
複数のデータセットで実施した実証実験の結果は、我々の理論的な主張に対する説得力のある支持を提供する。
論文 参考訳(メタデータ) (2023-06-09T08:30:51Z) - Isotonic Mechanism for Exponential Family Estimation in Machine Learning Peer Review [28.06558596439521]
2023年、ICML(International Conference on Machine Learning)は、複数の投稿者に対して、認識された品質に基づいて応募をランク付けするよう要求した。
我々は、これらの著者特定ランキングを用いて、機械学習および人工知能会議におけるピアレビューを強化する。
著者特定ランキングに固執しながら、原譜と密接に一致した調整されたスコアを生成する。
論文 参考訳(メタデータ) (2023-04-21T17:59:08Z) - Causal Triplet: An Open Challenge for Intervention-centric Causal
Representation Learning [98.78136504619539]
Causal Tripletは、視覚的に複雑なシーンを特徴とする因果表現学習ベンチマークである。
この結果から,不整合表現やオブジェクト中心表現の知識によって構築されたモデルが,分散表現よりもはるかに優れていることを示す。
論文 参考訳(メタデータ) (2023-01-12T17:43:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。