論文の概要: Representation Shattering in Transformers: A Synthetic Study with Knowledge Editing
- arxiv url: http://arxiv.org/abs/2410.17194v5
- Date: Wed, 11 Jun 2025 14:29:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 02:07:42.959108
- Title: Representation Shattering in Transformers: A Synthetic Study with Knowledge Editing
- Title(参考訳): 変圧器における表現シェータリング : 知識編集を用いた合成研究
- Authors: Kento Nishi, Rahul Ramesh, Maya Okawa, Mikail Khona, Hidenori Tanaka, Ekdeep Singh Lubana,
- Abstract要約: 知識編集(KE)アルゴリズムは、モデルの重みを変更して、不正、時代遅れ、その他の望ましくない事実関連付けに対するターゲット更新を実行する。
我々は,KEの適用が,モデルのより広い事実的リコール精度に悪影響を及ぼし,推論能力が低下することを示す。
我々の研究は、KEがモデル能力に悪影響を及ぼす理由を説明するための正確な力学仮説をもたらす。
- 参考スコア(独自算出の注目度): 20.276952762837098
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge Editing (KE) algorithms alter models' weights to perform targeted updates to incorrect, outdated, or otherwise unwanted factual associations. However, recent work has shown that applying KE can adversely affect models' broader factual recall accuracy and diminish their reasoning abilities. Although these studies give insights into the potential harms of KE algorithms, e.g., performance evaluations on benchmarks, little is understood about why such destructive failures occur. Motivated by this, we define a novel synthetic task in which a Transformer is trained from scratch to internalize a "structured" knowledge graph. The structure enforces relationships between entities of the graph, such that editing a factual association has "trickling effects" on other entities (e.g., altering X's parent is Y to Z affects who X's siblings' parent is). Through evaluations of edited models on this task, we show that KE inadvertently affects representations of entities beyond the targeted one, distorting relevant structures that allow a model to infer unseen knowledge about an entity. We call this phenomenon representation shattering and demonstrate that it degrades models' factual recall and reasoning performance. We further corroborate our findings in naturalistic settings with pre-trained Llama and Mamba models as well. Overall, our work yields a precise mechanistic hypothesis to explain why KE has adverse effects on model abilities.
- Abstract(参考訳): 知識編集(KE)アルゴリズムは、モデルの重みを変更して、不正、時代遅れ、その他の望ましくない事実関連付けに対するターゲット更新を実行する。
しかし、最近の研究は、KEの適用がモデルのより広範な事実的リコール精度に悪影響を及ぼし、推論能力が低下することを示した。
これらの研究は、KEアルゴリズム、例えばベンチマークのパフォーマンス評価の潜在的な害についての洞察を与えるが、なぜそのような破壊的な失敗が起こるのかはほとんど分かっていない。
そこで我々は,トランスフォーマーをゼロからトレーニングし,"構造化"知識グラフを内部化する,新しい合成タスクを定義した。
この構造はグラフの実体間の関係を強制し、例えば、実数関係の編集は他の実体に対して「トリッキング効果」を持つ(例えば、X の親を Y から Z に変更することは、X の兄弟の親に影響を及ぼす)。
このタスク上での編集モデルの評価を通じて、KEは対象物を超えたエンティティの表現に不注意に影響を与え、モデルがエンティティに関する見当たらない知識を推測できるような関連構造を歪めていることを示す。
我々は,この現象の表現を破砕と呼び,モデルの実情的リコールと推論性能を低下させることを示した。
また,LlamaモデルとMambaモデルを用いて,自然条件下での知見の相関性についても検討した。
全体として、我々の研究は、KEがモデル能力に悪影響を及ぼす理由を説明するための正確な力学仮説を生み出している。
関連論文リスト
- Do Larger Language Models Imply Better Reasoning? A Pretraining Scaling Law for Reasoning [89.17086632436363]
本研究では,実世界の大規模知識グラフの構造と分布を再現する合成マルチホップ推論環境を提案する。
我々の推論タスクは、グラフの欠落したエッジを補完することであり、これは高度なマルチホップ推論を必要とし、現実世界の推論シナリオを模倣する。
特定の知識グラフに対して最適なモデルサイズを予測するために,知識グラフ探索エントロピーを最適モデルサイズに線形にマッピングする経験的スケーリングを求める。
論文 参考訳(メタデータ) (2025-04-04T17:57:22Z) - DAG-aware Transformer for Causal Effect Estimation [0.8192907805418583]
因果推論は、医療、経済学、社会科学などの分野における重要な課題である。
本稿では,これらの課題を克服する因果推論のためのトランスフォーマーを用いた新しい手法を提案する。
我々のモデルの中核となる革新は、注意機構に直接因果非巡回グラフ(DAG)を統合することである。
論文 参考訳(メタデータ) (2024-10-13T23:17:58Z) - "Why" Has the Least Side Effect on Model Editing [25.67779910446609]
本稿では,モデル編集質問の分類による重要な因子探索型について検討する。
その結果, 性能劣化の程度は, 質問の種類によって大きく異なることがわかった。
また,バッチサイズが副作用に与える影響についても検討し,バッチサイズの増加が性能低下を軽減することを発見した。
論文 参考訳(メタデータ) (2024-09-27T12:05:12Z) - Towards Context-Aware Emotion Recognition Debiasing from a Causal Demystification Perspective via De-confounded Training [14.450673163785094]
文脈認識感情認識(CAER)は、対象者の感情を認識するための貴重な意味的手がかりを提供する。
現在のアプローチは、コンテキストから知覚的に重要な表現を抽出する洗練された構造を設計することに集中している。
共同設立者を非難するためのCCIM(Contextual Causal Intervention Module)を提案する。
論文 参考訳(メタデータ) (2024-07-06T05:29:02Z) - A Theoretical Understanding of Self-Correction through In-context Alignment [51.622068973630796]
大規模言語モデル(LLM)は自己補正によって純粋に能力を向上させることができる。
LLMが比較的正確な自己評価を報酬として与える場合、文脈内応答を補充できることを示す。
これらの知見に触発されて,LLMジェイルブレイクに対する防御などの自己補正の応用についても解説した。
論文 参考訳(メタデータ) (2024-05-28T22:33:02Z) - Context De-confounded Emotion Recognition [12.037240778629346]
コンテキストアウェア感情認識(CAER)は、対象者の感情状態を文脈情報で知覚することを目的としている。
長年見過ごされてきた問題は、既存のデータセットのコンテキストバイアスが感情状態のかなり不均衡な分布をもたらすことである。
本稿では、そのようなバイアスの影響からモデルを切り離し、CAERタスクにおける変数間の因果関係を定式化する因果関係に基づく視点を提供する。
論文 参考訳(メタデータ) (2023-03-21T15:12:20Z) - CLEAR: Generative Counterfactual Explanations on Graphs [60.30009215290265]
グラフ上での対実的説明生成の問題について検討する。
グラフに関する反実的な説明を調査する研究はいくつかあるが、この問題の多くの課題はまだ十分に適応されていない。
本稿では,グラフレベルの予測モデルに対して,グラフ上の反実的説明を生成するための新しいフレームワークCLEARを提案する。
論文 参考訳(メタデータ) (2022-10-16T04:35:32Z) - Explainers in the Wild: Making Surrogate Explainers Robust to
Distortions through Perception [77.34726150561087]
説明における歪みの影響を知覚距離を埋め込むことで評価する手法を提案する。
Imagenet-Cデータセットの画像の説明を生成し、サロゲート説明書の知覚距離を使用して歪んだ画像と参照画像のより一貫性のある説明を作成する方法を示しています。
論文 参考訳(メタデータ) (2021-02-22T12:38:53Z) - Recoding latent sentence representations -- Dynamic gradient-based
activation modification in RNNs [0.0]
RNNでは、サブオプティマティックな方法で情報をエンコーディングすることは、シーケンスの後の要素に基づいて表現の質に影響を与える可能性がある。
勾配に基づく補正機構を用いて,標準RNNへの拡張を提案する。
言語モデリングの文脈で異なる実験を行い、そのようなメカニズムを使うことによる影響を詳細に調べる。
論文 参考訳(メタデータ) (2021-01-03T17:54:17Z) - Causal Expectation-Maximisation [70.45873402967297]
ポリツリーグラフを特徴とするモデルにおいても因果推論はNPハードであることを示す。
我々は因果EMアルゴリズムを導入し、分類的表現変数のデータから潜伏変数の不確かさを再構築する。
我々は、反事実境界が構造方程式の知識なしにしばしば計算できるというトレンドのアイデアには、目立たずの制限があるように思える。
論文 参考訳(メタデータ) (2020-11-04T10:25:13Z) - CausalVAE: Structured Causal Disentanglement in Variational Autoencoder [52.139696854386976]
変分オートエンコーダ(VAE)の枠組みは、観測から独立した因子をアンタングルするために一般的に用いられる。
本稿では, 因果内因性因子を因果内因性因子に変換する因果層を含むVOEベースの新しいフレームワークCausalVAEを提案する。
その結果、CausalVAEが学習した因果表現は意味論的に解釈可能であり、DAG(Directed Acyclic Graph)としての因果関係は精度良く同定された。
論文 参考訳(メタデータ) (2020-04-18T20:09:34Z) - A Critical View of the Structural Causal Model [89.43277111586258]
相互作用を全く考慮せずに原因と効果を識別できることが示される。
本稿では,因果モデルの絡み合った構造を模倣する新たな逆行訓練法を提案する。
我々の多次元手法は, 合成および実世界の両方のデータセットにおいて, 文献的手法よりも優れている。
論文 参考訳(メタデータ) (2020-02-23T22:52:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。