Fugu-MT 論文翻訳(概要): Representation Shattering in Transformers: A Synthetic Study with Knowledge Editing

論文の概要: Representation Shattering in Transformers: A Synthetic Study with Knowledge Editing

arxiv url: http://arxiv.org/abs/2410.17194v5
Date: Wed, 11 Jun 2025 14:29:40 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-13 02:07:42.959108
Title: Representation Shattering in Transformers: A Synthetic Study with Knowledge Editing
Title（参考訳）: 変圧器における表現シェータリング : 知識編集を用いた合成研究
Authors: Kento Nishi, Rahul Ramesh, Maya Okawa, Mikail Khona, Hidenori Tanaka, Ekdeep Singh Lubana,
Abstract要約: 知識編集(KE)アルゴリズムは、モデルの重みを変更して、不正、時代遅れ、その他の望ましくない事実関連付けに対するターゲット更新を実行する。我々は,KEの適用が,モデルのより広い事実的リコール精度に悪影響を及ぼし,推論能力が低下することを示す。我々の研究は、KEがモデル能力に悪影響を及ぼす理由を説明するための正確な力学仮説をもたらす。
参考スコア（独自算出の注目度）: 20.276952762837098
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Knowledge Editing (KE) algorithms alter models' weights to perform targeted updates to incorrect, outdated, or otherwise unwanted factual associations. However, recent work has shown that applying KE can adversely affect models' broader factual recall accuracy and diminish their reasoning abilities. Although these studies give insights into the potential harms of KE algorithms, e.g., performance evaluations on benchmarks, little is understood about why such destructive failures occur. Motivated by this, we define a novel synthetic task in which a Transformer is trained from scratch to internalize a "structured" knowledge graph. The structure enforces relationships between entities of the graph, such that editing a factual association has "trickling effects" on other entities (e.g., altering X's parent is Y to Z affects who X's siblings' parent is). Through evaluations of edited models on this task, we show that KE inadvertently affects representations of entities beyond the targeted one, distorting relevant structures that allow a model to infer unseen knowledge about an entity. We call this phenomenon representation shattering and demonstrate that it degrades models' factual recall and reasoning performance. We further corroborate our findings in naturalistic settings with pre-trained Llama and Mamba models as well. Overall, our work yields a precise mechanistic hypothesis to explain why KE has adverse effects on model abilities.
Abstract（参考訳）: 知識編集(KE)アルゴリズムは、モデルの重みを変更して、不正、時代遅れ、その他の望ましくない事実関連付けに対するターゲット更新を実行する。しかし、最近の研究は、KEの適用がモデルのより広範な事実的リコール精度に悪影響を及ぼし、推論能力が低下することを示した。これらの研究は、KEアルゴリズム、例えばベンチマークのパフォーマンス評価の潜在的な害についての洞察を与えるが、なぜそのような破壊的な失敗が起こるのかはほとんど分かっていない。そこで我々は,トランスフォーマーをゼロからトレーニングし,"構造化"知識グラフを内部化する,新しい合成タスクを定義した。この構造はグラフの実体間の関係を強制し、例えば、実数関係の編集は他の実体に対して「トリッキング効果」を持つ(例えば、X の親を Y から Z に変更することは、X の兄弟の親に影響を及ぼす)。このタスク上での編集モデルの評価を通じて、KEは対象物を超えたエンティティの表現に不注意に影響を与え、モデルがエンティティに関する見当たらない知識を推測できるような関連構造を歪めていることを示す。我々は,この現象の表現を破砕と呼び,モデルの実情的リコールと推論性能を低下させることを示した。また,LlamaモデルとMambaモデルを用いて,自然条件下での知見の相関性についても検討した。全体として、我々の研究は、KEがモデル能力に悪影響を及ぼす理由を説明するための正確な力学仮説を生み出している。

関連論文リスト

Bilinear relational structure fixes reversal curse and enables consistent model editing [18.483285872202107]
逆の呪いは本質的に失敗ではなく、モデルが知識をエンコードする方法の成果であることを示す。関係知識グラフの合成データセットをスクラッチからトレーニングすることにより、両線形関係構造が隠れ表現に現れることを示す。この構造は逆の呪いを著しく軽減し、LMが見えない逆の事実を推測することを可能にする。
論文参考訳（メタデータ） (2025-09-26T07:19:39Z)
Generalization or Hallucination? Understanding Out-of-Context Reasoning in Transformers [76.42159902257677]
我々は、両方の行動は、アウト・オブ・コンテクスト推論(OCR)として知られる単一のメカニズムに由来すると論じる。 OCRは、関連する概念が因果関係であるかによって、一般化と幻覚の両方を駆動する。我々の研究は、OCR現象を理解するための理論的基盤を提供し、知識注入から望ましくない行動を分析し緩和するための新しいレンズを提供する。
論文参考訳（メタデータ） (2025-06-12T16:50:45Z)
Counterfactual reasoning: an analysis of in-context emergence [57.118735341305786]
我々は、言語モデルが反実的推論が可能なことを示す。自己注意、モデル深度、トレーニング済みデータの多様性によってパフォーマンスが向上することがわかった。以上の結果から, SDE 動態下での反実的推論が可能となった。
論文参考訳（メタデータ） (2025-06-05T16:02:07Z)
The emergence of sparse attention: impact of data distribution and benefits of repetition [14.652502263025882]
本研究では,トランスフォーマーにおける重要かつ頻繁な注意パターンであるスパースアテンションのトレーニングに伴う出現について検討した。玩具モデルの理論的解析と線形回帰変種を訓練した小型変圧器の経験的観察を組み合わせることで,機械的スパークアテンションの出現を明らかにする。我々の研究は、データ分布とモデル設計が1つの形態の台頭の背後にある学習力学にどのように影響するかを理解するための、シンプルで理論的に基礎的なフレームワークを提供する。
論文参考訳（メタデータ） (2025-05-23T13:14:02Z)
Do Larger Language Models Imply Better Reasoning? A Pretraining Scaling Law for Reasoning [89.17086632436363]
本研究では,実世界の大規模知識グラフの構造と分布を再現する合成マルチホップ推論環境を提案する。我々の推論タスクは、グラフの欠落したエッジを補完することであり、これは高度なマルチホップ推論を必要とし、現実世界の推論シナリオを模倣する。特定の知識グラフに対して最適なモデルサイズを予測するために,知識グラフ探索エントロピーを最適モデルサイズに線形にマッピングする経験的スケーリングを求める。
論文参考訳（メタデータ） (2025-04-04T17:57:22Z)
DAG-aware Transformer for Causal Effect Estimation [0.8192907805418583]
因果推論は、医療、経済学、社会科学などの分野における重要な課題である。本稿では,これらの課題を克服する因果推論のためのトランスフォーマーを用いた新しい手法を提案する。我々のモデルの中核となる革新は、注意機構に直接因果非巡回グラフ(DAG)を統合することである。
論文参考訳（メタデータ） (2024-10-13T23:17:58Z)
"Why" Has the Least Side Effect on Model Editing [25.67779910446609]
本稿では,モデル編集質問の分類による重要な因子探索型について検討する。その結果, 性能劣化の程度は, 質問の種類によって大きく異なることがわかった。また,バッチサイズが副作用に与える影響についても検討し,バッチサイズの増加が性能低下を軽減することを発見した。
論文参考訳（メタデータ） (2024-09-27T12:05:12Z)
Towards Context-Aware Emotion Recognition Debiasing from a Causal Demystification Perspective via De-confounded Training [14.450673163785094]
文脈認識感情認識(CAER)は、対象者の感情を認識するための貴重な意味的手がかりを提供する。現在のアプローチは、コンテキストから知覚的に重要な表現を抽出する洗練された構造を設計することに集中している。共同設立者を非難するためのCCIM(Contextual Causal Intervention Module)を提案する。
論文参考訳（メタデータ） (2024-07-06T05:29:02Z)
A Theoretical Understanding of Self-Correction through In-context Alignment [51.622068973630796]
大規模言語モデル(LLM)は自己補正によって純粋に能力を向上させることができる。 LLMが比較的正確な自己評価を報酬として与える場合、文脈内応答を補充できることを示す。これらの知見に触発されて,LLMジェイルブレイクに対する防御などの自己補正の応用についても解説した。
論文参考訳（メタデータ） (2024-05-28T22:33:02Z)
Understanding Emergent Abilities of Language Models from the Loss Perspective [32.81782726603632]
モデルサイズやトレーニング計算の代わりに,事前学習損失のレンズの創発能力について検討した。モデルが,メトリクスの連続性に関係なく,特定のタスクに創発的能力を示すことがわかった。これにより、事前学習の損失が低いモデルで現れるような、創発的能力を再定義するインスピレーションがもたらされる。
論文参考訳（メタデータ） (2024-03-23T11:03:31Z)
Counterfactual Image Editing [54.21104691749547]
対物画像編集は、生成AIにおいて重要なタスクであり、ある機能が異なる場合、画像がどのように見えるかを尋ねる。本稿では,形式言語を用いた対物画像編集タスクを形式化し,潜在生成因子と画像の因果関係をモデル化する。ニューラル因果モデルを利用して、対物画像を生成する効率的なアルゴリズムを開発した。
論文参考訳（メタデータ） (2024-02-07T20:55:39Z)
Context De-confounded Emotion Recognition [12.037240778629346]
コンテキストアウェア感情認識(CAER)は、対象者の感情状態を文脈情報で知覚することを目的としている。長年見過ごされてきた問題は、既存のデータセットのコンテキストバイアスが感情状態のかなり不均衡な分布をもたらすことである。本稿では、そのようなバイアスの影響からモデルを切り離し、CAERタスクにおける変数間の因果関係を定式化する因果関係に基づく視点を提供する。
論文参考訳（メタデータ） (2023-03-21T15:12:20Z)
CLEAR: Generative Counterfactual Explanations on Graphs [60.30009215290265]
グラフ上での対実的説明生成の問題について検討する。グラフに関する反実的な説明を調査する研究はいくつかあるが、この問題の多くの課題はまだ十分に適応されていない。本稿では,グラフレベルの予測モデルに対して,グラフ上の反実的説明を生成するための新しいフレームワークCLEARを提案する。
論文参考訳（メタデータ） (2022-10-16T04:35:32Z)
Explainers in the Wild: Making Surrogate Explainers Robust to Distortions through Perception [77.34726150561087]
説明における歪みの影響を知覚距離を埋め込むことで評価する手法を提案する。 Imagenet-Cデータセットの画像の説明を生成し、サロゲート説明書の知覚距離を使用して歪んだ画像と参照画像のより一貫性のある説明を作成する方法を示しています。
論文参考訳（メタデータ） (2021-02-22T12:38:53Z)
Recoding latent sentence representations -- Dynamic gradient-based activation modification in RNNs [0.0]
RNNでは、サブオプティマティックな方法で情報をエンコーディングすることは、シーケンスの後の要素に基づいて表現の質に影響を与える可能性がある。勾配に基づく補正機構を用いて,標準RNNへの拡張を提案する。言語モデリングの文脈で異なる実験を行い、そのようなメカニズムを使うことによる影響を詳細に調べる。
論文参考訳（メタデータ） (2021-01-03T17:54:17Z)
Causal Expectation-Maximisation [70.45873402967297]
ポリツリーグラフを特徴とするモデルにおいても因果推論はNPハードであることを示す。我々は因果EMアルゴリズムを導入し、分類的表現変数のデータから潜伏変数の不確かさを再構築する。我々は、反事実境界が構造方程式の知識なしにしばしば計算できるというトレンドのアイデアには、目立たずの制限があるように思える。
論文参考訳（メタデータ） (2020-11-04T10:25:13Z)
CausalVAE: Structured Causal Disentanglement in Variational Autoencoder [52.139696854386976]
変分オートエンコーダ(VAE)の枠組みは、観測から独立した因子をアンタングルするために一般的に用いられる。本稿では, 因果内因性因子を因果内因性因子に変換する因果層を含むVOEベースの新しいフレームワークCausalVAEを提案する。その結果、CausalVAEが学習した因果表現は意味論的に解釈可能であり、DAG(Directed Acyclic Graph)としての因果関係は精度良く同定された。
論文参考訳（メタデータ） (2020-04-18T20:09:34Z)
A Critical View of the Structural Causal Model [89.43277111586258]
相互作用を全く考慮せずに原因と効果を識別できることが示される。本稿では,因果モデルの絡み合った構造を模倣する新たな逆行訓練法を提案する。我々の多次元手法は, 合成および実世界の両方のデータセットにおいて, 文献的手法よりも優れている。
論文参考訳（メタデータ） (2020-02-23T22:52:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。