Fugu-MT 論文翻訳(概要): When Attention Collapses: Residual Evidence Modeling for Compositional Inference

論文の概要: When Attention Collapses: Residual Evidence Modeling for Compositional Inference

arxiv url: http://arxiv.org/abs/2605.02323v1
Date: Mon, 04 May 2026 08:18:02 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-05 20:33:50.190826
Title: When Attention Collapses: Residual Evidence Modeling for Compositional Inference
Title（参考訳）: 注意の崩壊:構成推論のための残留エビデンスモデリング
Authors: Niklas Houba,
Abstract要約: 加法的重ね合わせの下では、複数のスロットは同じ支配的成分に収束するが、弱いスロットは表現されない。本稿では, 余剰エビデンスモデルを導入し, 証拠の枯渇と注意バイアスを併用した最小限の修正を行った。合成ベンチマークと実世界のオーディオミックスの合計で、エビデンス劣化はスロットの崩壊を最大で1桁減少させる。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Compositional inference - the decomposition of observations into an unknown number of latent components - is central to perception and scientific data analysis. Attention-based models perform well when components are approximately separable, as in object-centric vision. Under additive superposition, however - where multiple components contribute to every observation - we identify a structural failure mode we term slot collapse: multiple slots converge to the same dominant component while weaker ones remain unrepresented. We trace this to a general limitation: attention is memoryless with respect to explained evidence. All slots repeatedly operate on the same input without accounting for what has already been explained, so gradients are dominated by the strongest component, inducing shared fixed points across slots. As a result, attention fails to enforce non-redundant allocation under additive superposition. We address this by introducing residual evidence modeling, instantiated via evidence depletion - a minimal modification combining multiplicative depletion with an attention bias. Controlled ablations show that parallel attention, sequential processing alone, and loss-based regularization fail to resolve collapse; evidence depletion, which adds residual state to sequential attention, consistently succeeds. Across synthetic benchmarks and real-world audio mixtures (FUSS), evidence depletion reduces slot collapse by up to an order of magnitude, generalizing beyond synthetic settings. On gravitational-wave source inference for the ESA/NASA LISA mission, under identical architectures, data, and losses, standard attention fails while evidence depletion prevents collapse and enables multi-source posterior estimation. These results show that under additive superposition, residual evidence tracking is the operative ingredient for preventing collapse and enabling compositional inference.
Abstract（参考訳）: 組成推論 - 未知数の潜伏成分への観測の分解は、知覚と科学的データ分析の中心である。注意に基づくモデルは、オブジェクト中心のビジョンのように、コンポーネントがほぼ分離可能であればうまく機能する。しかし、加法的重ね合わせの下では、複数のコンポーネントが全ての観測に寄与するので、スロット崩壊と呼ばれる構造的障害モードを識別する:複数のスロットは同じ支配的なコンポーネントに収束するが、弱いものは表現されない。説明された証拠に関して注意は無記憶である。すべてのスロットは、既に説明されていることを考慮せずに、同じ入力で繰り返し動作するため、勾配は最強のコンポーネントによって支配され、スロット間で共有された固定点が誘導される。その結果、注意は加法的な重ね合わせの下で非冗長な割り当てを強制することができない。この問題に対処するために、証拠の枯渇を通じてインスタンス化され、乗法的枯渇と注意バイアスを組み合わせた最小限の修正である残留証拠モデリングを導入する。制御された改善は、並列注意、シーケンシャルな処理、損失に基づく正規化が崩壊を解決できないことを示している。合成ベンチマークと実世界のオーディオミックス(FUSS)全体にわたって、エビデンス劣化はスロットの崩壊を最大で1桁減らし、合成設定を超えて一般化する。 ESA/NASA LISAミッションの重力波源推定では、同じアーキテクチャ、データ、損失の下で、標準の注意は失敗し、証拠の枯渇は崩壊を防ぎ、複数ソースの後方推定を可能にする。これらの結果は, 付加的な重ね合わせの下では, 残留証拠追跡が崩壊を防止し, 構成推論を可能にするための作用成分であることが示唆された。

関連論文リスト

Causal Discovery in Action: Learning Chain-Reaction Mechanisms from Interventions [0.0]
因果グラフは介入データからでも識別できないため、一般的な力学系では因果発見は困難である。このような連鎖反応系における因果発見について検討し、その因果構造が干渉の妨害から一意に識別可能であることを示す。
論文参考訳（メタデータ） (2026-03-23T22:45:15Z)
Neural Uncertainty Principle: A Unified View of Adversarial Fragility and LLM Hallucination [60.197429875410286]
大規模言語モデルにおける視覚と幻覚の対立的脆弱性は、伝統的に別の問題と見なされている。損失誘起状態下でのニューラル不確実性原理(NUP)の定式化により, ほぼバウンド状態においては, さらなる圧縮は感度分散の増大を伴うことが判明した。視覚では、高度に結合したコンポーネントをマスキングすることで、コストのかかる敵の訓練なしに堅牢性を向上させる。言語では、任意の応答トークンを生成する前に、同じプレフィルステージプローブが幻覚リスクを検出する。
論文参考訳（メタデータ） (2026-03-20T02:07:10Z)
Multi-Agent Debate: A Unified Agentic Framework for Tabular Anomaly Detection [7.807411603618987]
マルチエージェント議論フレームワーク(MAD)は、不一致を第一級信号として扱う。 MADは、大言語モデル(LLM)ベースの批評家によって強化された正規化された異常スコア、信頼性、構造化された証拠を生成する。コンフォメーションキャリブレーションが議論されたスコアをラップして、交換可能性の下で偽陽性を制御する方法を示す。
論文参考訳（メタデータ） (2026-02-15T17:44:32Z)
The Alignment Bottleneck in Decomposition-Based Claim Verification [17.197804072440665]
我々は、時間的拘束力のある証拠と人間による注釈付きサブステートメント証拠を含む、現実世界の複雑なクレームのデータセットを新たに導入する。サブステートアラインド・アライメント・エビデンス(SAE)と繰り返しクライム・レベル・エビデンス(SRE)という2つのアライメント・アライメント・セットアップの下での分解を評価する。以上の結果から,エビデンスがきめ細やかで厳密に整合している場合にのみ,分解が大幅な性能向上をもたらすことが明らかとなった。
論文参考訳（メタデータ） (2026-02-11T00:02:16Z)
A Unified View of Attention and Residual Sinks: Outlier-Driven Rescaling is Essential for Transformer Training [86.64715217940274]
外接線は正規化と共に機能する。アウトリーチは、コントリビュータではなく、再スケール要因として役立ちます。外乱は学習可能なパラメータに吸収されるか、明示的なゲート再スケーリングによって緩和される。
論文参考訳（メタデータ） (2026-01-30T13:29:45Z)
Random-Matrix-Induced Simplicity Bias in Over-parameterized Variational Quantum Circuits [72.0643009153473]
本稿では,観測可能な期待値とパラメータ勾配の両方がシステムサイズに指数関数的に集中するHaar型普遍性クラスに,表現的変分アンサーゼが入ることを示す。その結果、そのような回路によって誘導される仮説クラスは、近点関数の狭い族に高い確率で崩壊する。テンソル-ネットワークベースおよびテンソル-ハイパーネットワークパラメータ化を含むテンソル構造VQCは、ハール型普遍性クラスの外にある。
論文参考訳（メタデータ） (2026-01-05T08:04:33Z)
Causal Discovery with Mixed Latent Confounding via Precision Decomposition [0.0]
微分可能およびスコアベースDAG学習者は、グローバル潜伏効果を因果エッジと誤解釈することができる。我々は,これらの役割を分離したモジュール型高精度パイプラインであるtextscDCL-DECORを提案する。
論文参考訳（メタデータ） (2025-12-31T08:03:41Z)
Analyzing the Mechanism of Attention Collapse in VGGT from a Dynamics Perspective [13.434698786044107]
Visual Geometry Grounded Transformer (VGGT)は、最先端のフィードフォワード3D再構成を提供する。グローバルな自己保持層は、入力シーケンスが数百フレームを超えると、劇的な崩壊現象に悩まされる。我々は,グローバルアテンションを退化拡散過程と見なして,崩壊の厳密な数学的説明を確立する。
論文参考訳（メタデータ） (2025-12-25T14:34:27Z)
Compose and Fuse: Revisiting the Foundational Bottlenecks in Multimodal Reasoning [49.17801010041155]
MLLM(Multimodal large language model)は、テキスト、ビジョン、オーディオなどの多様な入力を統合することで推論を強化することを約束する。しかし、追加のモダリティがパフォーマンスを損なうかどうかについての報告は相反する。我々は、多モーダル推論を6つの相互作用パターンに分類し、事実がどのようにモダリティに分散され、論理的に組み合わせられるかを決定する。
論文参考訳（メタデータ） (2025-09-28T08:46:11Z)
Neuro-Symbolic Entropy Regularization [78.16196949641079]
構造化予測では、目的は構造化されたオブジェクトをエンコードする多くの出力変数を共同で予測することである。エントロピー正則化(Entropy regularization)という1つのアプローチは、決定境界が低確率領域にあるべきであることを示唆している。我々は、モデルが有効対象を確実に予測することを奨励する損失、ニューロシンボリックエントロピー正規化を提案する。
論文参考訳（メタデータ） (2022-01-25T06:23:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。