論文の概要: Attention as In-Context Empirical Bayes: A Two-Stage View via Particle Dynamics
- arxiv url: http://arxiv.org/abs/2605.29351v1
- Date: Thu, 28 May 2026 04:44:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:55.736446
- Title: Attention as In-Context Empirical Bayes: A Two-Stage View via Particle Dynamics
- Title(参考訳): In-Context Empirical Bayesとしての留意:粒子動力学による2段階の視点
- Authors: Matthew Smart, Soumya Ganguly, Nilava Metya, Alexandre V. Morozov, Anirvan M. Sengupta,
- Abstract要約: オールトーケン汚職下では、最小注意のみの変圧器について検討する。
単一注意ステップは、コンテキストによって定義された経験分布に対して、カーネル重み付き後平均を算出する。
ノイズスケジュールを明示することなく,効果的な遮音効果が得られることを示す。
- 参考スコア(独自算出の注目度): 38.639043242402884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study minimal attention-only transformers under all-token corruption and show they admit a two-stage empirical Bayes interpretation. A single attention step computes a kernel-weighted posterior mean with respect to the empirical distribution defined by the context. Depth refines this distribution through particle dynamics (Stage 1), while a long-range skip-connection carries the noisy input as a query for posterior inference (Stage 2), revealing distinct statistical roles for depth and attention residuals. The framework isolates a minimal setting in which the context itself induces a depth-dependent energy landscape governing in-context inference. We show that effective denoising can emerge without an explicit noise schedule: a fixed kernel bandwidth and finite integration horizon suffice, yielding a principled depth-noise relationship. We further establish a posterior-mean recovery guarantee for a class of well-behaved priors, where the empirical estimator converges to the Bayes-optimal predictor under asymptotic conditions. Connecting these dynamics to reverse-diffusion limits, our results provide a statistical interpretation of attention as in-context inference via sample-based posterior estimation, without explicit density modeling.
- Abstract(参考訳): オールトーケン汚職下では、最小注意のみの変圧器について検討し、2段階の実証的ベイズ解釈が認められることを示した。
単一注意ステップは、コンテキストによって定義された経験分布に対して、カーネル重み付き後平均を算出する。
深さは粒子動力学 (Stage 1) を通してこの分布を洗練させ、長い範囲のスキップ接続はノイズ入力を後部推論のクエリとして取り込む(Stage2)。
このフレームワークは、コンテキスト自体がコンテキスト内推論を管理する深さ依存のエネルギーランドスケープを誘導する最小の設定を分離する。
固定されたカーネル帯域と有限積分地平線が十分であり、原理化された奥行き雑音関係が得られる。
さらに、経験的推定器が漸近的条件下でベイズ最適予測器に収束するような、良好な過去の一連のクラスに対する後平均回復保証を確立する。
これらの力学を逆拡散限界に結びつけることで, サンプルベース後続推定による文脈内推論として注意を統計的に解釈する。
関連論文リスト
- Active Bipartite Ranking with Smooth Posterior Distributions [1.9838140219494644]
双部格付けは、多くのアプリケーションにかかわる統計的学習問題であり、受動的文脈において広く研究されている。
本研究では,推定ランキングルールのROC曲線と$sup$ノルムの最適値との距離を最小化することを目的とした,スムーズランクと呼ばれる新しいアルゴリズムを提案する。
本研究では,スムーズランクのサンプリング時間に依存する問題と,任意のPAC$(,)$アルゴリズムのサンプリング時間に依存する問題を確立する。
論文 参考訳(メタデータ) (2026-02-27T18:32:08Z) - Think Longer to Explore Deeper: Learn to Explore In-Context via Length-Incentivized Reinforcement Learning [53.58654277639939]
文脈内探索(In-context Exploring)は、単一の連続した文脈内で仮説を生成、検証、洗練する本質的な能力である。
本稿では,モデルにさらなる探索を促すLongth-Incentivized Explorationを提案する。
提案手法は、ドメイン内タスクの平均4.4%改善と、ドメイン外ベンチマークの2.7%向上を実現している。
論文 参考訳(メタデータ) (2026-02-12T09:24:32Z) - Catching Contamination Before Generation: Spectral Kill Switches for Agents [0.0]
本稿では,フォワードパスのみを使用してエージェント実行中にバイナリ受信や拒否信号を出力する診断手法を提案する。
この手法は、注意によって誘導されるトークングラフを分析し、初期層における2つのスペクトル統計量を計算する。
ベイズ感覚では, 高頻度エネルギー比の1つの閾値が, 文脈の不整合を検出するのに最適であることを示す。
論文 参考訳(メタデータ) (2025-11-08T02:24:05Z) - In-Context Parametric Inference: Point or Distribution Estimators? [66.22308335324239]
償却点推定器は一般に後部推論より優れているが、後者は低次元問題では競争力がある。
実験の結果, 償却点推定器は一般に後部推定より優れているが, 後者は低次元問題では競争力があることがわかった。
論文 参考訳(メタデータ) (2025-02-17T10:00:24Z) - Rethinking State Disentanglement in Causal Reinforcement Learning [78.12976579620165]
因果性は、根底にある状態が識別可能性によって一意に回復できることを保証するための厳密な理論的支援を提供する。
我々はこの研究ラインを再考し、RL固有のコンテキストを取り入れることで、潜在状態に対する以前の識別可能性分析における不要な仮定を低減できることを示した。
本稿では, 従来手法の複雑な構造制約を, 遷移と報酬保存の2つの簡単な制約に置き換えることにより, 一般に部分的に観測可能なマルコフ決定過程(POMDP)を提案する。
論文 参考訳(メタデータ) (2024-08-24T06:49:13Z) - Double Robust Bayesian Inference on Average Treatment Effects [2.458652618559425]
不整合下での平均処理効果(ATE)に対する二重頑健なベイズ推定法を提案する。
新しいベイズ的アプローチでは、まず条件付き平均関数の事前分布を調整し、得られた ATE の後方分布を補正する。
論文 参考訳(メタデータ) (2022-11-29T15:32:25Z) - The Interplay Between Implicit Bias and Benign Overfitting in Two-Layer
Linear Networks [51.1848572349154]
ノイズの多いデータに完全に適合するニューラルネットワークモデルは、見当たらないテストデータにうまく一般化できる。
我々は,2層線形ニューラルネットワークを2乗損失の勾配流で補間し,余剰リスクを導出する。
論文 参考訳(メタデータ) (2021-08-25T22:01:01Z) - Composing Normalizing Flows for Inverse Problems [89.06155049265641]
本稿では,2つの流れモデルの合成として,対象条件を推定する近似推論フレームワークを提案する。
本手法は,様々な逆問題に対して評価し,不確実性のある高品質な試料を作製することを示した。
論文 参考訳(メタデータ) (2020-02-26T19:01:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。