Fugu-MT 論文翻訳(概要): Block-Wise Differentiable Sinkhorn Attention: Tail-Refinement Gradients with a Gap-Aware Dustbin Bridge

論文の概要: Block-Wise Differentiable Sinkhorn Attention: Tail-Refinement Gradients with a Gap-Aware Dustbin Bridge

arxiv url: http://arxiv.org/abs/2605.08123v2
Date: Wed, 20 May 2026 01:20:05 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-25 12:34:33.719786
Title: Block-Wise Differentiable Sinkhorn Attention: Tail-Refinement Gradients with a Gap-Aware Dustbin Bridge
Title（参考訳）: ブロック幅の異なるシンクホーンの注意:ガップアウェアダストビンブリッジを用いたテールリファインメント勾配
Authors: Dylan Forde,
Abstract要約: 本稿では,TPUハードウェア上での長期的コンテキストバランスによる最適輸送注意度を,停止ベース,固定深部テールリファインメントサロゲートを用いて検討する。本稿では, 局所的代理バイアスバウンド, 後部バイアス証明書, および, 厳密な正の能動ブロックに対する射影収縮証明書を提供する。合成マスク問題では、最適化された置換基の正確なオートディフは10〜5ドル-10〜10ドルである。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We study long-context balanced entropic optimal transport (OT) attention on TPU hardware through a stopped-base, fixed-depth tail-refinement surrogate. After a stopped $T$-step Sinkhorn solve, we unroll a short refinement tail and differentiate that surrogate exactly. For the reported $R=2$ TPU path, the backward pass contains four staircase plan factors. We prove an exact one-reference-tile schedule: the $R=2$ score cotangent is a single reference plan tile times an explicit modifier field built from vector cotangents and dual differences. This yields block-wise cost $O((T+R)LW)$, $O(Ld)$ input storage, and $O(L)$ additional HBM usage for fixed head dimension $d$ and band width $W$ on the balanced fixed-support path. We also formalize the current \texttt{dustbin\_block} path as the same unit-target surrogate on an augmented support, so the adjoint schedule lifts to the single-active-dustbin path used in our TPU runs; this bridge is algebraic and does not claim a general KL-unbalanced or arbitrary-capacity gap model. We provide a local surrogate-bias bound, an a posteriori bias certificate, and a projective contraction certificate for strictly positive active blocks. On synthetic masked problems, the optimized kernel matches exact autodiff of the same centered surrogate to within $10^{-5}$--$10^{-10}$. On TPU v6e-8, a four-configuration Pfam screen completes end-to-end, and a promoted balanced $R=2$ run sustains roughly $8.5$ examples per second through a three-hour budget, reaching step $1437$. Held-out Pfam test shards improve reconstruction from $5.57$ to $2.05$ and sparse CE from $5.53$ to $5.30$ relative to step $0$, with CE logged diagnostically rather than optimized directly; target-barycenter alignment metrics do not materially improve, and a deterministic diagonal reference remains stronger on those metrics.
Abstract（参考訳）: 本稿では,TPUハードウェア上での長期コンテキストバランスの取れたエントロピー最適輸送(OT)の注意点を,停止ベース,固定深部テールリファインメントサロゲートを用いて検討する。停止したT$-step Sinkhornを解いた後、短いリファインメントテールをアンロールして、そのサロゲートを正確に区別する。報告された$R=2$ TPUパスでは、後方パスには4つの階段計画要素が含まれている。 R=2$スコアコタンガントは単一の参照計画であり、ベクトルコタンガントと双対差分から構築された明示的な修飾体場である。これによりブロック単位でのコスト$O((T+R)LW)$, $O(Ld)$ 入力ストレージ, $O(Ld)$ 固定ヘッドディメンション$d$ とバンド幅$W$ の HBM 使用量が増える。また、拡張サポート上で同じ単位ターゲットサロゲートとして現在の \texttt{dustbin\_block} パスを形式化するので、TPU で使用されるシングルアクティブ・ダストビンパスへの随伴スケジュールは、代数的であり、一般的な KL-アンバランスや任意の容量ギャップモデルは主張しない。本稿では, 局所的代理バイアスバウンド, 後部バイアス証明書, および, 厳密な正の能動ブロックに対する射影収縮証明書を提供する。合成マスク問題では、最適化されたカーネルは、同じ中心を持つサロゲートの正確なオートディフと10^{-5}$--$10^{-10}$で一致する。 TPU v6e-8では、4つの構成のPfamスクリーンがエンドツーエンドで完成し、R=2$のバランスの取れたランが3時間の予算で1秒あたり約8.5ドルのサンプルを持続し、ステップ1437ドルに達した。ファームテストシャードは5.57ドルから2.05ドルへ、スパルスCEは5.53ドルから5.30ドルへ、CEは直接最適化されるのではなく診断的に記録される。

関連論文リスト

Scaling Federated Linear Contextual Bandits via Sketching [49.12000877146222]
本稿では,FSCLB(Federated Sketch Contextual Linear Bandits)を提案する。合成と実世界の両方のデータセットの実験では、FSCLBは計算と通信のコストを90%以上削減している。
論文参考訳（メタデータ） (2026-05-01T08:22:06Z)
Bond-dimension scaling of a local-refinement advantage over hyperoptimized tensor-network contraction on Sycamore like topologies [0.0]
我々は,コテングラテンソル-ネットワーク収縮パイプラインにおける局所再分極の欠如を同定した。我々は、その影響がシカモア型トポロジーの直交性グラフ上の結合次元とともに単調に増加することを示す。
論文参考訳（メタデータ） (2026-04-28T11:59:31Z)
Dimensional Criticality at Grokking Across MLPs and Transformers [2.652953665748039]
異なる力学系間の急激な遷移は、複雑なシステムの目印である。オフライン雪崩探査機 textbfTDU-OFC (Thresholded Diffusion Update--Olami-Feder-Christensen) を紹介する。モジュラー加算と XOR で訓練された一般化を訓練したトランスフォーマーは、拡散ベースラインの局所的交差をD=1$で発見する。
論文参考訳（メタデータ） (2026-04-06T13:43:20Z)
IsoQuant: Hardware-Aligned SO(4) Isoclinic Rotations for LLM KV Cache Compression [0.4496256885343706]
四元数代数に基づくブロックワイズ回転フレームワークと、SO(4)$の等クリニック分解を提案する。 IsoQuantは、平均的なカーネルレベルのスピードアップを4.5times$--$4.7times$ over RotorQuantで達成し、ピーク時のスピードアップは6times$以上である。
論文参考訳（メタデータ） (2026-03-30T13:37:45Z)
Large Language Models as Optimization Controllers: Adaptive Continuation for SIMP Topology Optimization [4.365822392824561]
本稿では,SIMP最適化のためのオンラインコントローラとして,大規模言語モデルが機能するフレームワークを提案する。ハードグレーネスゲートは未熟なバイナライゼーションを防止し、メタ最適化ループは第2パスを使用してエージェントの呼び出し周波数を調整する。エージェントはすべてのベンチマークの最終的なコンプライアンスを達成する:$5.7%$から$-1%、すべてのソリューションが完全にバイナリである。
論文参考訳（メタデータ） (2026-03-26T07:14:31Z)
Witness wedges in fidelity-deviation plane: separating teleportation advantage and Bell-inequality violation [0.0]
我々は、2つの相補的なメリットの図形の合同幾何学を通して量子テレポーテーションを解析するための統一的な枠組みを開発する。特に、任意の測定ペア$(F D)$は、等方性資源の可視性推定に移植することができる。
論文参考訳（メタデータ） (2025-11-26T05:43:31Z)
Proving the Limited Scalability of Centralized Distributed Optimization via a New Lower Bound Construction [57.93371273485736]
我々は、すべての労働者が同一の分布にアクセスする均質な(すなわちd.d.)場合であっても、すべての労働者が非バイアス付き境界 LDeltaepsilon2,$$$$$ のポリ対数的により良いポリ対数を求める集中型分散学習環境を考える。
論文参考訳（メタデータ） (2025-06-30T13:27:39Z)
Improved Algorithm for Adversarial Linear Mixture MDPs with Bandit Feedback and Unknown Transition [71.33787410075577]
線形関数近似,未知遷移,および逆損失を用いた強化学習について検討した。我々は高い確率で$widetildeO(dsqrtHS3K + sqrtHSAK)$ regretを実現する新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-03-07T15:03:50Z)
Horizon-Free and Variance-Dependent Reinforcement Learning for Latent Markov Decision Processes [62.90204655228324]
我々は,後期マルコフ決定過程(LMDP)における強化学習(RL)の文脈を考慮した後悔の最小化について検討した。我々は,モデル最適化と値最適化の両手法でインスタンス化できる,新しいモデルベースアルゴリズムフレームワークを設計する。
論文参考訳（メタデータ） (2022-10-20T21:32:01Z)
Linear Time Sinkhorn Divergences using Positive Features [51.50788603386766]
エントロピー正則化で最適な輸送を解くには、ベクトルに繰り返し適用される$ntimes n$ kernel matrixを計算する必要がある。代わりに、$c(x,y)=-logdotpvarphi(x)varphi(y)$ ここで$varphi$は、地上空間から正のorthant $RRr_+$への写像であり、$rll n$である。
論文参考訳（メタデータ） (2020-06-12T10:21:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。