論文の概要: Scaled-Dot-Product Attention as One-Sided Entropic Optimal Transport
- arxiv url: http://arxiv.org/abs/2508.08369v1
- Date: Mon, 11 Aug 2025 18:00:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.197292
- Title: Scaled-Dot-Product Attention as One-Sided Entropic Optimal Transport
- Title(参考訳): 片側エントロピー最適輸送としてのスケールド・ドット・プロダクツ注意
- Authors: Elon Litman,
- Abstract要約: 本研究は、SDPA(Scaled-Dot-product attention)の第一原理的正当性を提供する。
まず、注目の進行は、縮退した片側エントロピー最適輸送問題の正確な解であることを示す。
バックプロパゲーションによって計算される標準勾配は、数学的に有利なポリシー勾配と同一であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The scaled-dot-product attention (SDPA) mechanism is a core component of modern deep learning, but its mathematical form is often motivated by heuristics. This work provides a first-principles justification for SDPA. We first show that the attention forward pass is the exact solution to a degenerate, one-sided Entropic Optimal Transport (EOT) problem, which seeks a distribution that maximizes similarity while being maximally entropic. This optimization perspective has a direct consequence for the backward pass. We prove that the standard gradient computed via backpropagation is mathematically identical to an advantage-based policy gradient, a variance-reduced update rule from reinforcement learning. Crucially, we demonstrate that the EOT formulation of the forward pass induces a specific information geometry on the space of attention distributions. It is this geometry, characterized by the Fisher Information Matrix, that dictates the precise form of the learning gradient, revealing the advantage-based update as a natural consequence of the optimization problem being solved. This unified view reveals SDPA as a principled mechanism where the forward pass performs optimal inference and the backward pass implements a rational, manifold-aware learning update.
- Abstract(参考訳): SDPA(Scaled-dot-product attention)メカニズムは現代のディープラーニングのコアコンポーネントであるが、その数学的形式はヒューリスティックスによって動機付けられていることが多い。
この研究はSDPAの第一原理的正当性を提供する。
まず,最大エントロピー性を持ちながら類似性を最大化する分布を求める,縮退した一方的エントロピー最適輸送(EOT)問題の正確な解であることを示す。
この最適化の観点は、後方通過に対して直接的な結果をもたらす。
バックプロパゲーションによって計算される標準勾配は、強化学習から得られる分散還元更新規則であるアドバンテージベースのポリシー勾配と数学的に同一であることを示す。
重要なことは、フォワードパスのEOT定式化は、注意分布の空間上の特定の情報幾何学を誘導することを示す。
この幾何はFisher Information Matrixによって特徴づけられ、学習勾配の正確な形を規定し、最適化問題の自然な結果として有利な更新を明らかにする。
この統一ビューはSDPAを、前方通過が最適推論を行い、後方通過が合理的で多様体対応の学習更新を実行する原理的なメカニズムとして明らかにする。
関連論文リスト
- Deep Physics Prior for First Order Inverse Optimization [17.536106369025717]
逆設計最適化は、観測された解からシステムパラメータを推論することを目的としている。
多くの系における明示的な数学的表現の欠如はこの過程を複雑にしている。
生成AIやベイジアン最適化を含む主流のアプローチは、これらの課題に対処するが、制限がある。
本稿では,代用機械学習モデルを用いた一階勾配に基づく逆最適化を実現する新しい手法であるDeep Physics Prior (DPP)を紹介する。
論文 参考訳(メタデータ) (2025-04-28T21:48:19Z) - Entropy-Guided Attention for Private LLMs [3.7802450241986945]
本稿では,デコーダのみの言語モデルにおける非線形性の役割を特徴付ける情報理論フレームワークを提案する。
シャノンのエントロピーを定量的な尺度として活用することにより、これまで探索されなかった非線形性の二重性を明らかにする。
本稿では,新しいエントロピー正規化手法と組み合わせたエントロピー誘導型アテンション機構を提案し,エントロピー過負荷を軽減する。
論文 参考訳(メタデータ) (2025-01-07T03:17:47Z) - Understanding Optimization in Deep Learning with Central Flows [53.66160508990508]
RMSの暗黙的な振る舞いは、微分方程式の「中央流:」によって明示的に捉えられることを示す。
これらのフローは、汎用ニューラルネットワークの長期最適化軌道を経験的に予測できることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:58:13Z) - Implicit Bias and Fast Convergence Rates for Self-attention [26.766649949420746]
本稿では,変圧器の定義機構である自己注意の基本的な最適化原理について考察する。
線形分類におけるデコーダを用いた自己アテンション層における勾配ベースの暗黙バイアスを解析する。
論文 参考訳(メタデータ) (2024-02-08T15:15:09Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Entropic Neural Optimal Transport via Diffusion Processes [105.34822201378763]
本稿では,連続確率分布間のエントロピー最適輸送(EOT)計画を計算するための新しいアルゴリズムを提案する。
提案アルゴリズムは,シュリンガーブリッジ問題(Schr"odinger Bridge problem)として知られるEOTの動的バージョンのサドル点再構成に基づく。
大規模EOTの従来の手法とは対照的に,我々のアルゴリズムはエンドツーエンドであり,単一の学習ステップで構成されている。
論文 参考訳(メタデータ) (2022-11-02T14:35:13Z) - High-Dimensional Bayesian Optimisation with Variational Autoencoders and
Deep Metric Learning [119.91679702854499]
本研究では,高次元の入力空間上でベイズ最適化を行うためのディープ・メトリック・ラーニングに基づく手法を提案する。
このような帰納バイアスを、利用可能なラベル付きデータの1%だけを用いて達成する。
実証的な貢献として、実世界の高次元ブラックボックス最適化問題に対する最先端の結果を示す。
論文 参考訳(メタデータ) (2021-06-07T13:35:47Z) - Deep Shells: Unsupervised Shape Correspondence with Optimal Transport [52.646396621449]
本稿では,3次元形状対応のための教師なし学習手法を提案する。
提案手法は,複数のデータセット上での最先端技術よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-10-28T22:24:07Z) - Attention that does not Explain Away [54.42960937271612]
Transformerアーキテクチャに基づくモデルは、大規模なタスクに対して競合するアーキテクチャに基づくモデルよりも精度が高い。
Transformerのユニークな特徴は、任意の距離で自由な情報の流れを可能にする自己認識機構の普遍的な応用である。
本稿では,実装が簡単で,"説明的回避"効果を避けるための理論的保証を提供する,二重正規化アテンション方式を提案する。
論文 参考訳(メタデータ) (2020-09-29T21:05:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。