論文の概要: Bayesian Attention Mechanism: A Probabilistic Framework for Positional Encoding and Context Length Extrapolation
- arxiv url: http://arxiv.org/abs/2505.22842v1
- Date: Wed, 28 May 2025 20:22:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.524866
- Title: Bayesian Attention Mechanism: A Probabilistic Framework for Positional Encoding and Context Length Extrapolation
- Title(参考訳): Bayesian Attention Mechanism: 位置エンコーディングと文脈長外挿のための確率的枠組み
- Authors: Arthur S. Bianchessi, Rodrigo C. Barros, Lucas S. Kupssinskü,
- Abstract要約: トランスフォーマーベースの言語モデルは、トークンの順序を処理し、コンテキスト長の外挿をサポートするために位置符号化(PE)に依存している。
本稿では,確率モデル内で位置符号化を先行する理論的枠組みであるベイズ注意機構(BAM)を提案する。
BAMは既存の手法(例えば NoPE や ALiBi)を統一し、より長いコンテキストの一般化を大幅に改善する新しい一般化ガウス的位置付けを動機付けている。
- 参考スコア(独自算出の注目度): 2.0864605211132656
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based language models rely on positional encoding (PE) to handle token order and support context length extrapolation. However, existing PE methods lack theoretical clarity and rely on limited evaluation metrics to substantiate their extrapolation claims. We propose the Bayesian Attention Mechanism (BAM), a theoretical framework that formulates positional encoding as a prior within a probabilistic model. BAM unifies existing methods (e.g., NoPE and ALiBi) and motivates a new Generalized Gaussian positional prior that substantially improves long-context generalization. Empirically, BAM enables accurate information retrieval at $500\times$ the training context length, outperforming previous state-of-the-art context length generalization in long context retrieval accuracy while maintaining comparable perplexity and introducing minimal additional parameters.
- Abstract(参考訳): トランスフォーマーベースの言語モデルは、トークンの順序を処理し、コンテキスト長の外挿をサポートするために位置符号化(PE)に依存している。
しかし、既存のPE手法は理論的な明快さを欠き、外挿の主張を裏付けるために限られた評価基準に依存している。
本稿では,確率モデル内で位置符号化を先行する理論的枠組みであるベイズ注意機構(BAM)を提案する。
BAMは既存の手法(例えば、NoPE、ALiBi)を統一し、より長いコンテキストの一般化を大幅に改善する新しい一般化ガウス的位置付けを動機付けている。
経験的に、BAMは500\times$のトレーニングコンテキスト長での正確な情報検索を可能にし、同等の難易度を維持しつつ、最小限の追加パラメータを導入しながら、従来の最先端のコンテキスト長の一般化を長いコンテキストの精度で上回ります。
関連論文リスト
- The Role of Sparsity for Length Generalization in Transformers [58.65997625433689]
そこで本研究では,次の予測課題に対する長さの一般化を研究するための理論的枠組みを提案する。
予測された各トークンが前のトークンの小さな(固定された)数に依存する限り、長さの一般化が生じることを示す。
本稿では,位置結合手法で使用する位置IDを予測するために,変圧器を訓練する予測位置結合を導入する。
論文 参考訳(メタデータ) (2025-02-24T03:01:03Z) - Rethinking Addressing in Language Models via Contexualized Equivariant Positional Encoding [89.52931576290976]
トランスフォーマーは、コンテンツベースと位置ベースのアドレッシングメカニズムの両方に依存して予測を行う。
TAPEは、レイヤ間のシーケンスコンテンツを組み込むことで、位置埋め込みを強化する新しいフレームワークである。
提案手法は,パラメータ効率の良い微調整を最小限のオーバーヘッドで実現し,事前学習した変換器に容易に組み込むことができる。
論文 参考訳(メタデータ) (2025-01-01T03:23:00Z) - Minimum Description Length and Generalization Guarantees for
Representation Learning [16.2444595840653]
本稿では,表現学習アルゴリズムの一般化誤差の上限を導出するフレームワークを提案する。
エンコーダの入力と表現の間の相互情報ではなく、我々の新しい境界は「マルチレター」相対エントロピーを含む。
著者たちの最もよく知る限り、確立された一般化境界は、情報ボトルネック型エンコーダと表現学習のための第一種である。
論文 参考訳(メタデータ) (2024-02-05T18:12:28Z) - Function-Space Regularization in Neural Networks: A Probabilistic
Perspective [51.133793272222874]
所望の予測関数に関する情報をニューラルネットワークトレーニングに明示的にエンコードできる、モチベーションの高い正規化手法を導出できることが示される。
本手法の有効性を実証的に評価し,提案手法がほぼ完全なセマンティックシフト検出と高度に校正された予測不確実性推定に繋がることを示す。
論文 参考訳(メタデータ) (2023-12-28T17:50:56Z) - Validation Diagnostics for SBI algorithms based on Normalizing Flows [55.41644538483948]
本研究は,NFに基づく多次元条件(後)密度推定器の検証診断を容易にすることを提案する。
また、局所的な一貫性の結果に基づいた理論的保証も提供する。
この作業は、より良い特定モデルの設計を支援したり、新しいSBIアルゴリズムの開発を促進するのに役立つだろう。
論文 参考訳(メタデータ) (2022-11-17T15:48:06Z) - Bayesian Prompt Learning for Image-Language Model Generalization [64.50204877434878]
我々はベイズ法の正規化能力を用いて、変分推論問題としてプロンプト学習をフレーム化する。
提案手法は,プロンプト空間を正規化し,目に見えないプロンプトへの過剰適合を低減し,目に見えないプロンプトのプロンプト一般化を改善する。
ベイジアン・プロンプト学習がプロンプト空間の適切なカバレッジを提供する15のベンチマークを実証的に示す。
論文 参考訳(メタデータ) (2022-10-05T17:05:56Z) - Bayesian Optimization Meets Laplace Approximation for Robotic
Introspection [41.117361086267806]
本稿では,Deep Neural Networks(DNN)をよりイントロスペクティブにするために,スケーラブルなLaplace Approximation (LA)技術を導入する。
特に,本論文では,真の重み付け後部を過小評価する傾向を緩和する新しいベイズ最適化(BO)アルゴリズムを提案する。
提案するフレームワークは,大規模データセットやアーキテクチャにまで拡張可能であることを示す。
論文 参考訳(メタデータ) (2020-10-30T09:28:10Z) - Target-Embedding Autoencoders for Supervised Representation Learning [111.07204912245841]
本稿では,対象空間が高次元な純粋教師付き環境における一般化の枠組みを解析する。
我々は、教師付き予測のための目標埋め込みオートエンコーダ(TEA)の一般的なフレームワークのモチベーションと形式化を行い、特徴とターゲットの予測の両方から予測可能なように最適化された中間潜在表現を学習する。
論文 参考訳(メタデータ) (2020-01-23T02:37:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。