論文の概要: Exponential Family Attention
- arxiv url: http://arxiv.org/abs/2501.16790v1
- Date: Tue, 28 Jan 2025 08:42:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-29 16:42:47.727691
- Title: Exponential Family Attention
- Title(参考訳): 排他的家族意識
- Authors: Kevin Christian Wibisono, Yixin Wang,
- Abstract要約: 本稿では,高次元データ,空間的データ,空間的データを扱うために自己注意を拡張した確率論的生成モデルである指数家族注意(EFA)を紹介する。
EFAは、複雑な潜伏構造をキャプチャし、ホールドアウトしたデータを再構成することで、既存のモデルよりも一貫して優れています。
- 参考スコア(独自算出の注目度): 19.841163050181194
- License:
- Abstract: The self-attention mechanism is the backbone of the transformer neural network underlying most large language models. It can capture complex word patterns and long-range dependencies in natural language. This paper introduces exponential family attention (EFA), a probabilistic generative model that extends self-attention to handle high-dimensional sequence, spatial, or spatial-temporal data of mixed data types, including both discrete and continuous observations. The key idea of EFA is to model each observation conditional on all other existing observations, called the context, whose relevance is learned in a data-driven way via an attention-based latent factor model. In particular, unlike static latent embeddings, EFA uses the self-attention mechanism to capture dynamic interactions in the context, where the relevance of each context observations depends on other observations. We establish an identifiability result and provide a generalization guarantee on excess loss for EFA. Across real-world and synthetic data sets -- including U.S. city temperatures, Instacart shopping baskets, and MovieLens ratings -- we find that EFA consistently outperforms existing models in capturing complex latent structures and reconstructing held-out data.
- Abstract(参考訳): 自己注意機構は、ほとんどの大きな言語モデルに基づくトランスフォーマーニューラルネットワークのバックボーンである。
自然言語における複雑なワードパターンと長距離依存関係をキャプチャできる。
本稿では, 離散的・連続的な観測を含む混合データ型の高次元シーケンス, 空間的, 時空間的データを扱うために, 自己アテンションを拡張する確率論的生成モデルである指数関数家族アテンション(EFA)を紹介する。
EFAの鍵となる考え方は、各観測条件を、注意に基づく潜在因子モデルを通じてデータ駆動的な方法で学習するコンテキストと呼ばれる、既存のすべての観測条件に基づいてモデル化することである。
特に、静的な潜伏埋め込みとは異なり、EFAは、コンテキスト内の動的相互作用をキャプチャするために自己認識機構を使用しており、それぞれのコンテキスト観測の関連性は他の観測に依存する。
識別可能性の確立と、EFAの余剰損失に関する一般化保証を提供する。
都市温度、Instacartショッピングバスケット、MovieLensの評価など、実世界のデータや合成データを総合すると、EFAは複雑な潜伏構造を捉え、保持されたデータを再構築する上で、既存のモデルよりも一貫して優れています。
関連論文リスト
- Explaining Categorical Feature Interactions Using Graph Covariance and LLMs [18.44675735926458]
本稿では,Counter Trafficking Data Collaborativeからのグローバルな合成データセットに焦点を当てる。
2002年から2022年にかけて20,000件以上の匿名化された記録があり、それぞれのレコードに多くの分類学的特徴がある。
本稿では,重要な分類的特徴の相互作用を分析し,抽出するための高速でスケーラブルな手法を提案する。
論文 参考訳(メタデータ) (2025-01-24T21:41:26Z) - Multi-Head Self-Attending Neural Tucker Factorization [5.734615417239977]
本稿では,高次元および不完全(HDI)テンソルの学習表現に適したニューラルネットワークに基づくテンソル分解手法を提案する。
提案したMSNTucFモデルでは,観測結果の欠落を推定する上で,最先端のベンチマークモデルと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2025-01-16T13:04:15Z) - Learning Divergence Fields for Shift-Robust Graph Representations [73.11818515795761]
本研究では,相互依存データに対する問題に対して,学習可能な分散場を持つ幾何学的拡散モデルを提案する。
因果推論によって新たな学習目標が導出され、ドメイン間で無神経な相互依存の一般化可能なパターンを学習するためのモデルが導出される。
論文 参考訳(メタデータ) (2024-06-07T14:29:21Z) - Corpus Considerations for Annotator Modeling and Scaling [9.263562546969695]
一般的に使われているユーザトークンモデルは、より複雑なモデルよりも一貫して優れています。
以上の結果から,コーパス統計とアノテータモデリング性能の関係が明らかになった。
論文 参考訳(メタデータ) (2024-04-02T22:27:24Z) - DIFFormer: Scalable (Graph) Transformers Induced by Energy Constrained
Diffusion [66.21290235237808]
本稿では,データセットからのインスタンスのバッチを進化状態にエンコードするエネルギー制約拡散モデルを提案する。
任意のインスタンス対間の対拡散強度に対する閉形式最適推定を示唆する厳密な理論を提供する。
各種タスクにおいて優れた性能を有する汎用エンコーダバックボーンとして,本モデルの適用性を示す実験を行った。
論文 参考訳(メタデータ) (2023-01-23T15:18:54Z) - Dynamic Latent Separation for Deep Learning [67.62190501599176]
機械学習の中核的な問題は、複雑なデータに対するモデル予測のための表現力のある潜在変数を学習することである。
本稿では,表現性を向上し,部分的解釈を提供し,特定のアプリケーションに限定されないアプローチを開発する。
論文 参考訳(メタデータ) (2022-10-07T17:56:53Z) - Amortized Inference for Causal Structure Learning [72.84105256353801]
因果構造を学習することは、通常、スコアまたは独立テストを使用して構造を評価することを伴う探索問題を引き起こす。
本研究では,観測・干渉データから因果構造を予測するため,変分推論モデルを訓練する。
我々のモデルは、実質的な分布シフトの下で頑健な一般化能力を示す。
論文 参考訳(メタデータ) (2022-05-25T17:37:08Z) - Learning Neural Causal Models with Active Interventions [83.44636110899742]
本稿では,データ生成プロセスの根底にある因果構造を素早く識別する能動的介入ターゲット機構を提案する。
本手法は,ランダムな介入ターゲティングと比較して,要求される対話回数を大幅に削減する。
シミュレーションデータから実世界のデータまで,複数のベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2021-09-06T13:10:37Z) - OR-Net: Pointwise Relational Inference for Data Completion under Partial
Observation [51.083573770706636]
この作業はリレーショナル推論を使って不完全なデータを埋めます。
本稿では,2つの点での相対性理論をモデル化するために,全関係ネットワーク (or-net) を提案する。
論文 参考訳(メタデータ) (2021-05-02T06:05:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。