論文の概要: Algebraic Positional Encodings
- arxiv url: http://arxiv.org/abs/2312.16045v2
- Date: Wed, 30 Oct 2024 12:38:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:24:38.929800
- Title: Algebraic Positional Encodings
- Title(参考訳): 代数的位置符号化
- Authors: Konstantinos Kogkalidis, Jean-Philippe Bernardy, Vikas Garg,
- Abstract要約: 本稿では,トランスフォーマー型モデルに対して,既存のアドホックなアプローチの欠点に対処する新たな位置符号化方式を提案する。
我々は,本手法の実用性を示す一連の実験を行った。
結果は、現在の最先端に匹敵するパフォーマンスを示唆している。
- 参考スコア(独自算出の注目度): 7.0975366862235445
- License:
- Abstract: We introduce a novel positional encoding strategy for Transformer-style models, addressing the shortcomings of existing, often ad hoc, approaches. Our framework provides a flexible mapping from the algebraic specification of a domain to an interpretation as orthogonal operators. This design preserves the algebraic characteristics of the source domain, ensuring that the model upholds its desired structural properties. Our scheme can accommodate various structures, ncluding sequences, grids and trees, as well as their compositions. We conduct a series of experiments to demonstrate the practical applicability of our approach. Results suggest performance on par with or surpassing the current state-of-the-art, without hyper-parameter optimizations or "task search" of any kind. Code is available at https://github.com/konstantinosKokos/ape.
- Abstract(参考訳): 本稿では,トランスフォーマー型モデルに対して,既存のアドホックなアプローチの欠点に対処する新たな位置符号化方式を提案する。
我々のフレームワークは、ドメインの代数的仕様から直交作用素としての解釈への柔軟なマッピングを提供する。
この設計は、ソース領域の代数的特性を保ち、モデルが所望の構造的特性を保持することを保証している。
提案手法は, 配列, 格子, 木, 構成など, 様々な構造に対応できる。
我々は,本手法の実用性を示す一連の実験を行った。
その結果、ハイパーパラメータ最適化や「タスクサーチ」を使わずに、現在の最先端に匹敵するパフォーマンスが示唆された。
コードはhttps://github.com/konstantinosKokos/ape.comから入手できる。
関連論文リスト
- Group and Shuffle: Efficient Structured Orthogonal Parametrization [3.540195249269228]
構造化された行列の新しいクラスを導入し、以前の研究から構造化されたクラスを統一し一般化する。
我々は,テキスト・画像拡散モデルの適応や,言語モデルにおける下流タスクの微調整など,異なる領域での手法を実証的に検証する。
論文 参考訳(メタデータ) (2024-06-14T13:29:36Z) - HCVP: Leveraging Hierarchical Contrastive Visual Prompt for Domain
Generalization [69.33162366130887]
ドメイン一般化(DG)は、不変の機能を学ぶことによって、目に見えないシナリオに優れた機械学習モデルを作成するための取り組みである。
モデルにドメインレベルとタスク固有の特性を補足する新しい手法を提案する。
このアプローチは、特定の特徴から不変な特徴をより効果的に分離し、一般化を促進することを目的としている。
論文 参考訳(メタデータ) (2024-01-18T04:23:21Z) - Graph-Induced Syntactic-Semantic Spaces in Transformer-Based Variational
AutoEncoders [5.037881619912574]
本稿では,トランスフォーマーを用いたVAEにおける構造構文注入のための潜時空間分離法について検討する。
具体的には、グラフベースおよびシーケンシャルモデルの統合により、符号化段階で構文構造をどのように活用するかを検討する。
我々の経験的評価は、自然言語文と数学的表現に基づいて行われ、提案したエンドツーエンドのVAEアーキテクチャにより、潜在空間の全体構造がより良くなることを示している。
論文 参考訳(メタデータ) (2023-11-14T22:47:23Z) - Flow Factorized Representation Learning [109.51947536586677]
本稿では、異なる入力変換を定義する潜在確率パスの別個のセットを規定する生成モデルを提案する。
本モデルは,ほぼ同変モデルに近づきながら,標準表現学習ベンチマークにおいて高い確率を達成することを示す。
論文 参考訳(メタデータ) (2023-09-22T20:15:37Z) - GloptiNets: Scalable Non-Convex Optimization with Certificates [61.50835040805378]
本稿では,ハイパーキューブやトーラス上のスムーズな関数を扱う証明書を用いた非キューブ最適化手法を提案する。
スペクトルの減衰に固有の対象関数の正則性を活用することにより、正確な証明を取得し、高度で強力なニューラルネットワークを活用することができる。
論文 参考訳(メタデータ) (2023-06-26T09:42:59Z) - Performance Embeddings: A Similarity-based Approach to Automatic
Performance Optimization [71.69092462147292]
パフォーマンス埋め込みは、アプリケーション間でパフォーマンスチューニングの知識伝達を可能にする。
本研究では, 深層ニューラルネットワーク, 密度およびスパース線形代数合成, および数値風速予測ステンシルのケーススタディにおいて, この伝達チューニング手法を実証する。
論文 参考訳(メタデータ) (2023-03-14T15:51:35Z) - Equivariance with Learned Canonicalization Functions [77.32483958400282]
正規化を行うために小さなニューラルネットワークを学習することは、事前定義を使用することよりも優れていることを示す。
実験の結果,正準化関数の学習は多くのタスクで同変関数を学習する既存の手法と競合することがわかった。
論文 参考訳(メタデータ) (2022-11-11T21:58:15Z) - Frame Averaging for Equivariant Shape Space Learning [85.42901997467754]
形状空間学習に対称性を組み込む自然な方法は、形状空間(エンコーダ)への写像と形状空間(デコーダ)からの写像が関連する対称性に同値であることを問うことである。
本稿では,2つのコントリビューションを導入することで,エンコーダとデコーダの等価性を組み込む枠組みを提案する。
論文 参考訳(メタデータ) (2021-12-03T06:41:19Z) - Differentiable Spline Approximations [48.10988598845873]
微分プログラミングは機械学習のスコープを大幅に強化した。
標準的な微分可能なプログラミング手法(autodiffなど)は、通常、機械学習モデルが微分可能であることを要求する。
この再設計されたヤコビアンを予測モデルにおける微分可能な「層」の形で活用することで、多様なアプリケーションの性能が向上することを示す。
論文 参考訳(メタデータ) (2021-10-04T16:04:46Z) - NOVAS: Non-convex Optimization via Adaptive Stochastic Search for
End-to-End Learning and Control [22.120942106939122]
本稿では,一般のニューラルネットワーク最適化操作において,適応探索をビルディングブロックとして用いることを提案する。
我々は、合成エネルギーベースの構造化タスクにおける既存の2つの代替案に対してベンチマークを行い、最適制御アプリケーションでの使用例を示す。
論文 参考訳(メタデータ) (2020-06-22T03:40:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。