論文の概要: JoFormer (Journey-based Transformer): Theory and Empirical Analysis on the Tiny Shakespeare Dataset
- arxiv url: http://arxiv.org/abs/2506.08652v1
- Date: Tue, 10 Jun 2025 10:05:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:42.272152
- Title: JoFormer (Journey-based Transformer): Theory and Empirical Analysis on the Tiny Shakespeare Dataset
- Title(参考訳): JoFormer (Journey-based Transformer):The Tiny Shakespeare Datasetの理論と実証分析
- Authors: Mahesh Godavarti,
- Abstract要約: 本稿では,最近提案された非可換代数に基づく旅行型トランスフォーマーアーキテクチャJoFormerを紹介する。
JoFormerが一貫して低いパープレキシティとより高速な収束を実現していることを示す。
結論は、JoFormerがTransformerアーキテクチャに位置構造を統合するための原則的なアプローチを提供する方法についてである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Transformers have demonstrated remarkable success in sequence modeling, yet effectively incorporating positional information remains a challenging and active area of research. In this paper, we introduce JoFormer, a journey-based Transformer architecture grounded in a recently proposed non-commutative algebra for composing transformations across positions. JoFormer represents relative positions through learnable directional transforms that are sequentially composed along the input, thereby extending and generalizing existing approaches based on relative position representations. We derive the JoFormer attention mechanism from first principles and show that it subsumes standard methods such as rotary transformations as special cases. To evaluate its effectiveness, we compare JoFormer to the RoFormer baseline on the Tiny Shakespeare character-level language modeling task. Our results demonstrate that JoFormer consistently achieves lower perplexity and faster convergence, highlighting the advantages of its more expressive, journey-based treatment of position. Notably, the per-token JoFormer is still a primitive, conceptual variant with layer-independent angles, yet it already demonstrates strong performance-underscoring its promise as a proof of concept for more expressive architectures. We conclude by discussing how JoFormer offers a principled approach to integrating positional structure into Transformer architectures. The code used in this work is available at https://github.com/mahesh-godavarti/joformer.
- Abstract(参考訳): トランスフォーマーは、シーケンスモデリングにおいて顕著な成功を収めてきたが、位置情報を効果的に組み込むことは、依然として困難な研究領域であり、活発な研究である。
本稿では,最近提案された非可換代数を基盤とした移動型トランスフォーマーアーキテクチャであるJoFormerを紹介する。
JoFormerは、入力に沿って順次構成される学習可能な方向変換を通じて相対的な位置を表現し、それによって、相対的な位置表現に基づいて既存のアプローチを拡張し、一般化する。
本稿では、JoFormerの注意機構を第一原理から導出し、回転変換などの標準的な手法を特別な場合として仮定することを示す。
提案手法の有効性を評価するため,Tiny Shakespeare 文字レベル言語モデリングタスクにおいて,JoFormer と RoFormer ベースラインを比較した。
以上の結果から,JoFormerはより表現力に富んだ位置対応の利点を浮き彫りにして,より低いパープレキシティと高速な収束を実現していることが明らかとなった。
注目すべきなのは、JoFormerはレイヤ非依存のアングルを持つプリミティブな概念的な亜種であることだ。
結論は、JoFormerがTransformerアーキテクチャに位置構造を統合するための原則的なアプローチを提供する方法についてである。
この作業で使用されるコードはhttps://github.com/mahesh-godavarti/joformer.comで公開されている。
関連論文リスト
- Contextually Guided Transformers via Low-Rank Adaptation [14.702057924366345]
変換器をベースとした大規模言語モデル(LLM)は、テキスト処理において優れているが、特殊な振る舞いのプロンプトに依存しているため、計算オーバーヘッドが生じる。
本稿では,モデル重みにコンテキストをエンコードすることで,明示的なプロンプトの必要性を解消するトランスフォーマーアーキテクチャの修正を提案する。
論文 参考訳(メタデータ) (2025-06-06T01:34:39Z) - PaTH Attention: Position Encoding via Accumulating Householder Transformations [56.32365080761523]
PaTHは、ハウステリア変換の累積積に基づいて、フレキシブルなデータ依存位置符号化方式である。
家庭用行列の積をコンパクトに表現することで,効率的な並列学習アルゴリズムを導出する。
論文 参考訳(メタデータ) (2025-05-22T08:36:09Z) - Comateformer: Combined Attention Transformer for Semantic Sentence Matching [11.746010399185437]
本稿では,トランスフォーマーモデルに基づくコンバインド・アテンション・ネットワークという新しい意味文マッチングモデルを提案する。
Comateformer モデルでは,構成特性を持つ新しい変圧器を用いた準アテンション機構を設計する。
提案手法は,双対親和性スコアを計算する際の類似性と相似性(負親和性)の直感に基づく。
論文 参考訳(メタデータ) (2024-12-10T06:18:07Z) - Recurrent Generic Contour-based Instance Segmentation with Progressive
Learning [111.31166268300817]
本稿では,一般的な輪郭型インスタンスセグメンテーションのための新しいディープネットワークアーキテクチャ,すなわちPolySnakeを提案する。
従来のSnakeアルゴリズムに動機付け,提案したPolySnakeはより優れた,堅牢なセグメンテーション性能を実現する。
論文 参考訳(メタデータ) (2023-01-21T05:34:29Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z) - Frame Averaging for Equivariant Shape Space Learning [85.42901997467754]
形状空間学習に対称性を組み込む自然な方法は、形状空間(エンコーダ)への写像と形状空間(デコーダ)からの写像が関連する対称性に同値であることを問うことである。
本稿では,2つのコントリビューションを導入することで,エンコーダとデコーダの等価性を組み込む枠組みを提案する。
論文 参考訳(メタデータ) (2021-12-03T06:41:19Z) - The Case for Translation-Invariant Self-Attention in Transformer-Based
Language Models [11.148662334602639]
既存の言語モデルの位置埋め込みを分析し、翻訳不変性の強い証拠を見出す。
本稿では,トークン間の相対的な位置を解釈可能な方法で記述する翻訳不変自己アテンション(TISA)を提案する。
論文 参考訳(メタデータ) (2021-06-03T15:56:26Z) - Self-supervised Augmentation Consistency for Adapting Semantic
Segmentation [56.91850268635183]
本稿では,実用的かつ高精度な意味セグメンテーションのためのドメイン適応手法を提案する。
私たちは標準データ拡張技術である$-$フォトメトリックノイズ、フリップとスケーリング$-$を採用し、セマンティック予測の一貫性を保証する。
適応後の最先端セグメンテーション精度を大幅に改善し、バックボーンアーキテクチャと適応シナリオの異なる選択に整合性を持たせる。
論文 参考訳(メタデータ) (2021-04-30T21:32:40Z) - RoFormer: Enhanced Transformer with Rotary Position Embedding [9.01819510933327]
位置情報を効果的に活用するためのRotary Position Embedding(RoPE)という新しい手法を提案する。
RoPEは絶対位置を回転行列でエンコードし、一方、自己アテンションの定式化に明示的な相対位置依存性を組み込む。
様々な長文分類ベンチマークデータセットを用いて、回転位置埋め込み(RoFormer)と呼ばれる拡張変換器の評価を行った。
論文 参考訳(メタデータ) (2021-04-20T09:54:06Z) - Improve Transformer Models with Better Relative Position Embeddings [18.59434691153783]
トランスフォーマーアーキテクチャは、単語順序の概念を維持するために明示的な位置符号化に依存している。
既存の作業は位置情報を十分に活用していないと我々は主張する。
本稿では,クエリ,キー,相対的な位置埋め込みの相互作用を促進する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-09-28T22:18:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。