論文の概要: Folded Context Condensation in Path Integral Formalism for Infinite Context Transformers
- arxiv url: http://arxiv.org/abs/2405.04620v3
- Date: Mon, 10 Mar 2025 13:24:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 18:54:04.371730
- Title: Folded Context Condensation in Path Integral Formalism for Infinite Context Transformers
- Title(参考訳): Infinite Context Transformer における経路積分形式におけるFolded Context Condensation
- Authors: Won-Gi Paeng, Daesuk Kwon, Kyungwon Jeong, Honggyo Suh,
- Abstract要約: 本稿では、パス積分形式論の枠組みの中で、そのコアメカニズムを再解釈することにより、トランスフォーマーアルゴリズムの一般化された定式化を提案する。
よりコンパクトで効率的な表現が得られ、シーケンスのコンテキスト情報をメモリのようなセグメントに凝縮する。
本稿では,この手法の有効性をPasskey検索タスクと要約タスクで検証し,提案手法が履歴情報を保存し,メモリ使用率とシーケンス長を線形に拡張することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: In this work, we present a generalized formulation of the Transformer algorithm by reinterpreting its core mechanisms within the framework of Path Integral formalism. In this perspective, the attention mechanism is recast as a process that integrates all possible transition paths leading to future token states, with temporal evolution governed by the Feed-Forward Network. By systematically mapping each component of the Transformer to its counterpart in the Path Integral formulation, we obtain a more compact and efficient representation, in which the contextual information of a sequence is condensed into memory-like segments. These segments are recurrently processed across Transformer layers, enabling more effective long-term information retention. We validate the effectiveness of this approach through the Passkey retrieval task and a summarization task, demonstrating that the proposed method preserves historical information while exhibiting memory usage that scales linearly with sequence length. This contrasts with the non-linear memory growth typically observed in standard attention mechanisms. We expect that this quantum-inspired generalization of the Transformer architecture will open new avenues for enhancing both the efficiency and expressiveness of future Transformer models.
- Abstract(参考訳): 本研究では、パス積分形式論の枠組みの中でコア機構を再解釈することにより、トランスフォーマーアルゴリズムの一般化された定式化を提案する。
この観点では、アテンションメカニズムは、フィードフォワードネットワークが支配する時間的進化とともに、将来のトークン状態につながるすべてのトランジションパスを統合するプロセスとして再キャストされる。
本研究では,Transformerの各コンポーネントをPath積分式に体系的にマッピングすることにより,シーケンスのコンテキスト情報をメモリのようなセグメントに格納する,よりコンパクトで効率的な表現を実現する。
これらのセグメントはTransformer層で繰り返し処理され、より効果的な長期情報保持を可能にする。
本稿では,この手法の有効性をPasskey検索タスクと要約タスクを用いて検証し,提案手法が履歴情報を保存し,メモリ使用率とシーケンス長を線形に拡張することを示す。
これは、通常標準の注意機構で観察される非線形記憶成長とは対照的である。
この量子に着想を得たTransformerアーキテクチャの一般化は、将来のTransformerモデルの効率性と表現性を両立する新たな道を開くことを期待する。
関連論文リスト
- StagFormer: Time Staggering Transformer Decoding for RunningLayers In Parallel [18.90131444504415]
StagFormerは、モデルの異なるセクションを33%のスピードアップで並列に実行することを可能にする。
メモリが限られている環境では、ステージングされた異なるセクション間でのウェイトシェアリングがより実用的であることを示す。
論文 参考訳(メタデータ) (2025-01-26T20:09:11Z) - FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。
いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-27T15:53:49Z) - Tokenization as Finite-State Transduction [24.19959327497118]
正規言語の全てのトークン化を効率的にエンコードできる有限状態フレームワークを導入する。
そのByte-Pairを示します。
Match(BPE)とMaxPiece(WordPiece)がこのフレームワークに適合する。
これの応用は、あるパターンにマッチするように言語モデルの出力を制約するガイド付き生成である。
論文 参考訳(メタデータ) (2024-10-21T07:10:07Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - Scan and Snap: Understanding Training Dynamics and Token Composition in
1-layer Transformer [37.37547759817417]
トランスフォーマーアーキテクチャは、複数の研究領域で顕著な性能を示している。
我々は、次のトークン予測タスクのためのSGDトレーニングダイナミクスを解析する。
自己注意が自己識別型スキャンアルゴリズムとして機能することを証明する。
論文 参考訳(メタデータ) (2023-05-25T15:59:13Z) - token2vec: A Joint Self-Supervised Pre-training Framework Using Unpaired
Speech and Text [65.04385919645395]
token2vecは、音声の離散表現に基づく、未ペア音声とテキストのための新しい事前学習フレームワークである。
実験の結果、 token2vec は様々な音声のみの事前学習ベースラインよりも大幅に優れており、WER の相対的な減少率は17.7%である。
論文 参考訳(メタデータ) (2022-10-30T06:38:19Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z) - Funnel-Transformer: Filtering out Sequential Redundancy for Efficient
Language Processing [112.2208052057002]
本稿では,隠れ状態の列を短く圧縮するFunnel-Transformerを提案する。
Funnel-TransformerはFLOPに匹敵する数が少ないため、様々なシーケンスレベルの予測タスクにおいて標準のTransformerよりも優れている。
論文 参考訳(メタデータ) (2020-06-05T05:16:23Z) - Non-Autoregressive Machine Translation with Disentangled Context
Transformer [70.95181466892795]
最先端のニューラルネットワーク翻訳モデルは、左から右への翻訳を生成し、各ステップは以前に生成されたトークンに条件付けされる。
本研究では,異なるコンテキストのトークンを同時に生成するDisentangled Context (DisCo) 変換器を提案する。
本モデルでは,非自己回帰型機械翻訳技術と比較して性能が向上する一方,デコーディング時間の平均は大幅に減少する。
論文 参考訳(メタデータ) (2020-01-15T05:32:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。