論文の概要: Reactive Transformer (RxT) -- Stateful Real-Time Processing for Event-Driven Reactive Language Models
- arxiv url: http://arxiv.org/abs/2510.03561v1
- Date: Fri, 03 Oct 2025 23:18:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.115422
- Title: Reactive Transformer (RxT) -- Stateful Real-Time Processing for Event-Driven Reactive Language Models
- Title(参考訳): Reactive Transformer (RxT) - イベント駆動型リアクティブ言語モデルのためのステートフルなリアルタイム処理
- Authors: Adam Filipek,
- Abstract要約: Reactive Transformer(RxT)は、データ駆動のパラダイムからイベント駆動のパラダイムに移行することで制限を克服するように設計された、新しいアーキテクチャである。
RxTは、各会話ターンを離散イベントとしてリアルタイムに処理し、統合された短期記憶(STM)システムでコンテキストを維持する。
我々はRxTが低レイテンシを実現し、真にリアルタイム、ステートフル、経済的に実行可能なロングフォームな会話を可能にすることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Transformer architecture has become the de facto standard for Large Language Models (LLMs), demonstrating remarkable capabilities in language understanding and generation. However, its application in conversational AI is fundamentally constrained by its stateless nature and the quadratic computational complexity ($O(L^2)$) with respect to sequence length $L$. Current models emulate memory by reprocessing an ever-expanding conversation history with each turn, leading to prohibitive costs and latency in long dialogues. This paper introduces the Reactive Transformer (RxT), a novel architecture designed to overcome these limitations by shifting from a data-driven to an event-driven paradigm. RxT processes each conversational turn as a discrete event in real-time, maintaining context in an integrated, fixed-size Short-Term Memory (STM) system. The architecture features a distinct operational cycle where a generator-decoder produces a response based on the current query and the previous memory state, after which a memory-encoder and a dedicated Memory Attention network asynchronously update the STM with a representation of the complete interaction. This design fundamentally alters the scaling dynamics, reducing the total user-facing cost of a conversation from quadratic ($O(N^2 \cdot T)$) to linear ($O(N \cdot T)$) with respect to the number of interactions $N$. By decoupling response generation from memory updates, RxT achieves low latency, enabling truly real-time, stateful, and economically viable long-form conversations. We validated our architecture with a series of proof-of-concept experiments on synthetic data, demonstrating superior performance and constant-time inference latency compared to a baseline stateless model of comparable size.
- Abstract(参考訳): TransformerアーキテクチャはLarge Language Models(LLM)のデファクトスタンダードとなり、言語理解と生成において顕著な能力を示している。
しかし、会話型AIにおけるその応用は、そのステートレスな性質と、列長$L$に対する2次計算複雑性(O(L^2)$)に根本的に制約されている。
現在のモデルでは、会話履歴を各ターンで再処理することでメモリをエミュレートしている。
本稿では、データ駆動のパラダイムからイベント駆動のパラダイムに移行することで、これらの制限を克服するために設計された、新しいアーキテクチャであるReactive Transformer(RxT)を紹介する。
RxTは、各会話ターンを離散イベントとしてリアルタイムに処理し、統合された固定サイズの短期記憶(STM)システムでコンテキストを維持する。
このアーキテクチャは、ジェネレータ・デコーダが現在のクエリと以前のメモリ状態に基づいてレスポンスを生成し、その後、メモリエンコーダと専用メモリアテンションネットワークが、完全なインタラクションの表現でSTMを非同期に更新する、明確な運用サイクルを特徴としている。
この設計は、スケーリングのダイナミクスを根本的に変え、対話の総ユーザ対面コスト($O(N^2 \cdot T)$)を2次($O(N \cdot T)$)から線形($N$)に下げる。
メモリ更新から応答生成を分離することで、RxTは低レイテンシを実現し、真にリアルタイムでステートフルで、経済的に実行可能なロングフォームな会話を可能にします。
我々は,合成データに関する一連の概念実証実験でアーキテクチャを検証し,同等の大きさのベースラインステートレスモデルと比較して,性能と一定時間の推論遅延が優れていることを示した。
関連論文リスト
- ResFormer: All-Time Reservoir Memory for Long Sequence Classification [4.298381633106637]
シーケンス分類は、感情分析、意図検出、トピック分類といったタスクにおける言語パターンの理解と分類に欠かせない。
トランスフォーマーベースのモデルは、最先端のパフォーマンスを達成しているにもかかわらず、2次時間とメモリの複雑さのために固有の制限がある。
提案するResFormerは,カスケード手法を用いて,コンテキスト長を効率的にモデル化するニューラルネットワークアーキテクチャである。
論文 参考訳(メタデータ) (2025-09-28T21:20:49Z) - Echo State Transformer: When chaos brings memory [2.07180164747172]
本稿では,逐次データ処理のためのハイブリッドアーキテクチャであるEcho State Transformers (EST)を紹介する。
ESTはTransformerのアテンションメカニズムとReservoir Computingの原則を統合し、固定サイズのウィンドウ分散メモリシステムを作成する。
ESTは各処理ステップで一定の計算複雑性を達成し、標準変換器の2次スケーリング問題を効果的に破る。
論文 参考訳(メタデータ) (2025-06-25T09:56:25Z) - Pseudo-Autoregressive Neural Codec Language Models for Efficient Zero-Shot Text-to-Speech Synthesis [64.12708207721276]
本稿では,AR と NAR を統一した新しい擬似自己回帰(PAR)言語モデリング手法を提案する。
PAR 上に構築した PALLE は 2 段階の TTS システムであり, PAR を初期生成に利用し, NAR を改良する。
実験では、LibriTTSでトレーニングされたPALLEが、大規模データでトレーニングされた最先端システムを上回っていることが示された。
論文 参考訳(メタデータ) (2025-04-14T16:03:21Z) - Ladder-residual: parallelism-aware architecture for accelerating large model inference with communication overlapping [36.71999572939612]
すべての残差ベースモデルに適用可能な,シンプルなアーキテクチャ変更であるLadder Residualを紹介する。
Ladder Residualをすべてのレイヤに適用することで、TPシャーディングを8デバイス以上使用することで、推論時にエンドツーエンドのウォールクロックを29%高速化することができる。
1Bおよび3Bラダー変換器をスクラッチからトレーニングし、標準の高密度変圧器ベースラインに匹敵する性能を観測する。
論文 参考訳(メタデータ) (2025-01-11T17:06:30Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - Memory Is All You Need: An Overview of Compute-in-Memory Architectures for Accelerating Large Language Model Inference [2.9302211589186244]
大規模言語モデル(LLM)は自然言語処理を変換し、機械が人間のようなテキストを生成し、意味のある会話を行うことを可能にする。
計算と記憶能力の発達はムーアの法則の廃止によってさらに悪化している。
コンピュート・イン・メモリ(CIM)技術は、メモリ内でアナログ計算を直接実行することにより、AI推論を加速するための有望なソリューションを提供する。
論文 参考訳(メタデータ) (2024-06-12T16:57:58Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z) - Token Turing Machines [53.22971546637947]
Token Turing Machines (TTM) はシーケンシャルな自己回帰型トランスフォーマーモデルである。
我々のモデルは、セミナルなニューラルチューリングマシンにインスパイアされ、以前の履歴を要約するトークンの集合からなる外部メモリを持つ。
論文 参考訳(メタデータ) (2022-11-16T18:59:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。