論文の概要: Reactive Transformer (RxT) -- Stateful Real-Time Processing for Event-Driven Reactive Language Models
- arxiv url: http://arxiv.org/abs/2510.03561v1
- Date: Fri, 03 Oct 2025 23:18:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.115422
- Title: Reactive Transformer (RxT) -- Stateful Real-Time Processing for Event-Driven Reactive Language Models
- Title(参考訳): Reactive Transformer (RxT) - イベント駆動型リアクティブ言語モデルのためのステートフルなリアルタイム処理
- Authors: Adam Filipek,
- Abstract要約: Reactive Transformer(RxT)は、データ駆動のパラダイムからイベント駆動のパラダイムに移行することで制限を克服するように設計された、新しいアーキテクチャである。
RxTは、各会話ターンを離散イベントとしてリアルタイムに処理し、統合された短期記憶(STM)システムでコンテキストを維持する。
我々はRxTが低レイテンシを実現し、真にリアルタイム、ステートフル、経済的に実行可能なロングフォームな会話を可能にすることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Transformer architecture has become the de facto standard for Large Language Models (LLMs), demonstrating remarkable capabilities in language understanding and generation. However, its application in conversational AI is fundamentally constrained by its stateless nature and the quadratic computational complexity ($O(L^2)$) with respect to sequence length $L$. Current models emulate memory by reprocessing an ever-expanding conversation history with each turn, leading to prohibitive costs and latency in long dialogues. This paper introduces the Reactive Transformer (RxT), a novel architecture designed to overcome these limitations by shifting from a data-driven to an event-driven paradigm. RxT processes each conversational turn as a discrete event in real-time, maintaining context in an integrated, fixed-size Short-Term Memory (STM) system. The architecture features a distinct operational cycle where a generator-decoder produces a response based on the current query and the previous memory state, after which a memory-encoder and a dedicated Memory Attention network asynchronously update the STM with a representation of the complete interaction. This design fundamentally alters the scaling dynamics, reducing the total user-facing cost of a conversation from quadratic ($O(N^2 \cdot T)$) to linear ($O(N \cdot T)$) with respect to the number of interactions $N$. By decoupling response generation from memory updates, RxT achieves low latency, enabling truly real-time, stateful, and economically viable long-form conversations. We validated our architecture with a series of proof-of-concept experiments on synthetic data, demonstrating superior performance and constant-time inference latency compared to a baseline stateless model of comparable size.
- Abstract(参考訳): TransformerアーキテクチャはLarge Language Models(LLM)のデファクトスタンダードとなり、言語理解と生成において顕著な能力を示している。
しかし、会話型AIにおけるその応用は、そのステートレスな性質と、列長$L$に対する2次計算複雑性(O(L^2)$)に根本的に制約されている。
現在のモデルでは、会話履歴を各ターンで再処理することでメモリをエミュレートしている。
本稿では、データ駆動のパラダイムからイベント駆動のパラダイムに移行することで、これらの制限を克服するために設計された、新しいアーキテクチャであるReactive Transformer(RxT)を紹介する。
RxTは、各会話ターンを離散イベントとしてリアルタイムに処理し、統合された固定サイズの短期記憶(STM)システムでコンテキストを維持する。
このアーキテクチャは、ジェネレータ・デコーダが現在のクエリと以前のメモリ状態に基づいてレスポンスを生成し、その後、メモリエンコーダと専用メモリアテンションネットワークが、完全なインタラクションの表現でSTMを非同期に更新する、明確な運用サイクルを特徴としている。
この設計は、スケーリングのダイナミクスを根本的に変え、対話の総ユーザ対面コスト($O(N^2 \cdot T)$)を2次($O(N \cdot T)$)から線形($N$)に下げる。
メモリ更新から応答生成を分離することで、RxTは低レイテンシを実現し、真にリアルタイムでステートフルで、経済的に実行可能なロングフォームな会話を可能にします。
我々は,合成データに関する一連の概念実証実験でアーキテクチャを検証し,同等の大きさのベースラインステートレスモデルと比較して,性能と一定時間の推論遅延が優れていることを示した。
関連論文リスト
- Memory Caching: RNNs with Growing Memory [56.25483647131372]
メモリ状態(隠された状態)のチェックポイントをキャッシュすることで、リカレントモデルを強化する技術であるメモリキャッシュ(MC)を導入する。
我々は,ゲートアグリゲーションとスパース選択機構を含むMCの4つの変種を提案し,それらが線形メモリモジュールおよび深部メモリモジュールに与える影響について議論する。
その結果,トランスフォーマーの精度は高いが,我々のMC変種は競争性能を示し,トランスフォーマーとのギャップを埋め,最先端のリカレントモデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2026-02-27T18:53:41Z) - CoMeT: Collaborative Memory Transformer for Efficient Long Context Modeling [40.705016911274]
本稿では,LLMがメモリ使用量と線形時間複雑度を一定に保ちながら任意の長いシーケンスを処理できる新しいアーキテクチャを提案する。
CoMeTは最小限の微調整で事前訓練されたモデルに統合できる。
CoMeTと32kコンテキストに微調整されたモデルでは、1Mトークンシーケンス内の任意の位置からパスキーを正確に取得することができる。
論文 参考訳(メタデータ) (2026-02-02T07:49:44Z) - Generative AI for Video Translation: A Scalable Architecture for Multilingual Video Conferencing [0.21748200848556343]
ビデオ翻訳のようなアプリケーションのためのカスケード生成AIパイプラインのリアルタイム展開は、重要なシステムレベルの課題によって制限される。
本稿では、これらの重要なボトルネックを軽減するために設計された実用的なシステムレベルのフレームワークを提案し、評価する。
提案アーキテクチャでは,マルチユーザシナリオにおける計算複雑性を2次から線形に削減するターンテイク機構が組み込まれている。
論文 参考訳(メタデータ) (2025-12-15T21:21:09Z) - DeepCoT: Deep Continual Transformers for Real-Time Inference on Data Streams [63.27233749591346]
トランスフォーマーベースのモデルは、ますます複雑なタスクに取り組むために、そのサイズとパラメータ数を劇的に増加させてきた。
ストリームデータ推論は通常、スライディング時間ウィンドウ上で実行され、非常に冗長な計算に繋がる。
提案するDeep Continual Transformer(DeepCoT)は冗長性のないエンコーダのみのモデルであり,最小限の変更で既存のディープエンコーダアーキテクチャに適用できる。
論文 参考訳(メタデータ) (2025-11-21T16:15:43Z) - ResFormer: All-Time Reservoir Memory for Long Sequence Classification [4.298381633106637]
シーケンス分類は、感情分析、意図検出、トピック分類といったタスクにおける言語パターンの理解と分類に欠かせない。
トランスフォーマーベースのモデルは、最先端のパフォーマンスを達成しているにもかかわらず、2次時間とメモリの複雑さのために固有の制限がある。
提案するResFormerは,カスケード手法を用いて,コンテキスト長を効率的にモデル化するニューラルネットワークアーキテクチャである。
論文 参考訳(メタデータ) (2025-09-28T21:20:49Z) - Echo State Transformer: When chaos brings memory [2.07180164747172]
本稿では,逐次データ処理のためのハイブリッドアーキテクチャであるEcho State Transformers (EST)を紹介する。
ESTはTransformerのアテンションメカニズムとReservoir Computingの原則を統合し、固定サイズのウィンドウ分散メモリシステムを作成する。
ESTは各処理ステップで一定の計算複雑性を達成し、標準変換器の2次スケーリング問題を効果的に破る。
論文 参考訳(メタデータ) (2025-06-25T09:56:25Z) - Pseudo-Autoregressive Neural Codec Language Models for Efficient Zero-Shot Text-to-Speech Synthesis [64.12708207721276]
本稿では,AR と NAR を統一した新しい擬似自己回帰(PAR)言語モデリング手法を提案する。
PAR 上に構築した PALLE は 2 段階の TTS システムであり, PAR を初期生成に利用し, NAR を改良する。
実験では、LibriTTSでトレーニングされたPALLEが、大規模データでトレーニングされた最先端システムを上回っていることが示された。
論文 参考訳(メタデータ) (2025-04-14T16:03:21Z) - Ladder-residual: parallelism-aware architecture for accelerating large model inference with communication overlapping [36.71999572939612]
すべての残差ベースモデルに適用可能な,シンプルなアーキテクチャ変更であるLadder Residualを紹介する。
Ladder Residualをすべてのレイヤに適用することで、TPシャーディングを8デバイス以上使用することで、推論時にエンドツーエンドのウォールクロックを29%高速化することができる。
1Bおよび3Bラダー変換器をスクラッチからトレーニングし、標準の高密度変圧器ベースラインに匹敵する性能を観測する。
論文 参考訳(メタデータ) (2025-01-11T17:06:30Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - Memory Is All You Need: An Overview of Compute-in-Memory Architectures for Accelerating Large Language Model Inference [2.9302211589186244]
大規模言語モデル(LLM)は自然言語処理を変換し、機械が人間のようなテキストを生成し、意味のある会話を行うことを可能にする。
計算と記憶能力の発達はムーアの法則の廃止によってさらに悪化している。
コンピュート・イン・メモリ(CIM)技術は、メモリ内でアナログ計算を直接実行することにより、AI推論を加速するための有望なソリューションを提供する。
論文 参考訳(メタデータ) (2024-06-12T16:57:58Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z) - Token Turing Machines [53.22971546637947]
Token Turing Machines (TTM) はシーケンシャルな自己回帰型トランスフォーマーモデルである。
我々のモデルは、セミナルなニューラルチューリングマシンにインスパイアされ、以前の履歴を要約するトークンの集合からなる外部メモリを持つ。
論文 参考訳(メタデータ) (2022-11-16T18:59:18Z) - TMS: A Temporal Multi-scale Backbone Design for Speaker Embedding [60.292702363839716]
話者埋め込みのための現在のSOTAバックボーンネットワークは、話者表現のためのマルチブランチネットワークアーキテクチャを用いた発話からマルチスケール特徴を集約するように設計されている。
本稿では, 話者埋め込みネットワークにおいて, 計算コストの増大を伴わずに, マルチスケール分岐を効率的に設計できる効果的な時間的マルチスケール(TMS)モデルを提案する。
論文 参考訳(メタデータ) (2022-03-17T05:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。