論文の概要: From Static Inference to Dynamic Interaction: A Survey of Streaming Large Language Models
- arxiv url: http://arxiv.org/abs/2603.04592v2
- Date: Sat, 07 Mar 2026 08:11:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 12:41:26.222485
- Title: From Static Inference to Dynamic Interaction: A Survey of Streaming Large Language Models
- Title(参考訳): 静的推論から動的相互作用へ:大規模言語モデルのストリーミング調査
- Authors: Junlong Tong, Zilong Wang, YuJie Ren, Peiran Yin, Hao Wu, Wei Zhang, Xiaoyu Shen,
- Abstract要約: 本稿では,ストリーミングLLMの概観と解析について述べる。
データフローと動的相互作用に基づくストリーミングLLMの統一的な定義を確立する。
本稿では,現在のLLMの体系的な分類法を提案し,その基礎となる方法論について詳細に検討する。
- 参考スコア(独自算出の注目度): 13.43077281964956
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Standard Large Language Models (LLMs) are predominantly designed for static inference with pre-defined inputs, which limits their applicability in dynamic, real-time scenarios. To address this gap, the streaming LLM paradigm has emerged. However, existing definitions of streaming LLMs remain fragmented, conflating streaming generation, streaming inputs, and interactive streaming architectures, while a systematic taxonomy is still lacking. This paper provides a comprehensive overview and analysis of streaming LLMs. First, we establish a unified definition of streaming LLMs based on data flow and dynamic interaction to clarify existing ambiguities. Building on this definition, we propose a systematic taxonomy of current streaming LLMs and conduct an in-depth discussion on their underlying methodologies. Furthermore, we explore the applications of streaming LLMs in real-world scenarios and outline promising research directions to support ongoing advances in streaming intelligence. We maintain a continuously updated repository of relevant papers at https://github.com/EIT-NLP/Awesome-Streaming-LLMs.
- Abstract(参考訳): 標準大言語モデル(LLM)は、主に事前定義された入力による静的推論のために設計されており、動的でリアルタイムなシナリオにおける適用性を制限する。
このギャップに対処するため、ストリーミングLLMパラダイムが登場した。
しかし、ストリーミング LLM の既存の定義は断片化され、ストリーミング生成、ストリーミング入力、インタラクティブストリーミングアーキテクチャが混在する一方で、体系的な分類はいまだに欠落している。
本稿では,ストリーミングLLMの概観と解析について述べる。
まず、既存のあいまいさを明らかにするために、データフローと動的相互作用に基づくストリーミングLLMの統一的な定義を確立する。
この定義に基づいて,現在のストリーミングLDMの系統分類を提案し,その基礎となる方法論について詳細な議論を行う。
さらに、実世界のシナリオにおけるストリーミングLLMの応用について検討し、ストリーミングインテリジェンスにおける継続的な進歩を支援するための有望な研究の方向性を概説する。
関連論文のリポジトリをhttps://github.com/EIT-NLP/Awesome-Streaming-LLMsで継続的に更新しています。
関連論文リスト
- Open-ended Hierarchical Streaming Video Understanding with Vision Language Models [21.803265810666606]
オンライン時間的行動ローカライゼーションと自由形式記述生成を組み合わせたタスクである階層的ストリーミングビデオ理解を導入する。
次に、アクション分類を超えたストリーミングアクション知覚を拡張するOpenHOUSEを提案する。
我々は、強力な生成モデルの統合において、ストリーミングアクション知覚の未来を想像する。
論文 参考訳(メタデータ) (2025-09-15T17:11:06Z) - A Survey on Diffusion Language Models [30.00199970146068]
拡散言語モデル(DLM)は、支配的な自己回帰(AR)パラダイムの代替である。
DLMは、推論遅延を減らし、双方向のコンテキストをキャプチャすることに固有の利点がある。
近年の進歩により、DLMは自己回帰に匹敵する性能を示すようになった。
論文 参考訳(メタデータ) (2025-08-14T17:47:22Z) - Discrete Tokenization for Multimodal LLMs: A Comprehensive Survey [69.45421620616486]
本研究は、大規模言語モデル(LLM)用に設計された離散トークン化手法の最初の構造的分類と解析である。
古典的および近代的なパラダイムにまたがる8つの代表的なVQ変種を分類し、アルゴリズムの原理を分析し、力学を訓練し、LLMパイプラインとの統合に挑戦する。
コードブックの崩壊、不安定な勾配推定、モダリティ固有の符号化制約など、重要な課題を特定する。
論文 参考訳(メタデータ) (2025-07-21T10:52:14Z) - Spatio-Temporal LLM: Reasoning about Environments and Actions [6.341762228330488]
S-temporal」は現在のマルチモーダル大言語モデル(MLLM)に挑戦を促す
近年のMLLMは「s-temporal」のプロンプトを正しく答えることに苦慮している。
我々はこのデータセットに基づいて2時間LLMベースラインを構築した。
論文 参考訳(メタデータ) (2025-07-07T17:59:55Z) - LongLLaDA: Unlocking Long Context Capabilities in Diffusion LLMs [63.580867975515474]
拡散LDMと従来の自己回帰LDMの長文性能を比較検討する。
LLaDAとNTKベースのRoPE外挿法を統合したLongLLaDAを提案する。
論文 参考訳(メタデータ) (2025-06-17T11:45:37Z) - Distilling Transitional Pattern to Large Language Models for Multimodal Session-based Recommendation [67.84581846180458]
セッションベースのレコメンデーション(SBR)は、匿名セッションに基づいて次の項目を予測する。
近年のMultimodal SBR法は、モダリティ学習に単純化された事前学習モデルを用いるが、セマンティック・リッチネスに制限がある。
蒸留パラダイムを拡張し,MSBRの促進のための遷移パターンを分離・整合させる多モードLCM拡張フレームワークTPADを提案する。
論文 参考訳(メタデータ) (2025-04-13T07:49:08Z) - Navigating Motion Agents in Dynamic and Cluttered Environments through LLM Reasoning [69.5875073447454]
本稿では,大規模言語モデル(LLM)によって強化された動作エージェントを,動的・乱雑な環境における自律的なナビゲーションに向けて前進させる。
トレーニング不要なフレームワークは、マルチエージェント調整、クローズドループ計画、動的障害物回避を、リトレーニングや微調整なしでサポートしています。
論文 参考訳(メタデータ) (2025-03-10T13:39:09Z) - Keeping Yourself is Important in Downstream Tuning Multimodal Large Language Model [63.14883657299359]
MLLM(Multi-modal Large Language Models)は、視覚的および言語的推論を統合して、画像キャプションや視覚的質問応答といった複雑なタスクに対処する。
ダウンストリームタスクのためのMLLMのチューニングには,2つの重要な課題がある。タスク-Expert – 事前トレーニングとターゲットデータセット間の分散シフトによってターゲットのパフォーマンスが制限される。
論文 参考訳(メタデータ) (2025-03-06T15:29:13Z) - Prior Knowledge Integration via LLM Encoding and Pseudo Event Regulation for Video Moment Retrieval [23.94611751368491]
本稿では,大言語モデル(LLM)を一般知識の統合に活用し,擬似イベントを時間的コンテンツ配信の先駆けとして活用する可能性について検討する。
これらの制限を克服するために,デコーダの代わりにLLMエンコーダを提案する。
LLMエンコーダを既存のVMRアーキテクチャ、特に核融合モジュールに組み込むための一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-21T04:39:06Z) - StreamBench: Towards Benchmarking Continuous Improvement of Language Agents [63.54557575233165]
大規模言語モデル(LLM)エージェントは、経験から自分自身を改善することができる。
本稿では,LLMエージェントの入力フィードバックシーケンスに対する継続的な改善を評価するためのベンチマークであるStreamBenchを紹介する。
我々の研究は、LLMの効果的なオンライン学習戦略開発への一歩として役立ち、ストリーミングシナリオにおけるより適応的なAIシステムへの道を開いた。
論文 参考訳(メタデータ) (2024-06-13T02:08:28Z) - Sparsity-Guided Holistic Explanation for LLMs with Interpretable
Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。
LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。
本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文 参考訳(メタデータ) (2023-12-22T19:55:58Z) - HiLM-D: Enhancing MLLMs with Multi-Scale High-Resolution Details for Autonomous Driving [44.06475712570428]
HiLM-D は ROLISP 用の MLLM の視覚情報処理を強化するリソース効率のよいフレームワークである。
本手法は, 自律走行シナリオにおける主要な変動が運動軌跡であるという事実に動機付けられている。
実験の結果、HiLM-Dは現在のMLLMよりも大幅に改善され、BLEU-4のキャプションは3.7%、mIoUの8.7%が検出された。
論文 参考訳(メタデータ) (2023-09-11T01:24:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。