論文の概要: StreamingClaw Technical Report
- arxiv url: http://arxiv.org/abs/2603.22120v2
- Date: Thu, 26 Mar 2026 11:06:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 13:32:29.876152
- Title: StreamingClaw Technical Report
- Title(参考訳): StreamingClawテクニカルレポート
- Authors: Jiawei Chen, Zhe Chen, Chaoqun Du, Maokui He, Wei He, Hengtao Li, Qizhen Li, Zide Liu, Hao Ma, Xuhao Pan, Chang Ren, Xudong Rao, Xintian Shen, Chenfeng Wang, Tao Wei, Chengjun Yu, Pengfei Yu, Shengyu Yao, Chunpeng Zhou, Kun Zhan, Lihao Zheng, Pan Zhou, Xuhan Zhu, Yufei Zheng,
- Abstract要約: StreamingClawは、ビデオ理解とインテリジェンスをストリーミングするフレームワークである。
リアルタイムストリーミングの推論、将来のイベントの推論、アクティブなインタラクションをサポートする。
また、現実世界の物理的な環境に合わせて、ストリーミングツールとアクション中心のスキルを提供する。
- 参考スコア(独自算出の注目度): 34.71973506764889
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emerging applications such as embodied intelligence, AI hardware, autonomous driving, and intelligent cockpits rely on a real-time perception-decision-action closed loop, posing stringent challenges for streaming video understanding. However, current agents mostly suffer from fragmented capabilities, such as supporting only offline video understanding, lacking long-term multimodal memory mechanisms, or struggling to achieve real-time reasoning and proactive interaction under streaming input. These shortcomings have become a key bottleneck for preventing agents from sustaining perception, making real-time decisions, and executing closed-loop actions in complex real-world environments, constraining their deployment and potential in dynamic, open physical worlds. To alleviate these issues, we propose StreamingClaw, a unified agent framework for streaming video understanding and embodied intelligence. Beyond maintaining full compatibility with the OpenClaw framework, it natively supports real-time, multimodal streaming interactions. StreamingClaw integrates five core capabilities: (1) It supports real-time streaming reasoning. (2) It supports reasoning about future events and proactive interaction under the online evolution of interaction objectives. (3) It supports multimodal long-term memory storage, hierarchical memory evolution, efficient memory retrieval, and memory sharing across multiple agents. (4) It supports a closed loop of perception-decision-action. In addition to conventional tools and skills, it also provides streaming tools and action-centric skills tailored for real-world physical environments. (5) It is compatible with the OpenClaw framework, allowing it to leverage the resources and support of the open-source community.
- Abstract(参考訳): 組み込みインテリジェンス、AIハードウェア、自律運転、インテリジェントコックピットといった新興アプリケーションは、リアルタイムの知覚-決定-動作のクローズループに依存しており、ストリーミングビデオ理解に厳しい課題を呈している。
しかし、現在のエージェントは、オフラインビデオ理解のみをサポートすること、長期のマルチモーダルメモリ機構の欠如、リアルタイム推論とストリーミング入力下でのアクティブなインタラクションの達成に苦慮している。
これらの欠点は、エージェントが知覚を持続させ、リアルタイムな決定を行い、複雑な現実世界環境でクローズドループアクションを実行し、その展開と、ダイナミックでオープンな物理的な世界での可能性を制限する上で、重要なボトルネックとなっている。
これらの問題を緩和するために,ビデオ理解とインテリジェンスをストリーミングするための統合エージェントフレームワークStreamingClawを提案する。
OpenClawフレームワークとの完全な互換性を維持するだけでなく、リアルタイムでマルチモーダルなストリーミングインタラクションもネイティブにサポートする。
StreamingClawは5つのコア機能を統合している。
2)対話目的のオンライン進化における今後の出来事の推論と積極的相互作用を支援する。
(3)マルチモーダルな長期記憶ストレージ、階層記憶の進化、効率的なメモリ検索、複数のエージェント間でのメモリ共有をサポートする。
(4) 知覚-決定-行動の閉ループを支持する。
従来のツールやスキルに加えて、実際の物理的な環境に適したストリーミングツールやアクション中心のスキルも提供する。
(5) OpenClawフレームワークと互換性があり、オープンソースコミュニティのリソースとサポートを活用することができる。
関連論文リスト
- OmniStream: Mastering Perception, Reconstruction and Action in Continuous Streams [57.22276728212066]
現代の視覚エージェントは、リアルタイムストリーミング環境で動作するために、一般的な、因果的、物理的に構造化された表現を必要とする。
本稿では,多様な視覚入力を効果的に知覚し,再構成し,動作させる,統合されたストリーミング視覚バックボーンであるOmniStreamを紹介する。
論文 参考訳(メタデータ) (2026-03-12T17:59:55Z) - StreamAgent: Towards Anticipatory Agents for Streaming Video Understanding [52.55809460075286]
本稿では,今後のタスク関連情報を含むと思われる時間間隔と空間領域を予測できるStreamAgentを提案する。
我々は,重要な出来事の時間的進行を予測するために,予測エージェントに期待を促すことによって,質問の意味論と歴史的観察を統合する。
提案手法は,応答精度とリアルタイム効率において既存の手法よりも優れており,実世界のストリーミングシナリオの実用的価値を強調している。
論文 参考訳(メタデータ) (2025-08-03T18:15:42Z) - Learning Streaming Video Representation via Multitask Training [38.83730146750222]
オフラインの動画理解とは異なり、ストリーミングビデオ理解にはフレーム単位でビデオストリームを処理し、過去の情報を保存し、低レイテンシの決定を行う能力が必要である。
本稿では,事前学習した視覚変換器に因果的注意を組み込むことにより,StreamFormerと呼ばれる新しいストリーミングビデオバックボーンを開発する。
オンラインアクション検出、オンラインビデオインスタンスセグメンテーション、およびビデオ質問応答に関する広範な実験を行う。
論文 参考訳(メタデータ) (2025-04-28T17:59:54Z) - Streaming Video Understanding and Multi-round Interaction with Memory-enhanced Knowledge [57.01131456894516]
現在のビデオ理解モデルは、長いビデオシーケンスの処理、マルチターン対話のサポート、現実の動的シナリオへの適応に苦労している。
本稿では,ストリーミングビデオ推論と対話インタラクションのためのトレーニング不要フレームワークStreamChatを提案する。
我々のフレームワークは並列システムスケジューリング戦略を取り入れており、処理速度を向上し、レイテンシを低減し、現実世界のアプリケーションで堅牢な性能を保証する。
論文 参考訳(メタデータ) (2025-01-23T08:33:10Z) - InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions [104.90258030688256]
本研究は,ストリーミング映像とオーディオ入力とのリアルタイムインタラクションを実現するために,非絡み合いのストリーミング知覚,推論,メモリ機構を導入している。
このプロジェクトは人間のような認知をシミュレートし、多モーダルな大規模言語モデルが時間とともに継続的かつ適応的なサービスを提供できるようにする。
論文 参考訳(メタデータ) (2024-12-12T18:58:30Z) - DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。
DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。
実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-09T14:04:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。