論文の概要: OmniStream: Mastering Perception, Reconstruction and Action in Continuous Streams
- arxiv url: http://arxiv.org/abs/2603.12265v1
- Date: Thu, 12 Mar 2026 17:59:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:26.306005
- Title: OmniStream: Mastering Perception, Reconstruction and Action in Continuous Streams
- Title(参考訳): OmniStream: 継続的ストリームにおけるパーセプション、再構築、アクションのマスタリング
- Authors: Yibin Yan, Jilan Xu, Shangzhe Di, Haoning Wu, Weidi Xie,
- Abstract要約: 現代の視覚エージェントは、リアルタイムストリーミング環境で動作するために、一般的な、因果的、物理的に構造化された表現を必要とする。
本稿では,多様な視覚入力を効果的に知覚し,再構成し,動作させる,統合されたストリーミング視覚バックボーンであるOmniStreamを紹介する。
- 参考スコア(独自算出の注目度): 57.22276728212066
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern visual agents require representations that are general, causal, and physically structured to operate in real-time streaming environments. However, current vision foundation models remain fragmented, specializing narrowly in image semantic perception, offline temporal modeling, or spatial geometry. This paper introduces OmniStream, a unified streaming visual backbone that effectively perceives, reconstructs, and acts from diverse visual inputs. By incorporating causal spatiotemporal attention and 3D rotary positional embeddings (3D-RoPE), our model supports efficient, frame-by-frame online processing of video streams via a persistent KV-cache. We pre-train OmniStream using a synergistic multi-task framework coupling static and temporal representation learning, streaming geometric reconstruction, and vision-language alignment on 29 datasets. Extensive evaluations show that, even with a strictly frozen backbone, OmniStream achieves consistently competitive performance with specialized experts across image and video probing, streaming geometric reconstruction, complex video and spatial reasoning, as well as robotic manipulation (unseen at training). Rather than pursuing benchmark-specific dominance, our work demonstrates the viability of training a single, versatile vision backbone that generalizes across semantic, spatial, and temporal reasoning, i.e., a more meaningful step toward general-purpose visual understanding for interactive and embodied agents.
- Abstract(参考訳): 現代の視覚エージェントは、リアルタイムストリーミング環境で動作するために、一般的な、因果的、物理的に構造化された表現を必要とする。
しかし、現在の視覚基盤モデルは断片化され続けており、画像意味認識、オフライン時間モデリング、空間幾何学に特化している。
本稿では,多様な視覚入力を効果的に知覚し,再構成し,動作させる,統合されたストリーミング視覚バックボーンであるOmniStreamを紹介する。
因果時空間の注意と3次元回転位置埋め込み(3D-RoPE)を組み込むことで,ビデオストリームのフレームごとの効率的なオンライン処理を支援する。
我々は,静的および時間的表現学習,ストリーミング幾何再構成,29データセット上の視覚言語アライメントを結合した相乗的マルチタスクフレームワークを用いて,OmniStreamを事前訓練する。
OmniStreamは、厳格に凍結されたバックボーンでも、画像とビデオのプロービング、ストリーミング幾何学的再構成、複雑なビデオと空間的推論、ロボット操作(訓練中に見えない)など、専門家と一貫して競争力を発揮する。
我々の研究は、ベンチマーク固有の優位性を追求するよりも、意味論、空間論、時間的推論をまたいで一般化する単一の多目的視覚バックボーンをトレーニングする可能性、すなわち対話的で具体化されたエージェントに対する汎用的な視覚的理解に向けたより有意義なステップを示す。
関連論文リスト
- PROSPECT: Unified Streaming Vision-Language Navigation via Semantic--Spatial Fusion and Latent Predictive Representation [16.793561218827723]
マルチモーダル大言語モデル(MLLM)は、高度なゼロショット・エンド・エンド・エンド・ビジョン・ランゲージナビゲーション(VLN)を持つ。
本稿では,VLA (Stream Vision-Language-Action) ポリシーと潜在予測表現学習を組み合わせた統合型ストリーミングナビゲーションエージェント PROSPECT を提案する。
論文 参考訳(メタデータ) (2026-03-04T05:19:20Z) - Learning Spatio-Temporal Feature Representations for Video-Based Gaze Estimation [50.05866669110754]
映像に基づく視線推定手法は、複数の画像フレームから人間の視線の本質的な時間的ダイナミクスを捉えることを目的としている。
本稿では、CNNバックボーンと専用のチャンネルアテンションと自己注意モジュールを組み合わせたモデルであるSpatio-Temporal Gaze Network(ST-Gaze)を提案する。
そこで本研究では,ST-Gazeが個人固有の適応を伴わずとも最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2025-12-19T15:15:58Z) - STream3R: Scalable Sequential 3D Reconstruction with Causal Transformer [72.88105562624838]
本稿では,ポイントマップ予測をデコーダのみの変換器問題として再構成する新しい3次元再構成手法STream3Rを提案する。
大規模な3Dデータセットから幾何学的先行性を学ぶことで、STream3Rは多様で困難なシナリオにうまく一般化する。
この結果から,オンライン3次元知覚のための因果変換モデルの可能性を浮き彫りにし,ストリーミング環境におけるリアルタイム3次元理解の道を開いた。
論文 参考訳(メタデータ) (2025-08-14T17:58:05Z) - Learning Streaming Video Representation via Multitask Training [38.83730146750222]
オフラインの動画理解とは異なり、ストリーミングビデオ理解にはフレーム単位でビデオストリームを処理し、過去の情報を保存し、低レイテンシの決定を行う能力が必要である。
本稿では,事前学習した視覚変換器に因果的注意を組み込むことにより,StreamFormerと呼ばれる新しいストリーミングビデオバックボーンを開発する。
オンラインアクション検出、オンラインビデオインスタンスセグメンテーション、およびビデオ質問応答に関する広範な実験を行う。
論文 参考訳(メタデータ) (2025-04-28T17:59:54Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - Spatio-temporal Tendency Reasoning for Human Body Pose and Shape
Estimation from Videos [10.50306784245168]
ビデオから人体ポーズの形状を復元するための時間的傾向推論(STR)ネットワークを提案する。
我々のSTRは、制約のない環境で正確で空間的な動きのシーケンスを学習することを目的としている。
STRは3つのデータセットの最先端と競合し続けています。
論文 参考訳(メタデータ) (2022-10-07T16:09:07Z) - GTA: Global Temporal Attention for Video Action Understanding [51.476605514802806]
空間的注意を軸にグローバルな時間的注目を行うグローバルテンポラルアテンション(AGT:Global Temporal Attention)を分離的に紹介します。
2Dおよび3Dネットワーク上でのテストは、我々のアプローチが時間的モデリングを一貫して強化し、3つのビデオアクション認識データセットに対して最先端のパフォーマンスを提供することを示す。
論文 参考訳(メタデータ) (2020-12-15T18:58:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。