論文の概要: SLARM: Streaming and Language-Aligned Reconstruction Model for Dynamic Scenes
- arxiv url: http://arxiv.org/abs/2603.22893v2
- Date: Wed, 25 Mar 2026 03:55:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 14:25:26.07603
- Title: SLARM: Streaming and Language-Aligned Reconstruction Model for Dynamic Scenes
- Title(参考訳): SLARM:動的シーンのストリーミングと言語対応再構成モデル
- Authors: Zhicheng Qiu, Jiarui Meng, Tong-an Luo, Yican Huang, Xuan Feng, Xuanfu Li, ZHan Xu,
- Abstract要約: SLARMは動的シーン再構成、セマンティック理解、リアルタイムストリーミング推論を統合するフィードフォワードモデルである。
高次モーションモデリングによって複雑な、一様でない動きをキャプチャし、フローの監督なしに、微分可能なレンダリングのみを訓練する。
SLARMは、ウィンドウベースの因果注意を用いて画像シーケンスを処理し、メモリコストを蓄積することなく、安定した低レイテンシのストリーミング推論を実現する。
- 参考スコア(独自算出の注目度): 9.44079073767086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose SLARM, a feed-forward model that unifies dynamic scene reconstruction, semantic understanding, and real-time streaming inference. SLARM captures complex, non-uniform motion through higher-order motion modeling, trained solely on differentiable renderings without any flow supervision. Besides, SLARM distills semantic features from LSeg to obtain language-aligned representations. This design enables semantic querying via natural language, and the tight coupling between semantics and geometry further enhances the accuracy and robustness of dynamic reconstruction. Moreover, SLARM processes image sequences using window-based causal attention, achieving stable, low-latency streaming inference without accumulating memory cost. Within this unified framework, SLARM achieves state-of-the-art results in dynamic estimation, rendering quality, and scene parsing, improving motion accuracy by 21%, reconstruction PSNR by 1.6 dB, and segmentation mIoU by 20% over existing methods.
- Abstract(参考訳): 本稿では,動的なシーン再構成,意味理解,リアルタイムストリーミング推論を統合化するためのフィードフォワードモデルSLARMを提案する。
SLARMは高次モーションモデリングによって複雑な、一様でない動きをキャプチャし、フローの監督なしに差別化可能なレンダリングのみを訓練する。
さらに、SLARMはLSegから意味的特徴を抽出して言語対応表現を得る。
この設計により、自然言語によるセマンティッククエリが可能となり、セマンティックスと幾何学の密結合により、動的再構成の精度と堅牢性がさらに向上する。
さらに、SLARMは、ウィンドウベースの因果注意を用いて画像シーケンスを処理し、メモリコストを蓄積することなく、安定した低レイテンシのストリーミング推論を実現する。
この統合フレームワークにおいて、SLARMは動的推定、レンダリング品質、シーン解析、動きの精度を21%向上、PSNRを1.6dB、セグメンテーションmIoUを20%向上させる。
関連論文リスト
- DynaPURLS: Dynamic Refinement of Part-aware Representations for Skeleton-based Zero-Shot Action Recognition [51.80782323686666]
textbfDynaPURLSは、堅牢でマルチスケールなビジュアル・セマンティック対応を確立する統一的なフレームワークである。
我々のフレームワークは、グローバルな動きと局所的な身体部分のダイナミクスの両方を含む階層的なテキスト記述を生成するために、大きな言語モデルを活用する。
NTU RGB+D 60/120とPKU-MMDを含む3つの大規模ベンチマークデータセットの実験は、DynaPURLSが先行技術よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2025-12-12T10:39:10Z) - DynaMind: Reconstructing Dynamic Visual Scenes from EEG by Aligning Temporal Dynamics and Multimodal Semantics to Guided Diffusion [10.936858717759156]
我々は、ニューラルダイナミクスとセマンティックな特徴を共同でモデリングすることで、映像を再構成する新しいフレームワークであるDynaMindを紹介する。
SEED-DVデータセットでは、DynaMindが新しい最先端(SOTA)を設定し、再構成されたビデオの精度を12.5と10.3%向上させた。
これは重要な進歩であり、神経力学と高忠実な視覚意味論のギャップを埋める。
論文 参考訳(メタデータ) (2025-09-01T06:52:08Z) - ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer [58.49950218437718]
音声に同期した高忠実で一般化可能な人体動作を生成するための効率的なフレームワークであるReCoMを提案する。
Recurrent Embedded Transformer (RET)は、動的埋め込み正規化(DER)をViT(Vit)コアアーキテクチャに統合する。
モデルロバスト性を高めるため,ノイズ抵抗とクロスドメイン一般化の二重性を持つモデルに,提案したDER戦略を取り入れた。
論文 参考訳(メタデータ) (2025-03-27T16:39:40Z) - Alignment-free HDR Deghosting with Semantics Consistent Transformer [76.91669741684173]
高ダイナミックレンジイメージングは、複数の低ダイナミックレンジ入力から情報を取得し、リアルな出力を生成することを目的としている。
既存の手法では、前景やカメラの動きによって引き起こされる入力フレーム間の空間的ずれに焦点を当てることが多い。
本研究では,SCTNet(Semantics Consistent Transformer)を用いたアライメントフリーネットワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:03:23Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。