論文の概要: Semantic Flow: Learning Semantic Field of Dynamic Scenes from Monocular Videos
- arxiv url: http://arxiv.org/abs/2404.05163v1
- Date: Mon, 8 Apr 2024 03:06:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 15:33:28.718524
- Title: Semantic Flow: Learning Semantic Field of Dynamic Scenes from Monocular Videos
- Title(参考訳): セマンティックフロー:モノクロ映像から動的シーンのセマンティックフィールドを学習する
- Authors: Fengrui Tian, Yueqi Duan, Angtian Wang, Jianfei Guo, Shaoyi Du,
- Abstract要約: モノクロビデオから動的シーンをニューラルネットワークで表現するセマンティックフローのパイオニアです。
まず、動的シーン内のフローを予測するフローネットワークを学習し、ビデオフレームからフロー特徴を抽出するフロー特徴集約モジュールを提案する。
そして,フローの特徴から動き情報を抽出するフローアテンションモジュールを提案し,それに続いてセマンティックネットワークを用いてフローの意味ロジットを出力する。
- 参考スコア(独自算出の注目度): 23.275595857385884
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we pioneer Semantic Flow, a neural semantic representation of dynamic scenes from monocular videos. In contrast to previous NeRF methods that reconstruct dynamic scenes from the colors and volume densities of individual points, Semantic Flow learns semantics from continuous flows that contain rich 3D motion information. As there is 2D-to-3D ambiguity problem in the viewing direction when extracting 3D flow features from 2D video frames, we consider the volume densities as opacity priors that describe the contributions of flow features to the semantics on the frames. More specifically, we first learn a flow network to predict flows in the dynamic scene, and propose a flow feature aggregation module to extract flow features from video frames. Then, we propose a flow attention module to extract motion information from flow features, which is followed by a semantic network to output semantic logits of flows. We integrate the logits with volume densities in the viewing direction to supervise the flow features with semantic labels on video frames. Experimental results show that our model is able to learn from multiple dynamic scenes and supports a series of new tasks such as instance-level scene editing, semantic completions, dynamic scene tracking and semantic adaption on novel scenes. Codes are available at https://github.com/tianfr/Semantic-Flow/.
- Abstract(参考訳): 本研究では,モノクラービデオの動的シーンをニューラルネットワークで表現するセマンティックフローのパイオニアとなる。
個々の点の色や体積密度から動的シーンを再構成する従来のNeRF法とは対照的に、セマンティックフローはリッチな3次元モーション情報を含む連続流れから意味学を学ぶ。
本研究では,2次元映像フレームから3次元フロー特徴を抽出する場合の視野方向における2次元から3次元のあいまいさの問題として,フロー特徴のフレーム上のセマンティクスへの寄与を記述した不透明度先行としてボリューム密度を考察する。
より具体的には、動的シーン内のフローを予測するためのフローネットワークを最初に学習し、ビデオフレームからフロー特徴を抽出するフロー特徴集約モジュールを提案する。
そして,フローの特徴から動き情報を抽出するフローアテンションモジュールを提案し,それに続いてセマンティックネットワークを用いてフローの意味ロジットを出力する。
ビデオフレーム上のセマンティックラベルでフロー特徴を監督するために,ロジットとボリューム密度を視方向に統合する。
実験の結果,本モデルは複数の動的シーンから学習可能であり,インスタンスレベルのシーン編集,セマンティック補完,動的シーントラッキング,新規シーンへのセマンティック適応など,一連の新しいタスクをサポートすることがわかった。
コードはhttps://github.com/tianfr/Semantic-Flow/.comで入手できる。
関連論文リスト
- Let Occ Flow: Self-Supervised 3D Occupancy Flow Prediction [14.866463843514156]
Occ Flowは、カメラ入力のみを使用して、関節の3D占有率と占有率の予測を行う最初の自己教師型作業である。
我々のアプローチは、動的オブジェクトの依存関係をキャプチャするために、新しい注意に基づく時間融合モジュールを組み込んでいる。
本手法は3次元容積流れ場に微分可能レンダリングを拡張する。
論文 参考訳(メタデータ) (2024-07-10T12:20:11Z) - Animate Your Motion: Turning Still Images into Dynamic Videos [58.63109848837741]
本稿では,マルチモーダル入力を管理する新しい手法であるScene and Motion Conditional Diffusion (SMCD)を紹介する。
SMCDは、認識されたモーションコンディショニングモジュールを組み込み、シーン条件を統合するための様々なアプローチを調査する。
我々のデザインは映像の品質、動きの精度、セマンティック・コヒーレンスを大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-15T10:36:24Z) - Decoupling Dynamic Monocular Videos for Dynamic View Synthesis [50.93409250217699]
動的モノクロビデオからの動的ビュー合成の課題を教師なしで解決する。
具体的には、動的物体の運動を物体の動きとカメラの動きに分離し、教師なし表面の整合性およびパッチベースのマルチビュー制約によって規則化する。
論文 参考訳(メタデータ) (2023-04-04T11:25:44Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z) - NeuralDiff: Segmenting 3D objects that move in egocentric videos [92.95176458079047]
観測された3次元シーンを静的な背景と動的前景に分解する問題について検討する。
このタスクは、古典的な背景の減算問題を連想させるが、静的でダイナミックなシーンの全ての部分が大きな動きを生じさせるため、非常に難しい。
特に、自我中心のビデオについて検討し、動的コンポーネントを観察・移動するオブジェクトとアクターにさらに分離する。
論文 参考訳(メタデータ) (2021-10-19T12:51:35Z) - Weakly Supervised Learning of Rigid 3D Scene Flow [81.37165332656612]
本研究では,剛体体として動くエージェント群によって説明できる3次元シーンを多用したデータ駆動シーンフロー推定アルゴリズムを提案する。
4種類の自律運転データセットにおいて,提案手法の有効性と一般化能力を示す。
論文 参考訳(メタデータ) (2021-02-17T18:58:02Z) - Hierarchical Attention Learning of Scene Flow in 3D Point Clouds [28.59260783047209]
本稿では,2つの連続する3次元点雲からのシーンフロー推定の問題について検討する。
隣接フレームにおける点特徴の相関を学習するために, 二重注意を有する新しい階層型ニューラルネットワークを提案する。
実験の結果,提案したネットワークは3次元シーンフロー推定の最先端性能より優れていた。
論文 参考訳(メタデータ) (2020-10-12T14:56:08Z) - Self-Supervised Learning of Non-Rigid Residual Flow and Ego-Motion [63.18340058854517]
動的3次元シーンに対する非剛性残留流とエゴ運動流の連成推定によるエンドツーエンドのシーンフロー学習法を提案する。
我々は、点クラウドシーケンスの時間的一貫性性に基づいて、自己監督的な信号で教師付きフレームワークを拡張した。
論文 参考訳(メタデータ) (2020-09-22T11:39:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。