論文の概要: Semantic Attention Flow Fields for Dynamic Scene Decomposition
- arxiv url: http://arxiv.org/abs/2303.01526v1
- Date: Thu, 2 Mar 2023 19:00:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-06 17:13:53.888012
- Title: Semantic Attention Flow Fields for Dynamic Scene Decomposition
- Title(参考訳): 動的シーン分解のための意味的注意流場
- Authors: Yiqing Liang, Eliot Laidlaw, Alexander Meyerowitz, Srinath Sridhar,
James Tompkin
- Abstract要約: SAFFは、カジュアルモノクラービデオの動的ニューラルボリューム再構成である。
任意の時空ビューにおいて、背景から有意な前景オブジェクトを別々に識別する。
RGBや深度復元の品質に影響を与えずに,SAFFは動的シーンを分解できることを示す。
- 参考スコア(独自算出の注目度): 78.18703454279081
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present SAFF: a dynamic neural volume reconstruction of a casual monocular
video that consists of time-varying color, density, scene flow, semantics, and
attention information. The semantics and attention let us identify salient
foreground objects separately from the background in arbitrary spacetime views.
We add two network heads to represent the semantic and attention information.
For optimization, we design semantic attention pyramids from DINO-ViT outputs
that trade detail with whole-image context. After optimization, we perform a
saliency-aware clustering to decompose the scene. For evaluation on real-world
dynamic scene decomposition across spacetime, we annotate object masks in the
NVIDIA Dynamic Scene Dataset. We demonstrate that SAFF can decompose dynamic
scenes without affecting RGB or depth reconstruction quality, that
volume-integrated SAFF outperforms 2D baselines, and that SAFF improves
foreground/background segmentation over recent static/dynamic split methods.
Project Webpage: https://visual.cs.brown.edu/saff
- Abstract(参考訳): 本稿では,時間変化色,密度,シーンフロー,意味論,注意情報からなる,カジュアルな単眼映像の動的神経容積再構成について述べる。
セマンティクスと注意により、任意の時空ビューで背景から有意な前景オブジェクトを識別できる。
セマンティックおよびアテンション情報を表すために2つのネットワークヘッドを追加します。
最適化のために、画像全体のコンテキストで詳細を交換するdino-vit出力から意味的注意ピラミッドを設計する。
最適化後、シーンを分解するサリエンシ対応クラスタリングを行う。
実世界の動的シーン分解を時空で評価するために,NVIDIA Dynamic Scene Datasetのオブジェクトマスクに注釈を付ける。
我々は,SAFFがRGBや深さ再構成の品質に影響を与えずに動的シーンを分解できること,ボリューム積分SAFFが2次元ベースラインより優れていること,SAFFが最近の静的/動的分割法よりも前景/背景セグメンテーションを改善することを実証した。
プロジェクトWebページ: https://visual.cs.brown.edu/saff
関連論文リスト
- Self-supervised Learning of Neural Implicit Feature Fields for Camera Pose Refinement [32.335953514942474]
本稿では,3次元の高密度特徴場と2次元の特徴抽出器を併用してシーン表現を共同学習することを提案する。
暗黙の場に符号化された中間的幾何情報を活用するために、ボリュームレンダリングを通してシーンの基盤となる幾何学を学習し、特徴体を設計する。
次に、画像ベースの機能とレンダリングされたボリューム機能を調整することで、視覚的なローカライゼーションを実現する。
論文 参考訳(メタデータ) (2024-06-12T17:51:53Z) - Hyperbolic Contrastive Learning for Visual Representations beyond
Objects [30.618032825306187]
我々は,それらの間の構造を保ったオブジェクトやシーンの表現を学習することに集中する。
視覚的に類似した物体が表現空間に近接しているという観察に触発された私たちは、シーンとオブジェクトは代わりに階層構造に従うべきだと論じる。
論文 参考訳(メタデータ) (2022-12-01T16:58:57Z) - Learning To Segment Dominant Object Motion From Watching Videos [72.57852930273256]
我々は,有意な移動物体セグメンテーションのための単純なフレームワークを構想する。このフレームワークは,有意なデータを必要としないし,有意な前処理や事前学習された光フローマップに依存しない。
層状画像表現に着想を得て,アフィンパラメトリックの動きに応じて画素領域をグループ化する手法を提案する。
これにより、トレーニングと推論の両方の入力として、RGBイメージペアのみを使用して、支配的なフォアグラウンドオブジェクトのセグメンテーションを学習することができる。
論文 参考訳(メタデータ) (2021-11-28T14:51:00Z) - Weakly Supervised Learning of Rigid 3D Scene Flow [81.37165332656612]
本研究では,剛体体として動くエージェント群によって説明できる3次元シーンを多用したデータ駆動シーンフロー推定アルゴリズムを提案する。
4種類の自律運転データセットにおいて,提案手法の有効性と一般化能力を示す。
論文 参考訳(メタデータ) (2021-02-17T18:58:02Z) - Generating Masks from Boxes by Mining Spatio-Temporal Consistencies in
Videos [159.02703673838639]
フレーム毎のバウンディングボックスアノテーションからセグメンテーションマスクを生成する手法を動画で紹介します。
得られた正確なマスクを用いて、ビデオオブジェクトセグメンテーション(VOS)ネットワークの弱い教師付きトレーニングを行う。
追加データは、VOSとより困難なトラッキングドメインの両方で最先端の結果をもたらす大幅に優れた一般化パフォーマンスを提供します。
論文 参考訳(メタデータ) (2021-01-06T18:56:24Z) - Neural Scene Graphs for Dynamic Scenes [57.65413768984925]
動的シーンをシーングラフに分解する最初のニューラルレンダリング手法を提案する。
我々は暗黙的に符号化されたシーンと、単一の暗黙の関数でオブジェクトを記述するために共同で学習された潜在表現を組み合わせる。
論文 参考訳(メタデータ) (2020-11-20T12:37:10Z) - Semantic Scene Completion using Local Deep Implicit Functions on LiDAR
Data [4.355440821669468]
本稿では,シーン補完のための新しい学習手法として,局所的な深層インプリシット関数に基づくシーン分割ネットワークを提案する。
この連続表現は、空間的離散化を必要とせず、広い屋外シーンの幾何学的・意味的な特性を符号化するのに適していることを示す。
実験により,本手法が与えられたシーンの高密度な3次元記述にデコード可能な強力な表現を生成することを確認した。
論文 参考訳(メタデータ) (2020-11-18T07:39:13Z) - DyStaB: Unsupervised Object Segmentation via Dynamic-Static
Bootstrapping [72.84991726271024]
我々は,コヒーレントなシーン全体を移動しているように見えるシーンの画像の一部を検出し,分割するための教師なしの手法について述べる。
提案手法はまず,セグメント間の相互情報を最小化することにより,運動場を分割する。
セグメントを使用してオブジェクトモデルを学習し、静的なイメージの検出に使用することができる。
論文 参考訳(メタデータ) (2020-08-16T22:05:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。