論文の概要: Attentional Separation-and-Aggregation Network for Self-supervised
Depth-Pose Learning in Dynamic Scenes
- arxiv url: http://arxiv.org/abs/2011.09369v1
- Date: Wed, 18 Nov 2020 16:07:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-24 03:35:14.036051
- Title: Attentional Separation-and-Aggregation Network for Self-supervised
Depth-Pose Learning in Dynamic Scenes
- Title(参考訳): 動的シーンにおける自己教師付き深層学習のための注意分離・集約ネットワーク
- Authors: Feng Gao, Jincheng Yu, Hao Shen, Yu Wang, Huazhong Yang
- Abstract要約: エピポーラプロジェクションからの自己監督によるラベルなしビデオからの深度とエゴモーションの学習は、視覚に基づくロボットの3D知覚の堅牢性と精度を向上させることができる。
しかし、エゴモーションによって計算される剛性プロジェクションは、移動物体の点などすべてのシーンポイントを表現できないため、これらの領域では誤ったガイダンスが導かれる。
本研究では,アテンショナル・アグリゲーション・ネットワーク(ASANet)を提案する。アテンショナル・アグリゲーション・ネットワークは,アテンション・メカニズムによってシーンの静的・動的特性を識別・抽出することができる。
- 参考スコア(独自算出の注目度): 19.704284616226552
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning depth and ego-motion from unlabeled videos via self-supervision from
epipolar projection can improve the robustness and accuracy of the 3D
perception and localization of vision-based robots. However, the rigid
projection computed by ego-motion cannot represent all scene points, such as
points on moving objects, leading to false guidance in these regions. To
address this problem, we propose an Attentional Separation-and-Aggregation
Network (ASANet), which can learn to distinguish and extract the scene's static
and dynamic characteristics via the attention mechanism. We further propose a
novel MotionNet with an ASANet as the encoder, followed by two separate
decoders, to estimate the camera's ego-motion and the scene's dynamic motion
field. Then, we introduce an auto-selecting approach to detect the moving
objects for dynamic-aware learning automatically. Empirical experiments
demonstrate that our method can achieve the state-of-the-art performance on the
KITTI benchmark.
- Abstract(参考訳): エピポーラプロジェクションからの自己監督によるラベルなしビデオからの深度とエゴモーションの学習は、視覚に基づくロボットの3D知覚の堅牢性と精度を向上させる。
しかし、エゴモーションによって計算される剛性プロジェクションは、移動物体の点などすべてのシーンポイントを表現できないため、これらの領域では誤ったガイダンスが導かれる。
この問題に対処するために,アテンショナル・アグリゲーション・ネットワーク(ASANet)を提案する。アテンショナル・アグリゲーション・ネットワークは,アテンション・メカニズムを通じてシーンの静的・動的特性を識別・抽出することができる。
さらに,asanetをエンコーダとして,さらに2つのデコーダを分離して,カメラのエゴモーションとシーンのダイナミックモーションフィールドを推定する新しいモーションネットを提案する。
次に,動的学習のための移動物体を自動的に検出する自動選択手法を提案する。
実験により,本手法がKITTIベンチマークの最先端性能を実現することを示す。
関連論文リスト
- 3D-Aware Instance Segmentation and Tracking in Egocentric Videos [107.10661490652822]
エゴセントリックなビデオは、3Dシーンの理解にユニークな課題を提示する。
本稿では,一対一のビデオにおけるインスタンスのセグメンテーションとトラッキングに対する新しいアプローチを提案する。
空間的および時間的手がかりを取り入れることで、最先端の2D手法と比較して優れた性能が得られる。
論文 参考訳(メタデータ) (2024-08-19T10:08:25Z) - Dynamic Scene Understanding through Object-Centric Voxelization and Neural Rendering [57.895846642868904]
オブジェクト中心学習が可能な動的シーンのための3次元生成モデルDynaVol-Sを提案する。
ボキセル化は、個々の空間的位置において、物体ごとの占有確率を推定する。
提案手法は2次元セマンティックな特徴を統合して3次元セマンティック・グリッドを作成し,複数の不整合ボクセル・グリッドを通してシーンを表現する。
論文 参考訳(メタデータ) (2024-07-30T15:33:58Z) - Optical Flow boosts Unsupervised Localization and Segmentation [22.625511865323183]
ラベルなしビデオにおける光フローを用いた新たな損失項定式化を提案し, 自己教師型VT機能を互いに近づきやすくする。
提案した損失関数を用いて、当初静的画像に基づいて訓練された視覚変換器を微調整する。
論文 参考訳(メタデータ) (2023-07-25T16:45:35Z) - Dyna-DepthFormer: Multi-frame Transformer for Self-Supervised Depth
Estimation in Dynamic Scenes [19.810725397641406]
シーン深度と3次元運動場を協調的に予測する新しいDyna-Depthformerフレームワークを提案する。
まず,多視点の相関を一連の自己・横断的層を通じて活用し,深度特徴表現の強化を図る。
第2に,動的物体の運動場をセマンティック・プレセプションを使わずに推定するワーピングに基づく運動ネットワークを提案する。
論文 参考訳(メタデータ) (2023-01-14T09:43:23Z) - Neural Groundplans: Persistent Neural Scene Representations from a
Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。
本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:41:24Z) - Learning What and Where -- Unsupervised Disentangling Location and
Identity Tracking [0.44040106718326594]
教師なしLOCation and Identity Tracking System(Loci)を導入する。
ローチは脳の背腹側経路にインスパイアされ、自己監督された分離機構を用いて、何とどこにも結合する問題に取り組む。
Lociは、より深い説明指向のビデオ処理のステージを設定できる。
論文 参考訳(メタデータ) (2022-05-26T13:30:14Z) - Attentive and Contrastive Learning for Joint Depth and Motion Field
Estimation [76.58256020932312]
単眼視システムからシーンの3次元構造とともにカメラの動きを推定することは複雑な作業である。
モノクロ映像からの3次元物体運動場推定のための自己教師付き学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-13T16:45:01Z) - 3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文 参考訳(メタデータ) (2021-07-08T17:49:37Z) - Editable Free-viewpoint Video Using a Layered Neural Representation [35.44420164057911]
我々は,スパース16カメラのみを用いた大規模ダイナミックシーンの編集可能な自由視点映像生成のための最初のアプローチを提案する。
私たちのアプローチの核心は、環境そのものを含む各動的エンティティがST-NeRFと呼ばれる時空コヒーレントな神経層放射線表現に定式化される新しい階層化された神経表現です。
実験は,ダイナミックシーンにおける高品質,フォトリアリスティック,編集可能な自由視点映像生成を実現するための手法の有効性を示す。
論文 参考訳(メタデータ) (2021-04-30T06:50:45Z) - Learning to Segment Rigid Motions from Two Frames [72.14906744113125]
本研究では, 運動場から独立物体の動きを復元する幾何学的解析により, モジュラーネットワークを提案する。
2つの連続フレームを入力とし、背景のセグメンテーションマスクと複数の剛体移動オブジェクトを予測し、3次元の剛体変換によってパラメータ化する。
本手法はkittiおよびsintelにおける剛体運動セグメンテーションの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-11T04:20:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。