Fugu-MT 論文翻訳(概要): EMR-MSF: Self-Supervised Recurrent Monocular Scene Flow Exploiting Ego-Motion Rigidity

論文の概要: EMR-MSF: Self-Supervised Recurrent Monocular Scene Flow Exploiting Ego-Motion Rigidity

arxiv url: http://arxiv.org/abs/2309.01296v1
Date: Mon, 4 Sep 2023 00:30:06 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-06 20:24:25.206386
Title: EMR-MSF: Self-Supervised Recurrent Monocular Scene Flow Exploiting Ego-Motion Rigidity
Title（参考訳）: EMR-MSF:Ego-Motion Rigidityを爆発する単眼循環流
Authors: Zijie Jiang, Masatoshi Okutomi
Abstract要約: 自己監督型単分子シーンフロー推定は、単純で経済的なセンサーの設置に注目が集まっている。本稿では,教師あり学習の範囲内でのネットワークアーキテクチャ設計の利点を活かして,EMR-MSFという優れたモデルを提案する。 KITTIのシーンフローベンチマークでは,最先端の自己監督単分子法のSF-all測定値が44%向上した。
参考スコア（独自算出の注目度）: 13.02735046166494
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Self-supervised monocular scene flow estimation, aiming to understand both 3D structures and 3D motions from two temporally consecutive monocular images, has received increasing attention for its simple and economical sensor setup. However, the accuracy of current methods suffers from the bottleneck of less-efficient network architecture and lack of motion rigidity for regularization. In this paper, we propose a superior model named EMR-MSF by borrowing the advantages of network architecture design under the scope of supervised learning. We further impose explicit and robust geometric constraints with an elaborately constructed ego-motion aggregation module where a rigidity soft mask is proposed to filter out dynamic regions for stable ego-motion estimation using static regions. Moreover, we propose a motion consistency loss along with a mask regularization loss to fully exploit static regions. Several efficient training strategies are integrated including a gradient detachment technique and an enhanced view synthesis process for better performance. Our proposed method outperforms the previous self-supervised works by a large margin and catches up to the performance of supervised methods. On the KITTI scene flow benchmark, our approach improves the SF-all metric of the state-of-the-art self-supervised monocular method by 44% and demonstrates superior performance across sub-tasks including depth and visual odometry, amongst other self-supervised single-task or multi-task methods.
Abstract（参考訳）: 2つの時間的連続した単眼画像から3次元構造と3次元運動の両方を理解することを目的とした自己監督型単眼シーンフロー推定は、そのシンプルで経済的なセンサー構成に注目が集まっている。しかし、現在の手法の精度は、より効率的なネットワークアーキテクチャのボトルネックと正規化のための運動剛性の欠如に悩まされている。本稿では,教師あり学習の範囲内でのネットワークアーキテクチャ設計の利点を活かして,EMR-MSFという優れたモデルを提案する。さらに,厳密に構築されたエゴモーションアグリゲーションモジュールを用いて,静的領域を用いた安定なエゴモーション推定のための動的領域をフィルタリングする剛性ソフトマスクを提案することで,明示的かつ堅牢な幾何的制約を課す。さらに,静的領域を完全に活用するためのマスク正規化損失とともに,動きの整合性損失を提案する。グラデーション分離技術や改良されたビュー合成プロセスなど、より効率的なトレーニング戦略が統合され、パフォーマンスが向上している。提案手法は,従来の自己監督作業よりも大きなマージンで性能を向上し,教師付き手法の性能に追いつく。 kitti scene flowベンチマークでは,最先端の自己教師付き単眼法のsf-allメトリックを44%改善し,奥行きや視覚のオドメトリーなどのサブタスクに対して,他の自己教師付きシングルタスクやマルチタスクメソッドよりも優れたパフォーマンスを示す。

関連論文リスト

S3MOT: Monocular 3D Object Tracking with Selective State Space Model [3.5047603107971397]
3次元空間における多物体追跡は、ロボット工学とコンピュータ応用の進歩に不可欠である。 2Dビデオストリームからの3Dアソシエーションのマイニングが難しいため、モノラルなセットアップでは依然として大きな課題である。モノクローナル3次元MOTのための不均一なキューの融合を促進するための3つの革新的な技術を提案する。
論文参考訳（メタデータ） (2025-04-25T04:45:35Z)
CL-MVSNet: Unsupervised Multi-view Stereo with Dual-level Contrastive Learning [32.65909515998849]
CL-MVSNetという2段階のコントラスト学習手法を提案する。具体的には、2つの対照的な分岐を教師なしMVSフレームワークに統合し、追加の監視信号を構築する。提案手法は,すべてのエンドツーエンドのMVSフレームワークの最先端性能を達成し,微調整を行なわずに教師付きフレームワークをかなりの差で上回っている。
論文参考訳（メタデータ） (2025-03-11T09:39:06Z)
An Efficient Occupancy World Model via Decoupled Dynamic Flow and Image-assisted Training [50.71892161377806]
DFIT-OccWorldは、分離されたダイナミックフローとイメージアシストトレーニング戦略を活用する、効率的な3D占有世界モデルである。提案モデルでは, 静止ボクセルはポーズ変換により容易に得られるのに対し, 既存のボクセルフローを用いて既存の観測を歪曲することで, 将来のダイナミックボクセルを予測できる。
論文参考訳（メタデータ） (2024-12-18T12:10:33Z)
ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文参考訳（メタデータ） (2024-11-12T11:32:56Z)
Low-Light Video Enhancement via Spatial-Temporal Consistent Illumination and Reflection Decomposition [68.6707284662443]
低照度ビデオエンハンスメント(LLVE)は、激しい視認性とノイズに悩まされる動的および静的なシーンの復元を目指している。 1つの重要な側面は、時間空間照明と外観強化バージョンに特化した一貫性の制約を定式化することである。本稿では,レチネックスを基盤とした革新的なビデオ分解戦略について述べる。
論文参考訳（メタデータ） (2024-05-24T15:56:40Z)
Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。 AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。 AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文参考訳（メタデータ） (2024-03-12T11:48:49Z)
Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文参考訳（メタデータ） (2023-03-14T02:58:27Z)
FG-Depth: Flow-Guided Unsupervised Monocular Depth Estimation [17.572459787107427]
そこで本研究では,典型的な測光損失を代替する流量蒸留損失と,不適切な画素を除去するための前向きフローベースマスクを提案する。提案手法は,KITTIとNYU-Depth-v2の両方のデータセットの最先端結果を実現する。
論文参考訳（メタデータ） (2023-01-20T04:02:13Z)
Dyna-DepthFormer: Multi-frame Transformer for Self-Supervised Depth Estimation in Dynamic Scenes [19.810725397641406]
シーン深度と3次元運動場を協調的に予測する新しいDyna-Depthformerフレームワークを提案する。まず,多視点の相関を一連の自己・横断的層を通じて活用し,深度特徴表現の強化を図る。第2に,動的物体の運動場をセマンティック・プレセプションを使わずに推定するワーピングに基づく運動ネットワークを提案する。
論文参考訳（メタデータ） (2023-01-14T09:43:23Z)
MotionHint: Self-Supervised Monocular Visual Odometry with Motion Constraints [70.76761166614511]
モノクローナルビジュアル・オドメトリー(VO)のための新しい自己教師型アルゴリズムMotionHintを提案する。我々のMotionHintアルゴリズムは、既存のオープンソースSSM-VOシステムに容易に適用できる。
論文参考訳（メタデータ） (2021-09-14T15:35:08Z)
Self-Supervised Multi-Frame Monocular Scene Flow [61.588808225321735]
自己監督学習に基づくマルチフレーム一眼的シーンフローネットワークを導入。自己監督学習に基づく単眼的シーンフロー法における最新の精度を観察する。
論文参考訳（メタデータ） (2021-05-05T17:49:55Z)
Unsupervised Motion Representation Enhanced Network for Action Recognition [4.42249337449125]
連続するフレーム間の動きの表現は、ビデオの理解を大いに促進することが証明されている。効果的な光フロー解決器であるTV-L1法は、抽出した光フローをキャッシュするために時間と費用がかかる。 UF-TSN(UF-TSN)は、軽量な非監視光フロー推定器を組み込んだ、エンドツーエンドのアクション認識手法です。
論文参考訳（メタデータ） (2021-03-05T04:14:32Z)
Efficient Two-Stream Network for Violence Detection Using Separable Convolutional LSTM [0.0]
Separable Convolutional LSTM(SepConvLSTM)と予め訓練されたMobileNetを活用した効率的な2ストリームディープラーニングアーキテクチャを提案する。 SepConvLSTMは、ConvLSTMの各ゲートの畳み込み操作を深さ方向に分離可能な畳み込みに置き換えて構築されます。我々のモデルは、大きくて挑戦的なrwf-2000データセットの精度を2%以上上回っている。
論文参考訳（メタデータ） (2021-02-21T12:01:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。