論文の概要: Amodal Optical Flow
- arxiv url: http://arxiv.org/abs/2311.07761v1
- Date: Mon, 13 Nov 2023 21:21:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 16:21:44.064402
- Title: Amodal Optical Flow
- Title(参考訳): アモーダル光流れ
- Authors: Maximilian Luz, Rohit Mohan, Ahmed Rida Sekkat, Oliver Sawade, Elmar
Matthes, Thomas Brox, Abhinav Valada
- Abstract要約: 本稿では,光フローとアモーダル知覚を統合したアモーダル光フローを紹介する。
AmodalFlowNetは、トランスフォーマーベースのコストボリュームエンコーダで、再カレントトランスフォーマーデコーダと組み合わせている。
データセット、コード、トレーニングされたモデルをhttp://amodal-flow.cs.uni-freiburg.deで公開しています。
- 参考スコア(独自算出の注目度): 31.92612274217902
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optical flow estimation is very challenging in situations with transparent or
occluded objects. In this work, we address these challenges at the task level
by introducing Amodal Optical Flow, which integrates optical flow with amodal
perception. Instead of only representing the visible regions, we define amodal
optical flow as a multi-layered pixel-level motion field that encompasses both
visible and occluded regions of the scene. To facilitate research on this new
task, we extend the AmodalSynthDrive dataset to include pixel-level labels for
amodal optical flow estimation. We present several strong baselines, along with
the Amodal Flow Quality metric to quantify the performance in an interpretable
manner. Furthermore, we propose the novel AmodalFlowNet as an initial step
toward addressing this task. AmodalFlowNet consists of a transformer-based
cost-volume encoder paired with a recurrent transformer decoder which
facilitates recurrent hierarchical feature propagation and amodal semantic
grounding. We demonstrate the tractability of amodal optical flow in extensive
experiments and show its utility for downstream tasks such as panoptic
tracking. We make the dataset, code, and trained models publicly available at
http://amodal-flow.cs.uni-freiburg.de.
- Abstract(参考訳): 光フロー推定は、透明またはオクルードされた物体の場合、非常に困難である。
そこで本研究では,光の流れと運動知覚を統合するアモーダル・オプティカル・フローを導入することで,課題をタスクレベルで解決する。
可視領域のみを表すのではなく、シーンの可視領域と隠蔽領域の両方を含む多層画素レベルの運動場としてアモーダル光フローを定義する。
この新しいタスクの研究を容易にするため、AmodalSynthDriveデータセットを拡張し、アモーダル光フロー推定のためのピクセルレベルラベルを含む。
解析可能な方法で性能を定量化するために,Amodal Flow Qualityメトリックとともに,いくつかの強いベースラインを示す。
さらに,この課題に対処するための最初のステップとして,新しいAmodalFlowNetを提案する。
AmodalFlowNetはトランスフォーマーベースのコストボリュームエンコーダとリカレントトランスフォーマーデコーダを組み合わせることで,階層的特徴伝播とアモーダルセマンティックグラウンドディングを容易にする。
広範に実験を行い,アモーダル光流の流動性を実証し,パンオプティカルトラッキングなどの下流タスクに有用性を示す。
データセット、コード、トレーニングされたモデルをhttp://amodal-flow.cs.uni-freiburg.deで公開しています。
関連論文リスト
- LLMs Can Evolve Continually on Modality for X-Modal Reasoning [62.2874638875554]
既存の手法は、モーダル固有の事前訓練とジョイント・モーダルチューニングに大きく依存しており、新しいモーダルへと拡張する際の計算上の負担が大きくなった。
PathWeaveは、Modal-Path sWitchingとExpAnsion機能を備えた柔軟でスケーラブルなフレームワークである。
PathWeaveは最先端のMLLMと互換性があり、パラメータトレーニングの負担を98.73%削減する。
論文 参考訳(メタデータ) (2024-10-26T13:19:57Z) - OCAI: Improving Optical Flow Estimation by Occlusion and Consistency Aware Interpolation [55.676358801492114]
本稿では,中間映像フレームと光フローを同時に生成することで,フレームのあいまいさを頑健に支援するOCAIを提案する。
我々は,Sintel や KITTI などの既存のベンチマークにおいて,優れた品質と光フロー精度を実証した。
論文 参考訳(メタデータ) (2024-03-26T20:23:48Z) - Motion-Aware Video Frame Interpolation [49.49668436390514]
我々は、連続するフレームから中間光の流れを直接推定する動き対応ビデオフレーム補間(MA-VFI)ネットワークを導入する。
受容場が異なる入力フレームからグローバルな意味関係と空間的詳細を抽出するだけでなく、必要な計算コストと複雑さを効果的に削減する。
論文 参考訳(メタデータ) (2024-02-05T11:00:14Z) - TAO-Amodal: A Benchmark for Tracking Any Object Amodally [41.5396827282691]
TAO-Amodalは,数千の動画シーケンスにおいて833の多様なカテゴリを特徴とする。
私たちのデータセットには、カメラフレームから部分的に外れたものを含む、可視または部分的に、あるいは完全に隠されたオブジェクトのための、テクスタモーダルおよびモーダルバウンディングボックスが含まれています。
論文 参考訳(メタデータ) (2023-12-19T18:58:40Z) - GAFlow: Incorporating Gaussian Attention into Optical Flow [62.646389181507764]
我々はガウス的注意(GA)を光学フローモデルに押し込み、表現学習中に局所特性をアクセントする。
本稿では,既存の Transformer ブロックに簡単に接続可能な新しい Gaussian-Constrained Layer (GCL) を提案する。
動作解析のための新しいガウス誘導注意モジュール(GGAM)を提供する。
論文 参考訳(メタデータ) (2023-09-28T07:46:01Z) - AmodalSynthDrive: A Synthetic Amodal Perception Dataset for Autonomous
Driving [10.928470926399566]
マルチタスク・マルチモーダル・アモーダル認識データセットであるAmodal SynthDriveを紹介する。
このデータセットは、150のドライブシーケンスに対して、マルチビューカメライメージ、3Dバウンディングボックス、LiDARデータ、およびオドメトリーを提供する。
Amodal SynthDriveは、導入されたアモーダル深度推定を含む複数のアモーダルシーン理解タスクをサポートする。
論文 参考訳(メタデータ) (2023-09-12T19:46:15Z) - TransFlow: Transformer as Flow Learner [22.727953339383344]
本稿では,光フロー推定のためのトランスフォーマーアーキテクチャであるTransFlowを提案する。
フロー推定において、より正確な相関と信頼できるマッチングを提供する。
ダイナミックなシーンにおける長距離時間的関連を通して、フロー推定においてより妥協された情報を復元する。
論文 参考訳(メタデータ) (2023-04-23T03:11:23Z) - Dimensions of Motion: Learning to Predict a Subspace of Optical Flow
from a Single Image [50.9686256513627]
本稿では,1つのビデオフレームから,実際の瞬時光フローを含む低次元の光フローのサブスペースを予測する問題を紹介する。
いくつかの自然シーンの仮定によって、不均一性によってパラメータ化されたベースフローフィールドの集合を通して、適切なフロー部分空間を特定できることを示す。
これは、カメラの内在やポーズを必要とせずに、単眼入力ビデオを使用して教師なしの方法でこれらのタスクを学習する新しいアプローチを提供する。
論文 参考訳(メタデータ) (2021-12-02T18:52:54Z) - Unsupervised Motion Representation Enhanced Network for Action
Recognition [4.42249337449125]
連続するフレーム間の動きの表現は、ビデオの理解を大いに促進することが証明されている。
効果的な光フロー解決器であるTV-L1法は、抽出した光フローをキャッシュするために時間と費用がかかる。
UF-TSN(UF-TSN)は、軽量な非監視光フロー推定器を組み込んだ、エンドツーエンドのアクション認識手法です。
論文 参考訳(メタデータ) (2021-03-05T04:14:32Z) - Optical Flow Estimation from a Single Motion-blurred Image [66.2061278123057]
画像内の動きのぼかしは、基本的なコンピュータビジョンの問題に実用的な関心を持つ可能性があります。
本研究では,単一動画像からの光流れをエンドツーエンドで推定する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-03-04T12:45:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。