論文の概要: Unifying Flow, Stereo and Depth Estimation
- arxiv url: http://arxiv.org/abs/2211.05783v3
- Date: Wed, 26 Jul 2023 15:42:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-27 16:25:08.963877
- Title: Unifying Flow, Stereo and Depth Estimation
- Title(参考訳): 流れ・ステレオ・深さの統一推定
- Authors: Haofei Xu, Jing Zhang, Jianfei Cai, Hamid Rezatofighi, Fisher Yu,
Dacheng Tao, Andreas Geiger
- Abstract要約: 本稿では3つの動作と3次元知覚タスクのための統一的な定式化とモデルを提案する。
これら3つのタスクを、統一された高密度対応マッチング問題として定式化する。
我々のモデルは、モデルアーキテクチャとパラメータがタスク間で共有されているため、自然にクロスタスク転送を可能にします。
- 参考スコア(独自算出の注目度): 121.54066319299261
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a unified formulation and model for three motion and 3D perception
tasks: optical flow, rectified stereo matching and unrectified stereo depth
estimation from posed images. Unlike previous specialized architectures for
each specific task, we formulate all three tasks as a unified dense
correspondence matching problem, which can be solved with a single model by
directly comparing feature similarities. Such a formulation calls for
discriminative feature representations, which we achieve using a Transformer,
in particular the cross-attention mechanism. We demonstrate that
cross-attention enables integration of knowledge from another image via
cross-view interactions, which greatly improves the quality of the extracted
features. Our unified model naturally enables cross-task transfer since the
model architecture and parameters are shared across tasks. We outperform RAFT
with our unified model on the challenging Sintel dataset, and our final model
that uses a few additional task-specific refinement steps outperforms or
compares favorably to recent state-of-the-art methods on 10 popular flow,
stereo and depth datasets, while being simpler and more efficient in terms of
model design and inference speed.
- Abstract(参考訳): 本稿では,光学的流れ,修正ステレオマッチング,未修正ステレオ深度推定という3つの動作および3次元知覚タスクの統一的な定式化とモデルを提案する。
特定のタスクごとの以前の特殊なアーキテクチャとは異なり、我々は3つのタスクすべてを統一的な密対応マッチング問題として定式化し、特徴の類似性を直接比較することで単一のモデルで解決できる。
このような定式化は、トランスフォーマー、特にクロスアテンション機構を用いて達成される識別的特徴表現を要求する。
我々は,クロスアテンションによって他画像からの知識を相互に統合できることを実証し,抽出した特徴の質を大幅に向上させることを実証した。
私たちの統一モデルは、モデルアーキテクチャとパラメータがタスク間で共有されるため、自然にクロスタスク転送を可能にします。
Sintelデータセットの統一モデルではRAFTよりも優れており、モデル設計や推論速度の点でよりシンプルで効率的でありながら、10の一般的なフロー、ステレオ、ディープデータセットにおける最新の最先端手法よりも優れ、あるいは好適に、タスク固有の改善ステップを使用する最終モデルです。
関連論文リスト
- A Multitask Deep Learning Model for Classification and Regression of Hyperspectral Images: Application to the large-scale dataset [44.94304541427113]
ハイパースペクトル画像上で複数の分類タスクと回帰タスクを同時に行うマルチタスク深層学習モデルを提案する。
我々は、TAIGAと呼ばれる大規模なハイパースペクトルデータセットに対するアプローチを検証した。
結果の総合的定性的および定量的分析により,提案手法が他の最先端手法よりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2024-07-23T11:14:54Z) - RepVF: A Unified Vector Fields Representation for Multi-task 3D Perception [64.80760846124858]
本稿では,様々な知覚タスクの表現を調和させる新しい統一表現RepVFを提案する。
RepVFは、ベクトル場を通じてシーン内の異なるターゲットの構造を特徴付け、シングルヘッドでマルチタスクの学習モデルを可能にする。
RepVF 上に構築された RFTR は,タスク間の固有性を利用したネットワークである。
論文 参考訳(メタデータ) (2024-07-15T16:25:07Z) - SD-MVS: Segmentation-Driven Deformation Multi-View Stereo with Spherical
Refinement and EM optimization [6.886220026399106]
テクスチャレス領域の3次元再構成における課題を解決するために,多視点ステレオ (SD-MVS) を導入する。
私たちは、シーン内のセグメンテーションインスタンスを区別するためにSAM(Segment Anything Model)を採用した最初の人です。
球面座標と正規点の勾配勾配と深度の画素方向探索間隔を組み合わせた独自の精細化戦略を提案する。
論文 参考訳(メタデータ) (2024-01-12T05:25:57Z) - Unifying Correspondence, Pose and NeRF for Pose-Free Novel View Synthesis from Stereo Pairs [57.492124844326206]
この研究は、3次元視覚における挑戦的で先駆的な課題であるステレオペアからのポーズレスノベルビュー合成の課題に踏み込んだ。
我々の革新的なフレームワークは、これまでとは違って、シームレスに2D対応マッチング、カメラポーズ推定、NeRFレンダリングを統合し、これらのタスクの相乗的強化を促進します。
論文 参考訳(メタデータ) (2023-12-12T13:22:44Z) - Multi-task Learning with 3D-Aware Regularization [55.97507478913053]
本稿では,画像エンコーダから抽出した特徴を共有3D特徴空間に投影することで,複数のタスクをインタフェースする構造化3D認識正規化器を提案する。
提案手法はアーキテクチャ非依存であり,従来のマルチタスクバックボーンにプラグインすることで,性能を向上できることを示す。
論文 参考訳(メタデータ) (2023-10-02T08:49:56Z) - CroCo v2: Improved Cross-view Completion Pre-training for Stereo
Matching and Optical Flow [22.161967080759993]
自己教師付き事前学習法は、ステレオマッチングや光学フローのような密集した幾何学的視覚タスクでは、まだ提供されていない。
我々は、同じシーンから2番目のビューを利用するマスク付き画像モデリングのバリエーションである、最近のクロスビュー補完フレームワークの上に構築する。
本稿では,ステレオマッチングと光学的流れに関する最先端の成果を,従来のタスク固有の手法を使わずに到達できることを初めて示す。
論文 参考訳(メタデータ) (2022-11-18T18:18:53Z) - Uni-Perceiver: Pre-training Unified Architecture for Generic Perception
for Zero-shot and Few-shot Tasks [73.63892022944198]
我々はUni-Perceiverという汎用認識アーキテクチャを提案する。
様々なモダリティやタスクを、統一されたモデリングと共有パラメータで処理します。
その結果、チューニングなしで事前学習したモデルは、新しいタスクでも合理的なパフォーマンスを達成できることがわかった。
論文 参考訳(メタデータ) (2021-12-02T18:59:50Z) - PaMIR: Parametric Model-Conditioned Implicit Representation for
Image-based Human Reconstruction [67.08350202974434]
本研究では,パラメトリックボディモデルと自由形深部暗黙関数を組み合わせたパラメトリックモデル記述型暗黙表現(PaMIR)を提案する。
本手法は, 挑戦的なポーズや衣料品のタイプにおいて, 画像に基づく3次元再構築のための最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-08T02:26:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。