論文の概要: Global Occlusion-Aware Transformer for Robust Stereo Matching
- arxiv url: http://arxiv.org/abs/2312.14650v1
- Date: Fri, 22 Dec 2023 12:34:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-25 15:05:13.905576
- Title: Global Occlusion-Aware Transformer for Robust Stereo Matching
- Title(参考訳): ロバストステレオマッチングのためのグローバルオクルージョンアウェアトランスフォーマ
- Authors: Zihua Liu, Yizhou Li and Masatoshi Okutomi
- Abstract要約: 本稿では,Global Occlusion-Aware Transformer(GOAT)と呼ばれる新しいアテンションベースのステレオマッチングネットワークを提案する。
GOATは、長距離依存とOcclusion-Awarenessグローバルコンテキストを不一致推定に活用する。
提案したGOATは,特に閉鎖領域において,すべてのベンチマークにおいて優れた性能を示す。
- 参考スコア(独自算出の注目度): 11.655465312241699
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the remarkable progress facilitated by learning-based stereo-matching
algorithms, the performance in the ill-conditioned regions, such as the
occluded regions, remains a bottleneck. Due to the limited receptive field,
existing CNN-based methods struggle to handle these ill-conditioned regions
effectively. To address this issue, this paper introduces a novel
attention-based stereo-matching network called Global Occlusion-Aware
Transformer (GOAT) to exploit long-range dependency and occlusion-awareness
global context for disparity estimation. In the GOAT architecture, a parallel
disparity and occlusion estimation module PDO is proposed to estimate the
initial disparity map and the occlusion mask using a parallel attention
mechanism. To further enhance the disparity estimates in the occluded regions,
an occlusion-aware global aggregation module (OGA) is proposed. This module
aims to refine the disparity in the occluded regions by leveraging restricted
global correlation within the focus scope of the occluded areas. Extensive
experiments were conducted on several public benchmark datasets including
SceneFlow, KITTI 2015, and Middlebury. The results show that the proposed GOAT
demonstrates outstanding performance among all benchmarks, particularly in the
occluded regions.
- Abstract(参考訳): 学習に基づくステレオマッチングアルゴリズムによる顕著な進歩にもかかわらず、オクルード領域などの不条件領域のパフォーマンスは依然としてボトルネックとなっている。
受容領域が限られているため、既存のCNNベースの手法はこれらの不条件領域を効果的に扱うのに苦労する。
この問題に対処するため,本稿では,長距離依存とオクルージョン・アウェアネスのグローバルコンテキストを活用する,GOAT(Global Occlusion-Aware Transformer)と呼ばれる新しいアテンションベースのステレオマッチングネットワークを提案する。
ヤギアーキテクチャにおいて, 初期偏差マップと咬合マスクを並列注意機構を用いて推定するために, 並列偏差・咬合推定モジュールpdoが提案されている。
閉塞領域における不均一性の推定をさらに高めるため,OGA (Oocclusion-aware Global aggregate module) を提案する。
本モジュールは、オクルード領域の焦点範囲内で制限されたグローバル相関を利用して、オクルード領域の格差を洗練することを目的としている。
sceneflow, kitti 2015, middleburyなど,いくつかの公開ベンチマークデータセットで広範な実験が行われた。
その結果,提案手法はすべてのベンチマーク,特にオクルード領域において有意な性能を示した。
関連論文リスト
- Locally Estimated Global Perturbations are Better than Local Perturbations for Federated Sharpness-aware Minimization [81.32266996009575]
フェデレートラーニング(FL)では、クライアント間の複数ステップの更新とデータの均一性が、よりシャープなミニマによるロスランドスケープにつながることが多い。
クライアント側におけるグローバルな摂動方向を局所的に推定する新しいアルゴリズムであるFedLESAMを提案する。
論文 参考訳(メタデータ) (2024-05-29T08:46:21Z) - CMU-Flownet: Exploring Point Cloud Scene Flow Estimation in Occluded Scenario [10.852258389804984]
閉塞はLiDARデータにおける点雲フレームのアライメントを妨げるが、シーンフローモデルでは不十分な課題である。
本稿では,CMU-Flownet(Relational Matrix Upsampling Flownet)を提案する。
CMU-Flownetは、隠されたFlyingthings3DとKITTYデータセットの領域内で、最先端のパフォーマンスを確立する。
論文 参考訳(メタデータ) (2024-04-16T13:47:21Z) - Region-aware Distribution Contrast: A Novel Approach to Multi-Task Partially Supervised Learning [50.88504784466931]
マルチタスク密度予測にはセマンティックセグメンテーション、深さ推定、表面正規推定が含まれる。
既存のソリューションは通常、グローバルなクロスタスク画像マッチングのためのグローバルなイメージ表現の学習に依存している。
本提案では,ガウス分布を用いた地域表現をモデル化する。
論文 参考訳(メタデータ) (2024-03-15T12:41:30Z) - Digging Into Normal Incorporated Stereo Matching [18.849192633442453]
NDP(Non-local Disparity propagation)とARL(Affinity-aware residual Learning)という2つのモジュールからなる通常の統合型共同学習フレームワークを提案する。
この作業が完了するまでに、我々のアプローチは、KITTI 2015データセットにおける前景ピクセル間のステレオマッチングで1位、Scene Flowデータセットで3位にランクインしました。
論文 参考訳(メタデータ) (2024-02-28T09:01:50Z) - Progressive Feature Self-reinforcement for Weakly Supervised Semantic
Segmentation [55.69128107473125]
Weakly Supervised Semantic (WSSS) のイメージレベルラベルを用いたシングルステージアプローチを提案する。
我々は、画像内容が決定論的領域(例えば、自信ある前景と背景)と不確実領域(例えば、オブジェクト境界と誤分類されたカテゴリ)に適応的に分割して、別々の処理を行う。
そこで我々は,これらの自信のある領域と同一のクラスラベルを持つ拡張画像とのセマンティック一貫性を制約する補完的な自己強調手法を提案する。
論文 参考訳(メタデータ) (2023-12-14T13:21:52Z) - Region Generation and Assessment Network for Occluded Person
Re-Identification [43.49129366128688]
個人再識別(ReID)は近年,幅広い応用分野において,より重要な役割を担っている。
ほとんどの手法は、ボディ部分の特定やマッチング戦略の活用に外部ツールを活用することで、このような課題に対処する。
人体領域を効果的かつ効率的に検出する領域生成評価ネットワーク(RGANet)を提案する。
論文 参考訳(メタデータ) (2023-09-07T08:41:47Z) - Coupling Global Context and Local Contents for Weakly-Supervised
Semantic Segmentation [54.419401869108846]
Weakly Supervised Semantic (WSSS)モデルを提案する。
グローバルなオブジェクトコンテキストを異なる粒度空間でキャプチャするために,フレキシブルなコンテキストアグリゲーションモジュールを提案する。
局所的な細粒度を集約するために、ボトムアップパラメータ学習可能な方法で意味的に一貫した特徴融合モジュールを提案する。
論文 参考訳(メタデータ) (2023-04-18T15:29:23Z) - Error-Aware Spatial Ensembles for Video Frame Interpolation [50.63021118973639]
近年,ビデオフレーム(VFI)アルゴリズムは,データ駆動アルゴリズムと実装の両面で前例のない進歩により,大幅に改善されている。
近年の研究では、挑戦的なVFIシナリオに対処する手段として、高度な動き推定や新しいワープ手法が導入されている。
本研究は、光フローとIEの相関関係を詳細に検討することにより、中間フレームを異なるIEレベルに対応する異なる領域に分割する新しいエラー予測指標を提案する。
論文 参考訳(メタデータ) (2022-07-25T16:15:38Z) - Realtime Global Attention Network for Semantic Segmentation [4.061739586881057]
セマンティックセグメンテーションのための統合グローバルアテンションニューラルネットワーク(RGANet)を提案する。
これらのグローバルアテンションモジュールを変換の階層に統合することで、評価指標のパフォーマンスが向上する。
論文 参考訳(メタデータ) (2021-12-24T04:24:18Z) - Local-Global Associative Frame Assemble in Video Re-ID [57.7470971197962]
ビデオ列から自動生成されたオブジェクト境界ボックスにおける雑音および非表現フレームは、ビデオ再識別(Re-ID)における識別表現の学習に困難をもたらす
既存の手法の多くは、局所的な部分アライメントまたはグローバルな外観相関によって、ビデオフレームの重要性を個別に評価することで、この問題に対処している。
本研究では,局所的なアライメントとグローバルな相関関係を共同で検討し,相互の促進・強化について考察する。
論文 参考訳(メタデータ) (2021-10-22T19:07:39Z) - Region attention and graph embedding network for occlusion objective
class-based micro-expression recognition [26.5638344747854]
マイクロ圧縮認識(textbfMER)は10年間にわたって多くの研究者の注目を集めてきた。
本稿では,MER,ie,occlusion MERにおける興味深いが未解明の課題を深く研究する。
種々の顔領域間の関係をモデル化するために、アンダーラインRegionにインスパイアされたアンダーラインリレーションアンダーラインネットワーク(textbfRRRN)を提案する。
論文 参考訳(メタデータ) (2021-07-13T08:04:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。