論文の概要: Global Occlusion-Aware Transformer for Robust Stereo Matching
- arxiv url: http://arxiv.org/abs/2312.14650v1
- Date: Fri, 22 Dec 2023 12:34:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-25 15:05:13.905576
- Title: Global Occlusion-Aware Transformer for Robust Stereo Matching
- Title(参考訳): ロバストステレオマッチングのためのグローバルオクルージョンアウェアトランスフォーマ
- Authors: Zihua Liu, Yizhou Li and Masatoshi Okutomi
- Abstract要約: 本稿では,Global Occlusion-Aware Transformer(GOAT)と呼ばれる新しいアテンションベースのステレオマッチングネットワークを提案する。
GOATは、長距離依存とOcclusion-Awarenessグローバルコンテキストを不一致推定に活用する。
提案したGOATは,特に閉鎖領域において,すべてのベンチマークにおいて優れた性能を示す。
- 参考スコア(独自算出の注目度): 11.655465312241699
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the remarkable progress facilitated by learning-based stereo-matching
algorithms, the performance in the ill-conditioned regions, such as the
occluded regions, remains a bottleneck. Due to the limited receptive field,
existing CNN-based methods struggle to handle these ill-conditioned regions
effectively. To address this issue, this paper introduces a novel
attention-based stereo-matching network called Global Occlusion-Aware
Transformer (GOAT) to exploit long-range dependency and occlusion-awareness
global context for disparity estimation. In the GOAT architecture, a parallel
disparity and occlusion estimation module PDO is proposed to estimate the
initial disparity map and the occlusion mask using a parallel attention
mechanism. To further enhance the disparity estimates in the occluded regions,
an occlusion-aware global aggregation module (OGA) is proposed. This module
aims to refine the disparity in the occluded regions by leveraging restricted
global correlation within the focus scope of the occluded areas. Extensive
experiments were conducted on several public benchmark datasets including
SceneFlow, KITTI 2015, and Middlebury. The results show that the proposed GOAT
demonstrates outstanding performance among all benchmarks, particularly in the
occluded regions.
- Abstract(参考訳): 学習に基づくステレオマッチングアルゴリズムによる顕著な進歩にもかかわらず、オクルード領域などの不条件領域のパフォーマンスは依然としてボトルネックとなっている。
受容領域が限られているため、既存のCNNベースの手法はこれらの不条件領域を効果的に扱うのに苦労する。
この問題に対処するため,本稿では,長距離依存とオクルージョン・アウェアネスのグローバルコンテキストを活用する,GOAT(Global Occlusion-Aware Transformer)と呼ばれる新しいアテンションベースのステレオマッチングネットワークを提案する。
ヤギアーキテクチャにおいて, 初期偏差マップと咬合マスクを並列注意機構を用いて推定するために, 並列偏差・咬合推定モジュールpdoが提案されている。
閉塞領域における不均一性の推定をさらに高めるため,OGA (Oocclusion-aware Global aggregate module) を提案する。
本モジュールは、オクルード領域の焦点範囲内で制限されたグローバル相関を利用して、オクルード領域の格差を洗練することを目的としている。
sceneflow, kitti 2015, middleburyなど,いくつかの公開ベンチマークデータセットで広範な実験が行われた。
その結果,提案手法はすべてのベンチマーク,特にオクルード領域において有意な性能を示した。
関連論文リスト
- Digging Into Normal Incorporated Stereo Matching [18.849192633442453]
NDP(Non-local Disparity propagation)とARL(Affinity-aware residual Learning)という2つのモジュールからなる通常の統合型共同学習フレームワークを提案する。
この作業が完了するまでに、我々のアプローチは、KITTI 2015データセットにおける前景ピクセル間のステレオマッチングで1位、Scene Flowデータセットで3位にランクインしました。
論文 参考訳(メタデータ) (2024-02-28T09:01:50Z) - Progressive Feature Self-reinforcement for Weakly Supervised Semantic
Segmentation [55.69128107473125]
Weakly Supervised Semantic (WSSS) のイメージレベルラベルを用いたシングルステージアプローチを提案する。
我々は、画像内容が決定論的領域(例えば、自信ある前景と背景)と不確実領域(例えば、オブジェクト境界と誤分類されたカテゴリ)に適応的に分割して、別々の処理を行う。
そこで我々は,これらの自信のある領域と同一のクラスラベルを持つ拡張画像とのセマンティック一貫性を制約する補完的な自己強調手法を提案する。
論文 参考訳(メタデータ) (2023-12-14T13:21:52Z) - Region Generation and Assessment Network for Occluded Person
Re-Identification [43.49129366128688]
個人再識別(ReID)は近年,幅広い応用分野において,より重要な役割を担っている。
ほとんどの手法は、ボディ部分の特定やマッチング戦略の活用に外部ツールを活用することで、このような課題に対処する。
人体領域を効果的かつ効率的に検出する領域生成評価ネットワーク(RGANet)を提案する。
論文 参考訳(メタデータ) (2023-09-07T08:41:47Z) - Coupling Global Context and Local Contents for Weakly-Supervised
Semantic Segmentation [54.419401869108846]
Weakly Supervised Semantic (WSSS)モデルを提案する。
グローバルなオブジェクトコンテキストを異なる粒度空間でキャプチャするために,フレキシブルなコンテキストアグリゲーションモジュールを提案する。
局所的な細粒度を集約するために、ボトムアップパラメータ学習可能な方法で意味的に一貫した特徴融合モジュールを提案する。
論文 参考訳(メタデータ) (2023-04-18T15:29:23Z) - Error-Aware Spatial Ensembles for Video Frame Interpolation [50.63021118973639]
近年,ビデオフレーム(VFI)アルゴリズムは,データ駆動アルゴリズムと実装の両面で前例のない進歩により,大幅に改善されている。
近年の研究では、挑戦的なVFIシナリオに対処する手段として、高度な動き推定や新しいワープ手法が導入されている。
本研究は、光フローとIEの相関関係を詳細に検討することにより、中間フレームを異なるIEレベルに対応する異なる領域に分割する新しいエラー予測指標を提案する。
論文 参考訳(メタデータ) (2022-07-25T16:15:38Z) - Region-Based Semantic Factorization in GANs [67.90498535507106]
本稿では,任意の画像領域についてGAN(Generative Adversarial Networks)が学習した潜在意味を分解するアルゴリズムを提案する。
適切に定義された一般化されたレイリー商を通して、アノテーションや訓練なしにそのような問題を解く。
様々な最先端のGANモデルに対する実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2022-02-19T17:46:02Z) - Realtime Global Attention Network for Semantic Segmentation [4.061739586881057]
セマンティックセグメンテーションのための統合グローバルアテンションニューラルネットワーク(RGANet)を提案する。
これらのグローバルアテンションモジュールを変換の階層に統合することで、評価指標のパフォーマンスが向上する。
論文 参考訳(メタデータ) (2021-12-24T04:24:18Z) - Local-Global Associative Frame Assemble in Video Re-ID [57.7470971197962]
ビデオ列から自動生成されたオブジェクト境界ボックスにおける雑音および非表現フレームは、ビデオ再識別(Re-ID)における識別表現の学習に困難をもたらす
既存の手法の多くは、局所的な部分アライメントまたはグローバルな外観相関によって、ビデオフレームの重要性を個別に評価することで、この問題に対処している。
本研究では,局所的なアライメントとグローバルな相関関係を共同で検討し,相互の促進・強化について考察する。
論文 参考訳(メタデータ) (2021-10-22T19:07:39Z) - Region attention and graph embedding network for occlusion objective
class-based micro-expression recognition [26.5638344747854]
マイクロ圧縮認識(textbfMER)は10年間にわたって多くの研究者の注目を集めてきた。
本稿では,MER,ie,occlusion MERにおける興味深いが未解明の課題を深く研究する。
種々の顔領域間の関係をモデル化するために、アンダーラインRegionにインスパイアされたアンダーラインリレーションアンダーラインネットワーク(textbfRRRN)を提案する。
論文 参考訳(メタデータ) (2021-07-13T08:04:03Z) - Learning to Estimate Hidden Motions with Global Motion Aggregation [71.12650817490318]
閉塞は、局所的な証拠に依存する光学フローアルゴリズムに重大な課題をもたらす。
最初の画像でピクセル間の長距離依存性を見つけるために,グローバルモーションアグリゲーションモジュールを導入する。
遮蔽領域における光流量推定が非遮蔽領域における性能を損なうことなく大幅に改善できることを実証した。
論文 参考訳(メタデータ) (2021-04-06T10:32:03Z) - Hybrid Multiple Attention Network for Semantic Segmentation in Aerial
Images [24.35779077001839]
グローバルな相関関係を適応的に捉えるために,Hybrid Multiple Attention Network (HMANet) という新しいアテンションベースのフレームワークを提案する。
本稿では,機能的冗長性を低減し,自己注意機構の効率を向上させるため,単純で効果的な領域シャッフルアテンション(RSA)モジュールを提案する。
論文 参考訳(メタデータ) (2020-01-09T07:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。