Fugu-MT 論文翻訳(概要): Global Occlusion-Aware Transformer for Robust Stereo Matching

論文の概要: Global Occlusion-Aware Transformer for Robust Stereo Matching

arxiv url: http://arxiv.org/abs/2312.14650v1
Date: Fri, 22 Dec 2023 12:34:58 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-25 15:05:13.905576
Title: Global Occlusion-Aware Transformer for Robust Stereo Matching
Title（参考訳）: ロバストステレオマッチングのためのグローバルオクルージョンアウェアトランスフォーマ
Authors: Zihua Liu, Yizhou Li and Masatoshi Okutomi
Abstract要約: 本稿では,Global Occlusion-Aware Transformer(GOAT)と呼ばれる新しいアテンションベースのステレオマッチングネットワークを提案する。 GOATは、長距離依存とOcclusion-Awarenessグローバルコンテキストを不一致推定に活用する。提案したGOATは,特に閉鎖領域において,すべてのベンチマークにおいて優れた性能を示す。
参考スコア（独自算出の注目度）: 11.655465312241699
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite the remarkable progress facilitated by learning-based stereo-matching algorithms, the performance in the ill-conditioned regions, such as the occluded regions, remains a bottleneck. Due to the limited receptive field, existing CNN-based methods struggle to handle these ill-conditioned regions effectively. To address this issue, this paper introduces a novel attention-based stereo-matching network called Global Occlusion-Aware Transformer (GOAT) to exploit long-range dependency and occlusion-awareness global context for disparity estimation. In the GOAT architecture, a parallel disparity and occlusion estimation module PDO is proposed to estimate the initial disparity map and the occlusion mask using a parallel attention mechanism. To further enhance the disparity estimates in the occluded regions, an occlusion-aware global aggregation module (OGA) is proposed. This module aims to refine the disparity in the occluded regions by leveraging restricted global correlation within the focus scope of the occluded areas. Extensive experiments were conducted on several public benchmark datasets including SceneFlow, KITTI 2015, and Middlebury. The results show that the proposed GOAT demonstrates outstanding performance among all benchmarks, particularly in the occluded regions.
Abstract（参考訳）: 学習に基づくステレオマッチングアルゴリズムによる顕著な進歩にもかかわらず、オクルード領域などの不条件領域のパフォーマンスは依然としてボトルネックとなっている。受容領域が限られているため、既存のCNNベースの手法はこれらの不条件領域を効果的に扱うのに苦労する。この問題に対処するため,本稿では,長距離依存とオクルージョン・アウェアネスのグローバルコンテキストを活用する,GOAT(Global Occlusion-Aware Transformer)と呼ばれる新しいアテンションベースのステレオマッチングネットワークを提案する。ヤギアーキテクチャにおいて, 初期偏差マップと咬合マスクを並列注意機構を用いて推定するために, 並列偏差・咬合推定モジュールpdoが提案されている。閉塞領域における不均一性の推定をさらに高めるため,OGA (Oocclusion-aware Global aggregate module) を提案する。本モジュールは、オクルード領域の焦点範囲内で制限されたグローバル相関を利用して、オクルード領域の格差を洗練することを目的としている。 sceneflow, kitti 2015, middleburyなど,いくつかの公開ベンチマークデータセットで広範な実験が行われた。その結果,提案手法はすべてのベンチマーク,特にオクルード領域において有意な性能を示した。

関連論文リスト

SARD: Segmentation-Aware Anomaly Synthesis via Region-Constrained Diffusion with Discriminative Mask Guidance [4.65786322515141]
SARD (Segmentation-Aware anomaly synthesis via Region-constrained Diffusion with discriminative mask Guidance) は, 異常生成に特化して設計された新しい拡散型フレームワークである。 SARDは、セグメンテーションの精度と視覚的品質において既存の手法を超越し、ピクセルレベルの異常合成のための新しい最先端技術を確立している。
論文参考訳（メタデータ） (2025-08-05T06:43:01Z)
Monocular Semantic Scene Completion via Masked Recurrent Networks [11.783890904850828]
既存の手法では,目に見える領域分割と隠蔽領域幻覚を同時に実現することを目的とした,単一段階のフレームワークが採用されている。そこで我々は,MSSCを粗いMSSCに分解し,Masked Recurrent Networkを付加した新しい2段階フレームワークを提案する。実験の結果,提案する統合型フレームワークであるMonoMRNは,屋内と屋外の両方のシーンを効果的にサポートしていることがわかった。
論文参考訳（メタデータ） (2025-07-23T16:29:45Z)
Backscatter Device-aided Integrated Sensing and Communication: A Pareto Optimization Framework [59.30060797118097]
統合センシング・通信(ISAC)システムは、密集した都市非視線シナリオにおいて大きな性能劣化に遭遇する可能性がある。本稿では,自然環境に分散した受動的BDを利用した後方散乱近似(BD)支援ISACシステムを提案する。
論文参考訳（メタデータ） (2025-07-12T17:11:06Z)
Locally Estimated Global Perturbations are Better than Local Perturbations for Federated Sharpness-aware Minimization [81.32266996009575]
フェデレートラーニング(FL)では、クライアント間の複数ステップの更新とデータの均一性が、よりシャープなミニマによるロスランドスケープにつながることが多い。クライアント側におけるグローバルな摂動方向を局所的に推定する新しいアルゴリズムであるFedLESAMを提案する。
論文参考訳（メタデータ） (2024-05-29T08:46:21Z)
CMU-Flownet: Exploring Point Cloud Scene Flow Estimation in Occluded Scenario [10.852258389804984]
閉塞はLiDARデータにおける点雲フレームのアライメントを妨げるが、シーンフローモデルでは不十分な課題である。本稿では,CMU-Flownet(Relational Matrix Upsampling Flownet)を提案する。 CMU-Flownetは、隠されたFlyingthings3DとKITTYデータセットの領域内で、最先端のパフォーマンスを確立する。
論文参考訳（メタデータ） (2024-04-16T13:47:21Z)
Region-aware Distribution Contrast: A Novel Approach to Multi-Task Partially Supervised Learning [50.88504784466931]
マルチタスク密度予測にはセマンティックセグメンテーション、深さ推定、表面正規推定が含まれる。既存のソリューションは通常、グローバルなクロスタスク画像マッチングのためのグローバルなイメージ表現の学習に依存している。本提案では,ガウス分布を用いた地域表現をモデル化する。
論文参考訳（メタデータ） (2024-03-15T12:41:30Z)
Digging Into Normal Incorporated Stereo Matching [18.849192633442453]
NDP(Non-local Disparity propagation)とARL(Affinity-aware residual Learning)という2つのモジュールからなる通常の統合型共同学習フレームワークを提案する。この作業が完了するまでに、我々のアプローチは、KITTI 2015データセットにおける前景ピクセル間のステレオマッチングで1位、Scene Flowデータセットで3位にランクインしました。
論文参考訳（メタデータ） (2024-02-28T09:01:50Z)
Progressive Feature Self-reinforcement for Weakly Supervised Semantic Segmentation [55.69128107473125]
Weakly Supervised Semantic (WSSS) のイメージレベルラベルを用いたシングルステージアプローチを提案する。我々は、画像内容が決定論的領域(例えば、自信ある前景と背景)と不確実領域(例えば、オブジェクト境界と誤分類されたカテゴリ)に適応的に分割して、別々の処理を行う。そこで我々は,これらの自信のある領域と同一のクラスラベルを持つ拡張画像とのセマンティック一貫性を制約する補完的な自己強調手法を提案する。
論文参考訳（メタデータ） (2023-12-14T13:21:52Z)
Region Generation and Assessment Network for Occluded Person Re-Identification [43.49129366128688]
個人再識別(ReID)は近年,幅広い応用分野において,より重要な役割を担っている。ほとんどの手法は、ボディ部分の特定やマッチング戦略の活用に外部ツールを活用することで、このような課題に対処する。人体領域を効果的かつ効率的に検出する領域生成評価ネットワーク(RGANet)を提案する。
論文参考訳（メタデータ） (2023-09-07T08:41:47Z)
Coupling Global Context and Local Contents for Weakly-Supervised Semantic Segmentation [54.419401869108846]
Weakly Supervised Semantic (WSSS)モデルを提案する。グローバルなオブジェクトコンテキストを異なる粒度空間でキャプチャするために,フレキシブルなコンテキストアグリゲーションモジュールを提案する。局所的な細粒度を集約するために、ボトムアップパラメータ学習可能な方法で意味的に一貫した特徴融合モジュールを提案する。
論文参考訳（メタデータ） (2023-04-18T15:29:23Z)
Error-Aware Spatial Ensembles for Video Frame Interpolation [50.63021118973639]
近年,ビデオフレーム(VFI)アルゴリズムは,データ駆動アルゴリズムと実装の両面で前例のない進歩により,大幅に改善されている。近年の研究では、挑戦的なVFIシナリオに対処する手段として、高度な動き推定や新しいワープ手法が導入されている。本研究は、光フローとIEの相関関係を詳細に検討することにより、中間フレームを異なるIEレベルに対応する異なる領域に分割する新しいエラー予測指標を提案する。
論文参考訳（メタデータ） (2022-07-25T16:15:38Z)
Realtime Global Attention Network for Semantic Segmentation [4.061739586881057]
セマンティックセグメンテーションのための統合グローバルアテンションニューラルネットワーク(RGANet)を提案する。これらのグローバルアテンションモジュールを変換の階層に統合することで、評価指標のパフォーマンスが向上する。
論文参考訳（メタデータ） (2021-12-24T04:24:18Z)
Local-Global Associative Frame Assemble in Video Re-ID [57.7470971197962]
ビデオ列から自動生成されたオブジェクト境界ボックスにおける雑音および非表現フレームは、ビデオ再識別(Re-ID)における識別表現の学習に困難をもたらす既存の手法の多くは、局所的な部分アライメントまたはグローバルな外観相関によって、ビデオフレームの重要性を個別に評価することで、この問題に対処している。本研究では,局所的なアライメントとグローバルな相関関係を共同で検討し,相互の促進・強化について考察する。
論文参考訳（メタデータ） (2021-10-22T19:07:39Z)
Region attention and graph embedding network for occlusion objective class-based micro-expression recognition [26.5638344747854]
マイクロ圧縮認識(textbfMER)は10年間にわたって多くの研究者の注目を集めてきた。本稿では,MER,ie,occlusion MERにおける興味深いが未解明の課題を深く研究する。種々の顔領域間の関係をモデル化するために、アンダーラインRegionにインスパイアされたアンダーラインリレーションアンダーラインネットワーク(textbfRRRN)を提案する。
論文参考訳（メタデータ） (2021-07-13T08:04:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。