論文の概要: Motif Channel Opened in a White-Box: Stereo Matching via Motif Correlation Graph
- arxiv url: http://arxiv.org/abs/2411.12426v1
- Date: Tue, 19 Nov 2024 11:26:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:36:35.047140
- Title: Motif Channel Opened in a White-Box: Stereo Matching via Motif Correlation Graph
- Title(参考訳): ホワイトボックスで開かれたMotifチャネル:Motif相関グラフによるステレオマッチング
- Authors: Ziyang Chen, Yongjun Zhang, Wenting Li, Bingshu Wang, Yong Zhao, C. L. Philip Chen,
- Abstract要約: ステレオマッチングのための新しい学習パラダイムであるMoCha-V2を提案する。
MoCha-V2はMotif correlation Graph (MCG)を導入し、機能チャネル内で「モチーフ」と呼ばれる反復的なテクスチャをキャプチャする。
得られたモチーフ特徴を利用してステレオマッチングプロセスの幾何学的構造を復元する。
- 参考スコア(独自算出の注目度): 57.73405076892351
- License:
- Abstract: Real-world applications of stereo matching, such as autonomous driving, place stringent demands on both safety and accuracy. However, learning-based stereo matching methods inherently suffer from the loss of geometric structures in certain feature channels, creating a bottleneck in achieving precise detail matching. Additionally, these methods lack interpretability due to the black-box nature of deep learning. In this paper, we propose MoCha-V2, a novel learning-based paradigm for stereo matching. MoCha-V2 introduces the Motif Correlation Graph (MCG) to capture recurring textures, which are referred to as ``motifs" within feature channels. These motifs reconstruct geometric structures and are learned in a more interpretable way. Subsequently, we integrate features from multiple frequency domains through wavelet inverse transformation. The resulting motif features are utilized to restore geometric structures in the stereo matching process. Experimental results demonstrate the effectiveness of MoCha-V2. MoCha-V2 achieved 1st place on the Middlebury benchmark at the time of its release. Code is available at https://github.com/ZYangChen/MoCha-Stereo.
- Abstract(参考訳): 自律運転のようなステレオマッチングの現実的な応用は、安全性と精度の両方に厳しい要求を課す。
しかし、学習に基づくステレオマッチング手法は、特定の特徴チャネルにおける幾何学的構造が失われることに本質的に悩まされ、正確な詳細マッチングを実現する上でボトルネックとなる。
さらに、これらの手法は深層学習のブラックボックスの性質のために解釈性に欠ける。
本稿では,ステレオマッチングのための新しい学習パラダイムであるMoCha-V2を提案する。
MoCha-V2では、繰り返し発生するテクスチャをキャプチャするMotif correlation Graph(MCG)が導入されている。
これらのモチーフは幾何学的構造を再構築し、より解釈可能な方法で学習される。
その後、ウェーブレット逆変換により複数の周波数領域の特徴を統合する。
得られたモチーフ特徴を利用してステレオマッチングプロセスの幾何学的構造を復元する。
実験によりMoCha-V2の有効性が示された。
MoCha-V2はミドルベリーベンチマークで1位を獲得した。
コードはhttps://github.com/ZYangChen/MoCha-Stereo.comで入手できる。
関連論文リスト
- Trusted Video Inpainting Localization via Deep Attentive Noise Learning [2.1210527985139227]
本稿では,堅牢性と一般化性に優れたTruVIL(Trusted Video Inpainting Localization Network)を提案する。
塗装された痕跡を捉えるために,複数段階の深い注意雑音学習を設計する。
十分なトレーニングサンプルを作成するために,2500本のビデオからなるフレームレベルのビデオオブジェクトセグメンテーションデータセットを構築した。
論文 参考訳(メタデータ) (2024-06-19T14:08:58Z) - Motif-Centric Representation Learning for Symbolic Music [5.781931021964343]
我々は、表現学習を通してモチーフとそのバリエーションの間の暗黙の関係を学習する。
正規化に基づくVICRegは事前学習に採用され、コントラスト学習は微調整に使用されている。
得られたモチーフ表現を可視化し、楽曲全体の構造を直感的に理解する。
論文 参考訳(メタデータ) (2023-09-19T13:09:03Z) - Bridging Stereo Geometry and BEV Representation with Reliable Mutual Interaction for Semantic Scene Completion [45.171150395915056]
3Dセマンティックシーン補完(SSC)は、限られた観測から密集した3Dシーンを推定する必要がある不適切な認識課題である。
従来のカメラベースの手法は、固有の幾何学的曖昧さと不完全な観察のため、正確なセマンティックシーンを予測するのに苦労した。
我々は,SSCにおけるステレオマッチング技術と鳥眼ビュー(BEV)表現学習を利用して,そのような問題に対処する。
論文 参考訳(メタデータ) (2023-03-24T12:33:44Z) - Unsupervised Industrial Anomaly Detection via Pattern Generative and Contrastive Networks [6.393288885927437]
本稿では,視覚変換器を用いた教師なし異常検出ネットワークを提案する。
階層的なタスク学習と人間の経験を利用して、その解釈可能性を高めます。
従来の最先端手法を超越した99.8%のAUCを実現した。
論文 参考訳(メタデータ) (2022-07-20T10:09:53Z) - BatchFormerV2: Exploring Sample Relationships for Dense Representation
Learning [88.82371069668147]
BatchFormerV2はより一般的なバッチトランスフォーマーモジュールである。
BatchFormerV2は、現在のDETRベースの検出方法を1.3%以上改善している。
論文 参考訳(メタデータ) (2022-04-04T05:53:42Z) - Contrastive Learning with Positive-Negative Frame Mask for Music
Representation [91.44187939465948]
本稿では,PEMRと略記したコントラッシブラーニングフレームワークに基づく,音楽表現のための正負負のフレームマスクを提案する。
我々は,同じ音楽からサンプリングした自己増強陽性/陰性の両方に対応するために,新しいコントラスト学習目標を考案した。
論文 参考訳(メタデータ) (2022-03-17T07:11:42Z) - MFGNet: Dynamic Modality-Aware Filter Generation for RGB-T Tracking [72.65494220685525]
可視データと熱データ間のメッセージ通信を促進するために,新しい動的モダリティ対応フィルタ生成モジュール(MFGNet)を提案する。
我々は、2つの独立ネットワークを持つ動的モダリティ対応フィルタを生成し、その可視フィルタとサーマルフィルタをそれぞれ、対応する入力特徴写像上で動的畳み込み演算を行う。
重閉塞,高速移動,外見による問題に対処するため,新たな方向認識型目標誘導型アテンション機構を活用することで,共同で局所的・グローバル検索を行うことを提案する。
論文 参考訳(メタデータ) (2021-07-22T03:10:51Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z) - Attentive WaveBlock: Complementarity-enhanced Mutual Networks for
Unsupervised Domain Adaptation in Person Re-identification and Beyond [97.25179345878443]
本稿では,新しい軽量モジュールであるAttentive WaveBlock (AWB)を提案する。
AWBは相互学習の二重ネットワークに統合され、相互学習の相補性を高め、擬似ラベルのノイズをさらに抑えることができる。
実験により, 提案手法は, 複数のUDA人物再識別タスクを大幅に改善し, 最先端の性能を達成できることが実証された。
論文 参考訳(メタデータ) (2020-06-11T15:40:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。