論文の概要: GraftNet: Towards Domain Generalized Stereo Matching with a
Broad-Spectrum and Task-Oriented Feature
- arxiv url: http://arxiv.org/abs/2204.00179v1
- Date: Fri, 1 Apr 2022 03:10:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-04 23:56:45.274909
- Title: GraftNet: Towards Domain Generalized Stereo Matching with a
Broad-Spectrum and Task-Oriented Feature
- Title(参考訳): graftnet:幅広いスペクトルとタスク指向の特徴を持つドメイン一般化ステレオマッチングに向けて
- Authors: Biyang Liu, Huimin Yu, Guodong Qi
- Abstract要約: ドメインシフトに対処するために、大規模データセットでトレーニングされたモデルの特徴を活用することを提案する。
コサインの類似性に基づくコストボリュームをブリッジとして、通常のコストアグリゲーションモジュールに移植する。
実験により、この広スペクトルおよびタスク指向機能によりモデル一般化能力を著しく改善できることが示されている。
- 参考スコア(独自算出の注目度): 2.610470075814367
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although supervised deep stereo matching networks have made impressive
achievements, the poor generalization ability caused by the domain gap prevents
them from being applied to real-life scenarios. In this paper, we propose to
leverage the feature of a model trained on large-scale datasets to deal with
the domain shift since it has seen various styles of images. With the cosine
similarity based cost volume as a bridge, the feature will be grafted to an
ordinary cost aggregation module. Despite the broad-spectrum representation,
such a low-level feature contains much general information which is not aimed
at stereo matching. To recover more task-specific information, the grafted
feature is further input into a shallow network to be transformed before
calculating the cost. Extensive experiments show that the model generalization
ability can be improved significantly with this broad-spectrum and
task-oriented feature. Specifically, based on two well-known architectures
PSMNet and GANet, our methods are superior to other robust algorithms when
transferring from SceneFlow to KITTI 2015, KITTI 2012, and Middlebury. Code is
available at https://github.com/SpadeLiu/Graft-PSMNet.
- Abstract(参考訳): 監視されたディープステレオマッチングネットワークは素晴らしい成果を上げているが、ドメインギャップによる一般化能力の低下により、現実のシナリオに適用できない。
本稿では,大規模データセットで訓練されたモデルの特徴を活用して,画像のさまざまなスタイルからドメインシフトを扱うことを提案する。
コサイン類似度に基づくコストボリュームをブリッジとして、この機能は通常のコスト集約モジュールに移植される。
広スペクトル表現にもかかわらず、そのような低レベル特徴はステレオマッチングを目的としない多くの一般的な情報を含んでいる。
より多くのタスク固有の情報を復元するために、コストを計算する前に変換対象の浅いネットワークに移植された特徴をさらに入力する。
広範な実験により、この広範かつタスク指向の機能により、モデル一般化能力が大幅に向上することが示された。
具体的には、PSMNetとGANetの2つのよく知られたアーキテクチャに基づいて、SceneFlowからKITTI 2015、KITTI 2012、Middleburyへの移行において、我々の手法は他の堅牢なアルゴリズムよりも優れている。
コードはhttps://github.com/SpadeLiu/Graft-PSMNetで入手できる。
関連論文リスト
- TransXNet: Learning Both Global and Local Dynamics with a Dual Dynamic
Token Mixer for Visual Recognition [71.6546914957701]
本稿では,グローバルな情報と局所的な詳細を入力依存の方法で集約する軽量なDual Dynamic Token Mixer (D-Mixer)を提案する。
我々は、新しいハイブリッドCNN-TransformerビジョンバックボーンネットワークであるTransXNetを設計するために、基本的なビルディングブロックとしてD-Mixerを使用している。
ImageNet-1Kの画像分類タスクでは、TransXNet-TはSwing-Tを0.3%上回り、計算コストの半分以下である。
論文 参考訳(メタデータ) (2023-10-30T09:35:56Z) - RGM: A Robust Generalizable Matching Model [49.60975442871967]
RGM(Robust Generalist Matching)と呼ばれる疎密マッチングのための深部モデルを提案する。
合成トレーニングサンプルと実世界のシナリオのギャップを狭めるために、我々は、疎対応基盤真理を持つ新しい大規模データセットを構築した。
さまざまな密集したスパースなデータセットを混ぜ合わせることができ、トレーニングの多様性を大幅に改善しています。
論文 参考訳(メタデータ) (2023-10-18T07:30:08Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - Augmenting Convolutional networks with attention-based aggregation [55.97184767391253]
我々は,非局所的推論を実現するために,注目に基づくグローバルマップを用いた畳み込みネットワークの強化方法を示す。
この学習集約層を2つのパラメータ(幅と深さ)でパラメータ化した単純パッチベースの畳み込みネットワークで接続する。
これは、特にメモリ消費の点で、精度と複雑さの間の驚くほど競争力のあるトレードオフをもたらす。
論文 参考訳(メタデータ) (2021-12-27T14:05:41Z) - Learning to Aggregate Multi-Scale Context for Instance Segmentation in
Remote Sensing Images [28.560068780733342]
特徴抽出のプロセスを改善するために,新しいコンテキスト集約ネットワーク(CATNet)を提案する。
提案モデルは,高密度特徴ピラミッドネットワーク(DenseFPN),空間コンテキストピラミッド(SCP),階層的関心抽出器(HRoIE)の3つの軽量プラグアンドプレイモジュールを利用する。
論文 参考訳(メタデータ) (2021-11-22T08:55:25Z) - Multi-View Stereo Network with attention thin volume [0.0]
複数のRGB画像から深度値を推定するための効率的なマルチビューステレオ(MVS)ネットワークを提案する。
入力画像から支配的な情報を完全に集約する自己認識機構を導入する。
また,特徴集約に対するグループワイド相関を導入し,メモリと計算負荷を大幅に削減する。
論文 参考訳(メタデータ) (2021-10-16T11:51:23Z) - MixStyle Neural Networks for Domain Generalization and Adaptation [122.36901703868321]
MixStyleは、データ収集やモデルのキャパシティ向上を必要とせずに、ドメインの一般化性能を向上させるプラグイン・アンド・プレイモジュールである。
実験の結果,MixStyleは画像認識,インスタンス検索,強化学習など幅広いタスクにおいて,分布外一般化性能を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-07-05T14:29:19Z) - Multi-scale Attention U-Net (MsAUNet): A Modified U-Net Architecture for
Scene Segmentation [1.713291434132985]
画像からコンテキスト情報を用いたシーンセグメンテーションのためのマルチスケールアテンションネットワークを提案する。
このネットワークは、局所的な特徴をグローバルな特徴にマップし、精度を向上し、識別画像領域を強調する。
我々はPascalVOC2012とADE20kという2つの標準データセットでモデルを評価した。
論文 参考訳(メタデータ) (2020-09-15T08:03:41Z) - Joint Self-Attention and Scale-Aggregation for Self-Calibrated Deraining
Network [13.628218953897946]
本稿では,JDNetとよばれる有効アルゴリズムを提案する。
自己校正畳み込みを用いたスケール・アグリゲーション・セルフアグリゲーション・モジュールを巧みに設計することにより,提案モデルはより優れたデコレーション結果が得られる。
論文 参考訳(メタデータ) (2020-08-06T17:04:34Z) - Crowd Counting via Hierarchical Scale Recalibration Network [61.09833400167511]
本稿では,群集カウントの課題に取り組むために,階層型大規模校正ネットワーク(HSRNet)を提案する。
HSRNetは、リッチなコンテキスト依存をモデル化し、複数のスケール関連情報を再検討する。
提案手法は,様々なノイズを選択的に無視し,適切な群集スケールに自動的に焦点を合わせることができる。
論文 参考訳(メタデータ) (2020-03-07T10:06:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。