論文の概要: Adaptive Multi-Modal Cross-Entropy Loss for Stereo Matching
- arxiv url: http://arxiv.org/abs/2306.15612v2
- Date: Fri, 15 Mar 2024 10:04:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 07:32:15.656592
- Title: Adaptive Multi-Modal Cross-Entropy Loss for Stereo Matching
- Title(参考訳): ステレオマッチングのための適応型多モードクロスエントロピー損失
- Authors: Peng Xu, Zhiyu Xiang, Chenyu Qiao, Jingyun Fu, Tianyu Pu,
- Abstract要約: 本稿では,ADL(Adaptive Multi-modal Cross-Entropy Los)を提案する。
提案手法は,KITTI 2015 と 2012 のベンチマークでそれぞれ1位である。
- 参考スコア(独自算出の注目度): 5.271285344428471
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the great success of deep learning in stereo matching, recovering accurate disparity maps is still challenging. Currently, L1 and cross-entropy are the two most widely used losses for stereo network training. Compared with the former, the latter usually performs better thanks to its probability modeling and direct supervision to the cost volume. However, how to accurately model the stereo ground-truth for cross-entropy loss remains largely under-explored. Existing works simply assume that the ground-truth distributions are uni-modal, which ignores the fact that most of the edge pixels can be multi-modal. In this paper, a novel adaptive multi-modal cross-entropy loss (ADL) is proposed to guide the networks to learn different distribution patterns for each pixel. Moreover, we optimize the disparity estimator to further alleviate the bleeding or misalignment artifacts in inference. Extensive experimental results show that our method is generic and can help classic stereo networks regain state-of-the-art performance. In particular, GANet with our method ranks $1^{st}$ on both the KITTI 2015 and 2012 benchmarks among the published methods. Meanwhile, excellent synthetic-to-realistic generalization performance can be achieved by simply replacing the traditional loss with ours.
- Abstract(参考訳): ステレオマッチングにおけるディープラーニングの大きな成功にもかかわらず、正確な格差マップの復元は依然として困難である。
現在、L1とクロスエントロピーはステレオネットワークトレーニングにおいて最も広く使われている2つの損失である。
前者と比較して、後者は確率モデリングとコストボリュームの直接監督により、通常より優れた性能を発揮する。
しかし、クロスエントロピー損失のための立体構造を正確にモデル化する方法はほとんど探索されていない。
既存の研究は、接地構造分布がユニモーダルであることを単純に仮定し、エッジピクセルの大半がマルチモーダルであるという事実を無視している。
本稿では,ADL(Adaptive Multi-modal Cross-Entropy Los)を提案する。
さらに, 差分推定器を最適化することにより, 推論における出血や誤認識を緩和する。
実験の結果,本手法は汎用的であり,従来のステレオネットワークが最先端の性能を取り戻すのに役立つことが示された。
特に,本手法を用いたGANetは,KITTI 2015 と 2012 のベンチマークでそれぞれ$ $1^{st}$ である。
一方、従来の損失を我々のものに置き換えることで、優れた合成と現実の一般化性能を実現することができる。
関連論文リスト
- The Sampling-Gaussian for stereo matching [7.9898209414259425]
ソフトアルグマックス演算は、ニューラルネットワークベースのステレオマッチング法で広く採用されている。
従来の手法では精度を効果的に向上できず、ネットワークの効率を損なうこともあった。
本稿では,ステレオマッチングのための新しい監視手法,サンプリング・ガウシアンを提案する。
論文 参考訳(メタデータ) (2024-10-09T03:57:13Z) - Distributed Extra-gradient with Optimal Complexity and Communication
Guarantees [60.571030754252824]
複数のプロセッサ/ワーカー/クライアントがローカルなデュアルベクトルにアクセス可能なマルチGPU設定において、モノトン変分不等式(VI)問題を考察する。
モノトーンVI問題に対するデファクトアルゴリズムであるExtra-gradientは、通信効率が良くないように設計されている。
そこで本稿では,VI の解法に適した非バイアスで適応的な圧縮手法である量子化一般化外部勾配 (Q-GenX) を提案する。
論文 参考訳(メタデータ) (2023-08-17T21:15:04Z) - Cut your Losses with Squentropy [19.924900110707284]
ここでは、クロスエントロピー損失と、不正なクラスに対する平均平方損失という2つの項の和である「スカントロピー」損失を提案する。
その結果, スクエントロピーの損失は, 純粋なクロスエントロピーと再スケールした正方形損失の両方において, 分類精度において優れていた。
論文 参考訳(メタデータ) (2023-02-08T09:21:13Z) - Unpaired Image Super-Resolution with Optimal Transport Maps [128.1189695209663]
実世界の画像超解像(SR)タスクは、しばしば、教師付き技術の適用を制限するペアデータセットを持っていない。
本稿では,非バイアスのOTマップを知覚輸送コストで学習する未ペアSRのアルゴリズムを提案する。
我々のアルゴリズムは、大規模無人AIM-19データセット上で、最先端のパフォーマンスをほぼ提供する。
論文 参考訳(メタデータ) (2022-02-02T16:21:20Z) - KL Guided Domain Adaptation [88.19298405363452]
ドメイン適応は重要な問題であり、現実世界のアプリケーションにしばしば必要である。
ドメイン適応文学における一般的なアプローチは、ソースとターゲットドメインに同じ分布を持つ入力の表現を学ぶことである。
確率的表現ネットワークにより、KL項はミニバッチサンプルにより効率的に推定できることを示す。
論文 参考訳(メタデータ) (2021-06-14T22:24:23Z) - Dissecting Supervised Constrastive Learning [24.984074794337157]
高容量エンコーダで構成された線形マップのソフトマックススコアよりもクロスエントロピーを最小化することは、教師付き学習タスクでニューラルネットワークを訓練するための最も一般的な選択肢である。
コントラスト目的の教師付き変種を通して等しく(あるいはそれ以上)識別表現を得るために、エンコーダを直接最適化することができることを示す。
論文 参考訳(メタデータ) (2021-02-17T15:22:38Z) - Shaping Deep Feature Space towards Gaussian Mixture for Visual
Classification [74.48695037007306]
視覚分類のためのディープニューラルネットワークのためのガウス混合損失関数(GM)を提案する。
分類マージンと可能性正規化により、GM損失は高い分類性能と特徴分布の正確なモデリングの両方を促進する。
提案したモデルは、追加のトレーニング可能なパラメータを使わずに、簡単かつ効率的に実装できる。
論文 参考訳(メタデータ) (2020-11-18T03:32:27Z) - Learning to Match Distributions for Domain Adaptation [116.14838935146004]
本稿では,ドメイン間分布マッチングを自動的に学習する学習 to Match (L2M)を提案する。
L2Mは、メタネットワークを用いてデータ駆動方式で分布整合損失を学習することにより、誘導バイアスを低減する。
公開データセットの実験は、SOTA法よりもL2Mの方が優れていることを裏付けている。
論文 参考訳(メタデータ) (2020-07-17T03:26:13Z) - Evaluation of Neural Architectures Trained with Square Loss vs
Cross-Entropy in Classification Tasks [23.538629997497747]
クロスエントロピー損失は、分類タスクの平方損失よりも経験的に優れていると広く信じられている。
これらのニューラルネットワークアーキテクチャは、正方形損失をトレーニングした場合に、相容れないか、より良く機能することを示す。
クロスエントロピーはコンピュータビジョンのタスクに多少の限界があるようだ。
論文 参考訳(メタデータ) (2020-06-12T17:00:49Z) - MetricUNet: Synergistic Image- and Voxel-Level Learning for Precise CT
Prostate Segmentation via Online Sampling [66.01558025094333]
本稿では,前立腺領域を高速に局在させる第1段階と,前立腺領域を正確に区分する第2段階の2段階のフレームワークを提案する。
マルチタスクネットワークにおけるボクセルワイドサンプリングによる新しいオンラインメトリック学習モジュールを提案する。
本手法は,従来のクロスエントロピー学習法やDice損失学習法と比較して,より代表的なボクセルレベルの特徴を効果的に学習することができる。
論文 参考訳(メタデータ) (2020-05-15T10:37:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。