論文の概要: DiffuVolume: Diffusion Model for Volume based Stereo Matching
- arxiv url: http://arxiv.org/abs/2308.15989v1
- Date: Wed, 30 Aug 2023 12:19:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-31 13:24:38.307468
- Title: DiffuVolume: Diffusion Model for Volume based Stereo Matching
- Title(参考訳): 差分ボリューム:ボリュームベースステレオマッチングのための拡散モデル
- Authors: Dian Zheng, Xiao-Ming Wu, Zuhao Liu, Jingke Meng, Wei-shi Zheng
- Abstract要約: 拡散モデルをステレオマッチングに適用して,より正確なコスト容積を構築する。
提案手法はDiffuVolumeと呼ばれ,拡散モデルをコスト容積フィルタとみなし,冗長な情報を繰り返し除去する。
このようにして、従来の拡散ステレオマッチング法を22%のEPE改善と240倍の加速度推定で上回ります。
- 参考スコア(独自算出の注目度): 33.99658330668423
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stereo matching is a significant part in many computer vision tasks and
driving-based applications. Recently cost volume-based methods have achieved
great success benefiting from the rich geometry information in paired images.
However, the redundancy of cost volume also interferes with the model training
and limits the performance. To construct a more precise cost volume, we
pioneeringly apply the diffusion model to stereo matching. Our method, termed
DiffuVolume, considers the diffusion model as a cost volume filter, which will
recurrently remove the redundant information from the cost volume. Two main
designs make our method not trivial. Firstly, to make the diffusion model more
adaptive to stereo matching, we eschew the traditional manner of directly
adding noise into the image but embed the diffusion model into a task-specific
module. In this way, we outperform the traditional diffusion stereo matching
method by 22% EPE improvement and 240 times inference acceleration. Secondly,
DiffuVolume can be easily embedded into any volume-based stereo matching
network with boost performance but slight parameters rise (only 2%). By adding
the DiffuVolume into well-performed methods, we outperform all the published
methods on Scene Flow, KITTI2012, KITTI2015 benchmarks and zero-shot
generalization setting. It is worth mentioning that the proposed model ranks
1st on KITTI 2012 leader board, 2nd on KITTI 2015 leader board since 15, July
2023.
- Abstract(参考訳): ステレオマッチングは多くのコンピュータビジョンタスクや運転ベースのアプリケーションにおいて重要な部分である。
近年,コストボリュームに基づく手法は,ペア画像のリッチな幾何学的情報から大きな成功を収めている。
しかし、コストボリュームの冗長性はモデルトレーニングを阻害し、パフォーマンスを制限している。
より正確なコストボリュームを構築するために,拡散モデルをステレオマッチングに適用した。
本手法は拡散モデルをコストボリュームフィルタとして考慮し,コストボリュームから冗長な情報を再帰的に除去する。
2つの主要な設計は、我々の方法を簡単にするものではない。
まず,拡散モデルをステレオマッチングに適応させるため,画像に直接ノイズを付加する従来の手法を考案するが,拡散モデルをタスク固有モジュールに組み込む。
このように、従来の拡散ステレオマッチング法を22%のEPE改善と240倍の推論加速度で上回ります。
第二に、DiffuVolumeは任意のボリュームベースのステレオマッチングネットワークに簡単に組み込むことができ、性能は向上するが、パラメータはわずかに上昇する(わずか2%)。
DiffuVolumeを高性能な手法に組み込むことで、Scene Flow、KITTI2012、KITTI2015ベンチマーク、ゼロショットの一般化設定において、すべてのメソッドを上回ります。
提案されたモデルは、2023年7月15日以来、KITTI 2012のリーダーボードで第1位、KITTI 2015のリーダーボードで第2位である。
関連論文リスト
- LightStereo: Channel Boost Is All Your Need for Efficient 2D Cost Aggregation [27.00836175513738]
LightStereoは、マッチングプロセスを加速するために作られた最先端のステレオマッチングネットワークである。
私たちのブレークスルーは、3Dコストボリュームのチャネル次元に特化してパフォーマンスを向上させることです。
LightStereoは、SceneFlowデータセットで競合するEPEメトリックを達成し、最低でも22GFLOPと17msのランタイムを必要とする。
論文 参考訳(メタデータ) (2024-06-28T11:11:24Z) - You Only Need One Step: Fast Super-Resolution with Stable Diffusion via
Scale Distillation [42.599077240711]
YONOS-SRは、画像超解像に対する安定拡散に基づくアプローチであり、単一のDDIMステップのみを用いて最先端の結果を得る。
SRモデルの学習のための新しいスケール蒸留手法を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:49:44Z) - SnapFusion: Text-to-Image Diffusion Model on Mobile Devices within Two
Seconds [88.06788636008051]
テキストから画像への拡散モデルは、プロのアーティストや写真家の作品に匹敵する自然言語の記述から素晴らしい画像を作り出すことができる。
これらのモデルは大規模で、複雑なネットワークアーキテクチャと数十のデノベーションイテレーションを持ち、計算コストが高く、実行が遅い。
モバイル端末上でテキストから画像への拡散モデルの実行を2ドル以下でアンロックする汎用的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-01T17:59:25Z) - An Efficient Membership Inference Attack for the Diffusion Model by
Proximal Initialization [58.88327181933151]
本稿では,効率的なクエリベースのメンバシップ推論攻撃(MIA)を提案する。
実験結果から,提案手法は離散時間と連続時間の両方の拡散モデル上で,2つのクエリで競合性能を達成できることが示唆された。
我々の知る限り、本研究はテキスト音声タスクにおけるMIAへの拡散モデルのロバスト性について初めて研究するものである。
論文 参考訳(メタデータ) (2023-05-26T16:38:48Z) - Are Diffusion Models Vision-And-Language Reasoners? [30.579483430697803]
我々は、DiffusionITMと呼ばれる新しい手法を用いて、任意の画像テキストマッチング(ITM)タスクに対する拡散ベースモデルを変換する。
GDBench(Generative-Discriminative Evaluation Benchmark)ベンチマークを7つの複雑な視覚・言語タスク、バイアス評価、詳細な分析で導入する。
安定拡散+拡散ITMは多くのタスクで競争力があり、CLIPよりもCLEVRやWinogroundのようなコンポジションタスクで優れています。
論文 参考訳(メタデータ) (2023-05-25T18:02:22Z) - DiffFit: Unlocking Transferability of Large Diffusion Models via Simple
Parameter-Efficient Fine-Tuning [51.151805100550625]
本稿ではDiffFitを提案する。DiffFitは大規模な事前学習拡散モデルを微調整するためのパラメータ効率の戦略である。
完全な微調整と比較すると、DiffFitは2$times$のトレーニングスピードアップを実現しており、全体のモデルパラメータの0.12%を格納する必要がある。
注目すべきは、DiffFitが最小のコストを加えることで、訓練済みの低解像度生成モデルを高解像度に適応できることである。
論文 参考訳(メタデータ) (2023-04-13T16:17:50Z) - Separate And Diffuse: Using a Pretrained Diffusion Model for Improving
Source Separation [99.19786288094596]
上界をランダムな生成モデルに一般化する方法を示す。
複数のベンチマークで2, 3, 5, 10, 20人の話者に最先端の結果を示す。
論文 参考訳(メタデータ) (2023-01-25T18:21:51Z) - MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and
Video Generation [70.74377373885645]
本稿では,視聴体験と視聴体験を同時に実現する,初の共同音声ビデオ生成フレームワークを提案する。
MM拡散(MM-Diffusion)は、設計による共同記述プロセスのための連続的なマルチモーダルなU-Netで構成されている。
実験は、無条件のオーディオビデオ生成とゼロショット条件付タスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2022-12-19T14:11:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。