論文の概要: Mono2Stereo: A Benchmark and Empirical Study for Stereo Conversion
- arxiv url: http://arxiv.org/abs/2503.22262v1
- Date: Fri, 28 Mar 2025 09:25:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 15:29:32.164755
- Title: Mono2Stereo: A Benchmark and Empirical Study for Stereo Conversion
- Title(参考訳): Mono2Stereo: ステレオ変換のベンチマークと実証的研究
- Authors: Songsong Yu, Yuxin Chen, Zhongang Qi, Zeke Xie, Yifan Wang, Lijun Wang, Ying Shan, Huchuan Lu,
- Abstract要約: ステレオ変換の詳細な探索を支援するため,高品質なトレーニングデータとベンチマークを提供するMono2Stereoデータセットを紹介した。
1) 左右のビューの違いは微妙であるが、既存のメトリクスでは全体のピクセルを考慮し、ステレオ効果に批判的な領域に集中できない。
本稿では, ステレオ効果に関する人間の判断と高い相関性が得られる新しい評価指標, Stereo Intersection-over-Union を提案する。
- 参考スコア(独自算出の注目度): 88.67015254278859
- License:
- Abstract: With the rapid proliferation of 3D devices and the shortage of 3D content, stereo conversion is attracting increasing attention. Recent works introduce pretrained Diffusion Models (DMs) into this task. However, due to the scarcity of large-scale training data and comprehensive benchmarks, the optimal methodologies for employing DMs in stereo conversion and the accurate evaluation of stereo effects remain largely unexplored. In this work, we introduce the Mono2Stereo dataset, providing high-quality training data and benchmark to support in-depth exploration of stereo conversion. With this dataset, we conduct an empirical study that yields two primary findings. 1) The differences between the left and right views are subtle, yet existing metrics consider overall pixels, failing to concentrate on regions critical to stereo effects. 2) Mainstream methods adopt either one-stage left-to-right generation or warp-and-inpaint pipeline, facing challenges of degraded stereo effect and image distortion respectively. Based on these findings, we introduce a new evaluation metric, Stereo Intersection-over-Union, which prioritizes disparity and achieves a high correlation with human judgments on stereo effect. Moreover, we propose a strong baseline model, harmonizing the stereo effect and image quality simultaneously, and notably surpassing current mainstream methods. Our code and data will be open-sourced to promote further research in stereo conversion. Our models are available at mono2stereo-bench.github.io.
- Abstract(参考訳): 3Dデバイスの急速な普及と3Dコンテンツの不足により、ステレオ変換が注目を集めている。
最近の研究は、この課題に事前訓練拡散モデル(DM)を導入している。
しかし、大規模なトレーニングデータや総合的なベンチマークが不足しているため、ステレオ変換にDMを用いるための最適手法や、ステレオ効果の正確な評価は未解明のままである。
本研究では,Mono2Stereoデータセットを導入し,高品質なトレーニングデータとベンチマークを提供することにより,ステレオ変換の詳細な探索を支援する。
このデータセットを用いて、2つの主要な発見をもたらす経験的研究を行う。
1) 左右のビューの違いは微妙であるが,既存のメトリクスでは全体のピクセルを考慮し,ステレオ効果に重要な領域に集中できない。
2) メインストリーム法では, 左右一段のパイプラインとワープ・アンド・インペント・パイプラインが採用され, ステレオ効果の劣化と画像歪みが問題視される。
これらの知見に基づき, 立体効果に関する人間の判断と高い相関性を示す新しい評価指標, Stereo Intersection-over-Union を導入する。
さらに,ステレオ効果と画質を同時に調和させる強力なベースラインモデルを提案する。
私たちのコードとデータは、ステレオ変換のさらなる研究を促進するためにオープンソース化されます。
当社のモデルはmono2stereo-bench.github.ioで利用可能です。
関連論文リスト
- MaDis-Stereo: Enhanced Stereo Matching via Distilled Masked Image Modeling [18.02254687807291]
近年、トランスフォーマーベースのステレオモデルが研究されており、ステレオマッチングタスクに固有のデータ不足が原因で、CNNベースのステレオモデルよりも性能が遅れている。
本研究では,Masked Image Modeling Distilled Stereo matching model(MaDis-Stereo)を提案する。
論文 参考訳(メタデータ) (2024-09-04T16:17:45Z) - RomniStereo: Recurrent Omnidirectional Stereo Matching [6.153793254880079]
本稿では,全方向ステレオマッチング (RomniStereo) アルゴリズムを提案する。
我々の最良のモデルは、以前のSOTAベースラインよりも平均MAE値が40.7%向上する。
結果の可視化では, 合成例と実例の両方において, 明らかな優位性を示す。
論文 参考訳(メタデータ) (2024-01-09T04:06:01Z) - Betray Oneself: A Novel Audio DeepFake Detection Model via
Mono-to-Stereo Conversion [70.99781219121803]
Audio Deepfake Detection (ADD)は、テキスト音声(TTS)、音声変換(VC)、再生などによって生成された偽音声を検出することを目的としている。
M2S-ADDと呼ばれる新しいADDモデルを提案する。
論文 参考訳(メタデータ) (2023-05-25T02:54:29Z) - DynamicStereo: Consistent Dynamic Depth from Stereo Videos [91.1804971397608]
ステレオビデオの相違を推定するためにDynamicStereoを提案する。
ネットワークは、その予測の時間的一貫性を改善するために、隣接するフレームからの情報をプールすることを学ぶ。
スキャンされた環境における人や動物の合成ビデオを含む新しいベンチマークデータセットであるDynamic Replicaも導入した。
論文 参考訳(メタデータ) (2023-05-03T17:40:49Z) - A novel stereo matching pipeline with robustness and unfixed disparity
search range [5.326626090397465]
ほとんどのステレオマッチング手法は一般化性能が悪く、不均一な探索範囲を必要とする。
両眼の視差に基づいて,まず半密度の視差マップを計算し,その残差を単眼で計算するステレオマッチングパイプラインを提案する。
論文 参考訳(メタデータ) (2022-04-11T04:53:25Z) - SMD-Nets: Stereo Mixture Density Networks [68.56947049719936]
SMD-Nets(Stereo Mixture Density Networks)は、幅広い2Dおよび3Dアーキテクチャに対応したシンプルで効果的な学習フレームワークです。
具体的には,バイモーダル混合密度を出力表現として活用し,不連続近傍の鋭く正確な不一致推定を可能にすることを示す。
我々は8Mpx解像度のステレオペアと現実世界のステレオデータセットからなる、新しい高解像度でリアルな合成ステレオデータセットに関する包括的な実験を行う。
論文 参考訳(メタデータ) (2021-04-08T16:15:46Z) - Reversing the cycle: self-supervised deep stereo through enhanced
monocular distillation [51.714092199995044]
多くの分野において、自己教師付き学習ソリューションは急速に進化し、教師付きアプローチでギャップを埋めている。
本稿では,両者の相互関係を逆転する自己教師型パラダイムを提案する。
深層ステレオネットワークを訓練するために,単分子完備ネットワークを通じて知識を抽出する。
論文 参考訳(メタデータ) (2020-08-17T07:40:22Z) - Expanding Sparse Guidance for Stereo Matching [24.74333370941674]
局所特徴強調のためのRGB画像に関するスパースキューを拡大する新しい空間拡張手法を提案する。
提案手法は,最先端のステレオアルゴリズムを極めてスパースな手法で大幅に向上させる。
論文 参考訳(メタデータ) (2020-04-24T06:41:11Z) - AdaStereo: A Simple and Efficient Approach for Adaptive Stereo Matching [50.06646151004375]
AdaStereoと呼ばれる新しいドメイン適応パイプラインは、ディープステレオマッチングネットワークにマルチレベル表現をアライメントすることを目的としている。
我々のAdaStereoモデルは、KITTI、Middlebury、ETH3D、DrivingStereoなど、複数のステレオベンチマークで最先端のクロスドメインパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2020-04-09T16:15:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。