論文の概要: Text2Stereo: Repurposing Stable Diffusion for Stereo Generation with Consistency Rewards
- arxiv url: http://arxiv.org/abs/2506.05367v1
- Date: Tue, 27 May 2025 22:40:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 03:13:19.010601
- Title: Text2Stereo: Repurposing Stable Diffusion for Stereo Generation with Consistency Rewards
- Title(参考訳): Text2Stereo: 一貫性を持ったステレオ生成のための安定拡散の再利用
- Authors: Aakash Garg, Libing Zeng, Andrii Tsarov, Nima Khademi Kalantari,
- Abstract要約: テキストプロンプトが与えられたステレオ画像を生成するための拡散に基づく新しい手法を提案する。
総合的な実験は、高品質なステレオ画像の生成における我々のアプローチの優位性を実証している。
- 参考スコア(独自算出の注目度): 5.029575650441432
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose a novel diffusion-based approach to generate stereo images given a text prompt. Since stereo image datasets with large baselines are scarce, training a diffusion model from scratch is not feasible. Therefore, we propose leveraging the strong priors learned by Stable Diffusion and fine-tuning it on stereo image datasets to adapt it to the task of stereo generation. To improve stereo consistency and text-to-image alignment, we further tune the model using prompt alignment and our proposed stereo consistency reward functions. Comprehensive experiments demonstrate the superiority of our approach in generating high-quality stereo images across diverse scenarios, outperforming existing methods.
- Abstract(参考訳): 本稿では,テキストプロンプトが与えられたステレオ画像を生成するための拡散に基づく新しい手法を提案する。
大きなベースラインを持つステレオ画像データセットは少ないため、スクラッチから拡散モデルを訓練することは不可能である。
そこで本研究では,安定拡散法で学習した強い事前知識を活用し,ステレオ画像データセットに微調整することで,ステレオ画像生成のタスクに適応する手法を提案する。
ステレオアライメントとテキスト・ツー・イメージアライメントを改善するため,提案したステレオアライメント・アライメントとステレオアライメント報酬関数を用いてモデルをさらに調整する。
様々なシナリオにまたがる高品質なステレオ画像の生成において,我々のアプローチの優位性を実証し,既存手法より優れていることを示す。
関連論文リスト
- Boosting Omnidirectional Stereo Matching with a Pre-trained Depth Foundation Model [62.37493746544967]
カメラベースの設定は、立体深度推定を用いて高解像度の高解像度深度マップを生成することで、コスト効率のよい選択肢を提供する。
既存の全方位ステレオマッチング手法は、様々な環境において限られた深度精度しか達成できない。
DFI-OmniStereoは, 大規模事前学習基礎モデルを用いて, 相対的な単眼深度推定を行う新しい全方位ステレオマッチング法である。
論文 参考訳(メタデータ) (2025-03-30T16:24:22Z) - Mono2Stereo: A Benchmark and Empirical Study for Stereo Conversion [88.67015254278859]
ステレオ変換の詳細な探索を支援するため,高品質なトレーニングデータとベンチマークを提供するMono2Stereoデータセットを紹介した。
1) 左右のビューの違いは微妙であるが、既存のメトリクスでは全体のピクセルを考慮し、ステレオ効果に批判的な領域に集中できない。
本稿では, ステレオ効果に関する人間の判断と高い相関性が得られる新しい評価指標, Stereo Intersection-over-Union を提案する。
論文 参考訳(メタデータ) (2025-03-28T09:25:58Z) - GenStereo: Towards Open-World Generation of Stereo Images and Unsupervised Matching [9.322869042942504]
GenStereoは、ステレオ画像生成への拡散ベースのアプローチである。
視認の視覚的品質と整合の幾何学的精度を両立させる。
当社のフレームワークは,高品質なステレオ画像生成を実現しつつ,複雑なハードウェアセットアップの必要性を排除している。
論文 参考訳(メタデータ) (2025-03-17T01:19:28Z) - ZeroStereo: Zero-shot Stereo Matching from Single Images [17.560148513475387]
ゼロショットステレオマッチングのための新しいステレオ画像生成パイプラインであるZeroStereoを提案する。
提案手法は, 単眼深度推定モデルにより生成された擬似格差を利用して, 高品質な右画像の合成を行う。
我々のパイプラインは、Scene Flowに匹敵するデータセットボリュームで複数のデータセットにまたがる最先端のゼロショット一般化を実現する。
論文 参考訳(メタデータ) (2025-01-15T08:43:48Z) - MaDis-Stereo: Enhanced Stereo Matching via Distilled Masked Image Modeling [18.02254687807291]
近年、トランスフォーマーベースのステレオモデルが研究されており、ステレオマッチングタスクに固有のデータ不足が原因で、CNNベースのステレオモデルよりも性能が遅れている。
本研究では,Masked Image Modeling Distilled Stereo matching model(MaDis-Stereo)を提案する。
論文 参考訳(メタデータ) (2024-09-04T16:17:45Z) - StereoDiffusion: Training-Free Stereo Image Generation Using Latent Diffusion Models [2.9260206957981167]
StereoDiffusionを紹介します。これは、無償でトレーニングし、驚くほど簡単に使用でき、元のStable Diffusionモデルにシームレスに統合する手法です。
提案手法は,ステレオ画像ペアを高速に生成するためのエンドツーエンドで軽量な機能を実現するために潜時変数を変更する。
提案手法はステレオ生成プロセスを通じて画像品質の基準を高く維持し,様々な定量的評価を行う。
論文 参考訳(メタデータ) (2024-03-08T00:30:25Z) - DynamicStereo: Consistent Dynamic Depth from Stereo Videos [91.1804971397608]
ステレオビデオの相違を推定するためにDynamicStereoを提案する。
ネットワークは、その予測の時間的一貫性を改善するために、隣接するフレームからの情報をプールすることを学ぶ。
スキャンされた環境における人や動物の合成ビデオを含む新しいベンチマークデータセットであるDynamic Replicaも導入した。
論文 参考訳(メタデータ) (2023-05-03T17:40:49Z) - Single-View View Synthesis with Self-Rectified Pseudo-Stereo [49.946151180828465]
疑似ステレオ視点を生成する前に、信頼性と明示的なステレオを利用する。
本稿では,自己修正ステレオ合成法を提案する。
本手法は,最先端の単一ビュービュー合成法およびステレオ合成法より優れる。
論文 参考訳(メタデータ) (2023-04-19T09:36:13Z) - SMD-Nets: Stereo Mixture Density Networks [68.56947049719936]
SMD-Nets(Stereo Mixture Density Networks)は、幅広い2Dおよび3Dアーキテクチャに対応したシンプルで効果的な学習フレームワークです。
具体的には,バイモーダル混合密度を出力表現として活用し,不連続近傍の鋭く正確な不一致推定を可能にすることを示す。
我々は8Mpx解像度のステレオペアと現実世界のステレオデータセットからなる、新しい高解像度でリアルな合成ステレオデータセットに関する包括的な実験を行う。
論文 参考訳(メタデータ) (2021-04-08T16:15:46Z) - AdaStereo: A Simple and Efficient Approach for Adaptive Stereo Matching [50.06646151004375]
AdaStereoと呼ばれる新しいドメイン適応パイプラインは、ディープステレオマッチングネットワークにマルチレベル表現をアライメントすることを目的としている。
我々のAdaStereoモデルは、KITTI、Middlebury、ETH3D、DrivingStereoなど、複数のステレオベンチマークで最先端のクロスドメインパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2020-04-09T16:15:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。