Fugu-MT 論文翻訳(概要): StereoDiffusion: Training-Free Stereo Image Generation Using Latent Diffusion Models

論文の概要: StereoDiffusion: Training-Free Stereo Image Generation Using Latent Diffusion Models

arxiv url: http://arxiv.org/abs/2403.04965v1
Date: Fri, 8 Mar 2024 00:30:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-11 21:26:28.317169
Title: StereoDiffusion: Training-Free Stereo Image Generation Using Latent Diffusion Models
Title（参考訳）: stereodiffusion:潜在拡散モデルを用いたトレーニングフリーステレオ画像生成
Authors: Lezhong Wang, Jeppe Revall Frisvad, Mark Bo Jensen, Siavash Arjomand Bigdeli
Abstract要約: StereoDiffusionを紹介します。これは、無償でトレーニングし、驚くほど簡単に使用でき、元のStable Diffusionモデルにシームレスに統合する手法です。提案手法は,ステレオ画像ペアを高速に生成するためのエンドツーエンドで軽量な機能を実現するために潜時変数を変更する。提案手法はステレオ生成プロセスを通じて画像品質の基準を高く維持し,様々な定量的評価を行う。
参考スコア（独自算出の注目度）: 3.1391694651394215
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The demand for stereo images increases as manufacturers launch more XR devices. To meet this demand, we introduce StereoDiffusion, a method that, unlike traditional inpainting pipelines, is trainning free, remarkably straightforward to use, and it seamlessly integrates into the original Stable Diffusion model. Our method modifies the latent variable to provide an end-to-end, lightweight capability for fast generation of stereo image pairs, without the need for fine-tuning model weights or any post-processing of images. Using the original input to generate a left image and estimate a disparity map for it, we generate the latent vector for the right image through Stereo Pixel Shift operations, complemented by Symmetric Pixel Shift Masking Denoise and Self-Attention Layers Modification methods to align the right-side image with the left-side image. Moreover, our proposed method maintains a high standard of image quality throughout the stereo generation process, achieving state-of-the-art scores in various quantitative evaluations.
Abstract（参考訳）: ステレオ画像の需要は、メーカーがより多くのxrデバイスを発売するにつれて増加する。この要求を満たすために、従来の塗装パイプラインとは違って、自由で、驚くほど簡単に使用可能なトレーニングを行う方法であるStereoDiffusionを導入し、元のStable Diffusionモデルにシームレスに統合します。提案手法は, モデル重み付けや後処理を必要とせず, ステレオ画像ペアを高速に生成するための, エンドツーエンドで軽量な機能を実現するために潜時変数を変更する。元の入力を用いて左画像を生成し,その差分マップを推定し,左右の画像を左右に整列させるSymmetric Pixel Shift Masking DenoiseとSelf-Attention Layers Modification法で補完した,ステレオPixel Shift操作により右画像の潜時ベクトルを生成する。さらに,提案手法はステレオ生成プロセス全体で高い画質を保ち,様々な定量的評価において最先端のスコアを得る。

関連論文リスト

DMAligner: Enhancing Image Alignment via Diffusion Model Based View Synthesis [63.59932602411222]
DMAlignerは、アライメント指向ビュー合成による画像アライメントのための拡散ベースのフレームワークである。条件付き画像生成学習のためのダイナミクス対応拡散訓練手法を提案する。我々は,Blenderを用いたダイナミックシーン画像アライメント(DSIA)データセットを開発した。
論文参考訳（メタデータ） (2026-02-26T14:00:07Z)
Latent Forcing: Reordering the Diffusion Trajectory for Pixel-Space Image Generation [36.41177812868683]
遅延拡散モデルは高品質な画像を生成するのに優れるが、エンドツーエンドのモデリングの利点は失われる。本稿では,生の自然画像上での潜伏拡散の効率性を実現するため,既存のアーキテクチャを簡易に修正した潜伏強制法を提案する。 Latent Forcingは、我々の計算スケールで拡散トランスフォーマーベースのピクセル生成のための新しい最先端を実現する。
論文参考訳（メタデータ） (2026-02-11T22:09:58Z)
DMS:Diffusion-Based Multi-Baseline Stereo Generation for Improving Self-Supervised Depth Estimation [10.461837853869959]
本稿では,方向指示によって誘導される極上方向に沿った新しいビューを合成するモデルに依存しないアプローチを提案する。提案したDMSは,自己教師型ステレオマッチングと単眼深度推定をシームレスに向上する,コストフリーの'plug-and-play'法である。
論文参考訳（メタデータ） (2025-08-18T17:05:15Z)
Text2Stereo: Repurposing Stable Diffusion for Stereo Generation with Consistency Rewards [5.029575650441432]
テキストプロンプトが与えられたステレオ画像を生成するための拡散に基づく新しい手法を提案する。総合的な実験は、高品質なステレオ画像の生成における我々のアプローチの優位性を実証している。
論文参考訳（メタデータ） (2025-05-27T22:40:35Z)
StereoINR: Cross-View Geometry Consistent Stereo Super Resolution with Implicit Neural Representation [15.167871410210353]
ステレオ・イメージ・スーパーレゾリューション(SSR)はステレオ・イメージ・ペアからの情報を活用することで高解像度の細部を強化することを目的としている。従来のアップサンプリング手法では、コンボリューションを使用して異なるビューの深い特徴を独立に処理し、クロスビューや非ローカルな情報知覚を欠いている。本稿ではステレオ画像対を連続的な暗黙的表現として革新的にモデル化するステレオインプリシットニューラル表現(StereoINR)を提案する。この連続表現はスケールの制限を突破し、任意のスケールのステレオ超解像再構成のための統一的なソリューションを提供する。
論文参考訳（メタデータ） (2025-05-07T08:30:45Z)
Oscillation Inversion: Understand the structure of Large Flow Model through the Lens of Inversion Method [60.88467353578118]
実世界のイメージを逆転させる固定点インスパイアされた反復的アプローチは収束を達成せず、異なるクラスタ間で振動することを示す。本稿では,画像強調,ストロークベースのリカラー化,および視覚的プロンプト誘導画像編集を容易にする,シンプルで高速な分布転送手法を提案する。
論文参考訳（メタデータ） (2024-11-17T17:45:37Z)
MaDis-Stereo: Enhanced Stereo Matching via Distilled Masked Image Modeling [18.02254687807291]
近年、トランスフォーマーベースのステレオモデルが研究されており、ステレオマッチングタスクに固有のデータ不足が原因で、CNNベースのステレオモデルよりも性能が遅れている。本研究では,Masked Image Modeling Distilled Stereo matching model(MaDis-Stereo)を提案する。
論文参考訳（メタデータ） (2024-09-04T16:17:45Z)
Content-aware Masked Image Modeling Transformer for Stereo Image Compression [15.819672238043786]
本稿では,CAMSICというステレオ画像圧縮フレームワークを提案する。 CAMSICは各画像を潜在表現に変換し、強力なデコーダフリートランスフォーマーエントロピーモデルを用いる。実験により,本フレームワークは2つのステレオ画像データセット上で,最先端の速度歪み性能を実現することが示された。
論文参考訳（メタデータ） (2024-03-13T13:12:57Z)
Image Inpainting via Tractable Steering of Diffusion Models [54.13818673257381]
本稿では,トラクタブル確率モデル(TPM)の制約後部を正確に,かつ効率的に計算する能力を活用することを提案する。具体的には、確率回路(PC)と呼ばれる表現型TPMのクラスを採用する。提案手法は, 画像の全体的な品質とセマンティックコヒーレンスを, 計算オーバーヘッドを10%加えるだけで一貫的に改善できることを示す。
論文参考訳（メタデータ） (2023-11-28T21:14:02Z)
FreePIH: Training-Free Painterly Image Harmonization with Diffusion Model [19.170302996189335]
我々のFreePIH法は,フォアグラウンド画像スタイル転送のためのプラグインモジュールとしてデノナイズプロセスを利用する。我々は,潜伏空間における前景オブジェクトの内容と安定性の整合性を強制するために,マルチスケール機能を活用している。我々の手法は、代表的基準を大きなマージンで超えることができる。
論文参考訳（メタデータ） (2023-11-25T04:23:49Z)
Gradpaint: Gradient-Guided Inpainting with Diffusion Models [71.47496445507862]
Denoising Diffusion Probabilistic Models (DDPM) は近年,条件付きおよび非条件付き画像生成において顕著な成果を上げている。我々はGradPaintを紹介し、グローバルな一貫性のあるイメージに向けて世代を操る。我々は、様々なデータセットで訓練された拡散モデルによく適応し、現在最先端の教師付きおよび教師なしの手法を改善している。
論文参考訳（メタデータ） (2023-09-18T09:36:24Z)
Real-World Image Variation by Aligning Diffusion Inversion Chain [53.772004619296794]
生成した画像と実世界の画像の間にはドメインギャップがあり、これは実世界の画像の高品質なバリエーションを生成する上での課題である。実世界画像のアライメントによる変化(RIVAL)と呼ばれる新しい推論パイプラインを提案する。我々のパイプラインは、画像生成プロセスとソース画像の反転チェーンを整列させることにより、画像の変動の生成品質を向上させる。
論文参考訳（メタデータ） (2023-05-30T04:09:47Z)
MaskSketch: Unpaired Structure-guided Masked Image Generation [56.88038469743742]
MaskSketchは、サンプリング中の余分な条件信号としてガイドスケッチを使用して生成結果の空間的条件付けを可能にする画像生成方法である。マスク付き生成変換器の中間自己アテンションマップが入力画像の重要な構造情報を符号化していることを示す。以上の結果から,MaskSketchは誘導構造に対する高画像リアリズムと忠実性を実現する。
論文参考訳（メタデータ） (2023-02-10T20:27:02Z)
Deep Uncalibrated Photometric Stereo via Inter-Intra Image Feature Fusion [17.686973510425172]
本稿では, 深部非校正光度ステレオの新しい手法を提案する。画像間表現を効率的に利用し、正規推定を導出する。本手法は, 合成データと実データの両方において, 最先端の手法よりも有意に優れた結果が得られる。
論文参考訳（メタデータ） (2022-08-06T03:59:54Z)
Semantic Image Synthesis via Diffusion Models [174.24523061460704]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。セマンティック画像合成に関する最近の研究は、主に事実上のGANベースのアプローチに従っている。意味画像合成のためのDDPMに基づく新しいフレームワークを提案する。
論文参考訳（メタデータ） (2022-06-30T18:31:51Z)
Recursive Self-Improvement for Camera Image and Signal Processing Pipeline [6.318974730864278]
現在のカメラ画像と信号処理パイプライン(ISP)は、画像全体に一様に適用される単一のフィルタを適用する傾向がある。これは、ほとんどの取得したカメラ画像が空間的に異質なアーティファクトを持っているにもかかわらずである。学習された潜在部分空間で動作する深層強化学習モデルを提案する。
論文参考訳（メタデータ） (2021-11-15T02:23:40Z)
Neural Radiance Fields Approach to Deep Multi-View Photometric Stereo [103.08512487830669]
多視点測光ステレオ問題(MVPS)に対する現代的な解法を提案する。我々は、光度ステレオ(PS)画像形成モデルを用いて表面配向を取得し、それを多視点のニューラルラディアンス場表現とブレンドして物体の表面形状を復元する。本手法は,多視点画像のニューラルレンダリングを行い,深部光度ステレオネットワークによって推定される表面の正規性を活用している。
論文参考訳（メタデータ） (2021-10-11T20:20:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。