論文の概要: TOSS:High-quality Text-guided Novel View Synthesis from a Single Image
- arxiv url: http://arxiv.org/abs/2310.10644v1
- Date: Mon, 16 Oct 2023 17:59:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 12:19:02.154458
- Title: TOSS:High-quality Text-guided Novel View Synthesis from a Single Image
- Title(参考訳): TOSS:単一画像からの高品質テキスト誘導型新規ビュー合成
- Authors: Yukai Shi, Jianan Wang, He Cao, Boshi Tang, Xianbiao Qi, Tianyu Yang,
Yukun Huang, Shilong Liu, Lei Zhang, Heung-Yeung Shum
- Abstract要約: 本稿では,単一のRGB画像から,新しいビュー合成(NVS)タスクにテキストを導入するTOSSについて述べる。
この制限に対処するため、TOSSはテキストを高レベルのセマンティック情報として使用し、NVSソリューション空間を制限している。
- 参考スコア(独自算出の注目度): 36.90122394242858
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present TOSS, which introduces text to the task of novel
view synthesis (NVS) from just a single RGB image. While Zero-1-to-3 has
demonstrated impressive zero-shot open-set NVS capability, it treats NVS as a
pure image-to-image translation problem. This approach suffers from the
challengingly under-constrained nature of single-view NVS: the process lacks
means of explicit user control and often results in implausible NVS
generations. To address this limitation, TOSS uses text as high-level semantic
information to constrain the NVS solution space. TOSS fine-tunes text-to-image
Stable Diffusion pre-trained on large-scale text-image pairs and introduces
modules specifically tailored to image and camera pose conditioning, as well as
dedicated training for pose correctness and preservation of fine details.
Comprehensive experiments are conducted with results showing that our proposed
TOSS outperforms Zero-1-to-3 with more plausible, controllable and
multiview-consistent NVS results. We further support these results with
comprehensive ablations that underscore the effectiveness and potential of the
introduced semantic guidance and architecture design.
- Abstract(参考訳): 本稿では,単一のRGB画像から新しいビュー合成(NVS)タスクにテキストを導入するTOSSを提案する。
Zero-1-to-3 は、ゼロショットのオープンセット NVS の機能を示すが、NVS を純粋な画像から画像への変換問題として扱う。
このアプローチはシングルビューnvsの難易度の低い性質に苦しんでいる: このプロセスは明示的なユーザー制御の手段がなく、しばしば目立たないnvs世代をもたらす。
この制限に対処するため、TOSSはテキストを高レベルのセマンティック情報として使用し、NVSソリューション空間を制限している。
tossは、大規模なテキスト画像ペアで事前訓練されたテキストから画像への安定拡散を微調整し、画像とカメラのポーズコンディショニングに特化したモジュールを導入した。
提案したTOSSはZero-1-to-3より優れ, 可塑性, 制御性, マルチビュー一貫性を有するNVSよりも優れていた。
導入したセマンティックガイダンスとアーキテクチャ設計の有効性と可能性を裏付ける包括的改善によって、これらの結果をさらに支援する。
関連論文リスト
- Ctrl123: Consistent Novel View Synthesis via Closed-Loop Transcription [23.517622316025772]
新規ビュー合成(NVS)における画像拡散モデルによるゼロショット能力の実証
既存の拡散に基づくNVS法は、対応する真実のポーズや外観と正確に一致した新しいビューを生成するのに苦労する。
そこで我々はCtrl123を提案する。Ctrl123はクローズドループの転写に基づくNVS拡散法で、生成したビューとグラウンドの真実をポーズに敏感な特徴空間でアライメントする。
論文 参考訳(メタデータ) (2024-03-16T15:39:23Z) - Novel View Synthesis with View-Dependent Effects from a Single Image [35.85973300177698]
まず、単一画像に基づく新規ビュー合成(NVS)問題に対するビュー依存効果を検討する。
我々は、NVSにおけるカメラモーションの先行性を利用して、視覚に依存した外観や効果(VDE)をシーン内の負の相違としてモデル化することを提案する。
本稿では,提案手法がVDEを用いてNVSを学習できることを示すとともに,RealEstate10kおよびMannequinChallengeデータセット上でのSOTAシングルビューNVS法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-12-13T11:29:47Z) - UniFine: A Unified and Fine-grained Approach for Zero-shot
Vision-Language Understanding [84.83494254263138]
ゼロショット視覚言語学習のための微細な情報を利用する統一的なフレームワークを提案する。
我々のフレームワークは従来のVQAのゼロショット法よりも優れており、SNLI-VEとVCRの大幅な改善を実現している。
論文 参考訳(メタデータ) (2023-07-03T09:03:12Z) - Implicit Neural Representation for Cooperative Low-light Image
Enhancement [10.484180571326565]
我々は,NeRCoと呼ばれる,協調的低照度画像強調のための暗黙的ニューラル表現法を提案する。
NeRCoは、現実世界のシーンの多様な劣化要因を制御可能なフィッティング機能と統合し、より堅牢性をもたらす。
結果として,事前学習した視覚言語モデルから,事前学習によるセマンティック・オリエント・インテリジェンスを導入する。
論文 参考訳(メタデータ) (2023-03-21T10:24:29Z) - High-Fidelity Guided Image Synthesis with Latent Diffusion Models [50.39294302741698]
提案手法は, ユーザ満足度スコアを85.32%以上上回り, 従来の最先端技術よりも優れていた。
人的ユーザ調査の結果、提案手法は、全体のユーザ満足度スコアにおいて、従来の最先端技術よりも85.32%以上優れていたことが示されている。
論文 参考訳(メタデータ) (2022-11-30T15:43:20Z) - DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis [80.54273334640285]
本稿では,異なる生成装置間の絡み合わずに高解像度画像を直接合成する,新しい1段階のテキスト・ツー・イメージバックボーンを提案する。
また,Matching-Aware Gradient Penalty と One-Way Output を組み合わせた新たなターゲット認識識別器を提案する。
現在の最先端手法と比較して,提案するDF-GANはよりシンプルだが,現実的およびテキストマッチング画像の合成には効率的である。
論文 参考訳(メタデータ) (2020-08-13T12:51:17Z) - Hyperspectral Image Super-resolution via Deep Progressive Zero-centric
Residual Learning [62.52242684874278]
空間情報とスペクトル情報の相互モダリティ分布が問題となる。
本稿では,PZRes-Netという,新しいテクスライトウェイトなディープニューラルネットワークベースのフレームワークを提案する。
本フレームワークは,高分解能かつテクテッセロ中心の残像を学習し,シーンの空間的詳細を高頻度で表現する。
論文 参考訳(メタデータ) (2020-06-18T06:32:11Z) - Scene Text Image Super-Resolution in the Wild [112.90416737357141]
低解像度のテキスト画像は、携帯電話が捉えた文書のような自然の場面でよく見られる。
従来は、合成低解像度画像に対して、単一の画像超解像法 (SISR) を訓練していた。
実際のシーンテキストSRデータセットであるTextZoomをプロポーズする。
この写真には、野生の焦点距離の異なるカメラが捉えた、実際の低解像度と高解像度の2つの画像が含まれている。
論文 参考訳(メタデータ) (2020-05-07T09:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。