論文の概要: Omni$^2$: Unifying Omnidirectional Image Generation and Editing in an Omni Model
- arxiv url: http://arxiv.org/abs/2504.11379v1
- Date: Tue, 15 Apr 2025 16:53:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:09:33.377596
- Title: Omni$^2$: Unifying Omnidirectional Image Generation and Editing in an Omni Model
- Title(参考訳): Omni$^2$:Omniモデルにおける全方位画像生成と編集の統合
- Authors: Liu Yang, Huiyu Duan, Yucheng Zhu, Xiaohong Liu, Lu Liu, Zitong Xu, Guangji Ma, Xiongkuo Min, Guangtao Zhai, Patrick Le Callet,
- Abstract要約: 約360ドルで全方位画像(ODI)が注目されており、様々なバーチャルリアリティ(VR)や拡張現実(AR)アプリケーションで広く利用されている。
我々は,テキストバウンサーラインOmniの方向性画像生成と編集のためのテキストバウンサーラインOmniモデルを提案する。
- 参考スコア(独自算出の注目度): 68.22694334531224
- License:
- Abstract: $360^{\circ}$ omnidirectional images (ODIs) have gained considerable attention recently, and are widely used in various virtual reality (VR) and augmented reality (AR) applications. However, capturing such images is expensive and requires specialized equipment, making ODI synthesis increasingly important. While common 2D image generation and editing methods are rapidly advancing, these models struggle to deliver satisfactory results when generating or editing ODIs due to the unique format and broad 360$^{\circ}$ Field-of-View (FoV) of ODIs. To bridge this gap, we construct \textbf{\textit{Any2Omni}}, the first comprehensive ODI generation-editing dataset comprises 60,000+ training data covering diverse input conditions and up to 9 ODI generation and editing tasks. Built upon Any2Omni, we propose an \textbf{\underline{Omni}} model for \textbf{\underline{Omni}}-directional image generation and editing (\textbf{\textit{Omni$^2$}}), with the capability of handling various ODI generation and editing tasks under diverse input conditions using one model. Extensive experiments demonstrate the superiority and effectiveness of the proposed Omni$^2$ model for both the ODI generation and editing tasks.
- Abstract(参考訳): 360^{\circ}$ omnidirectional image (ODIs)は近年注目を集めており、様々なバーチャルリアリティ(VR)や拡張現実(AR)アプリケーションで広く利用されている。
しかし、このような画像のキャプチャは高価であり、特殊な装置を必要とするため、ODI合成がますます重要になる。
一般的な2D画像生成・編集手法は急速に進歩しているが,ODIの生成・編集には独自のフォーマットと広義の360$^{\circ}$FoV(Field-of-View)により満足な結果が得られない。
このギャップを埋めるために、最初の総合的なODI生成編集データセットである \textbf{\textit{Any2Omni}} を構築し、様々な入力条件と最大9つのODI生成および編集タスクをカバーする6万以上のトレーニングデータを含む。
我々は,Any2Omniをベースとして,さまざまなODI生成および編集タスクを多種多様な入力条件下で処理する機能を備えた,方向画像の生成と編集(\textbf{\textit{Omni$^2$}})のための \textbf{\underline{Omni}} モデルを提案する。
ODI生成タスクと編集タスクの両方に対して提案したOmni$^2$モデルの優位性と有効性を示す。
関連論文リスト
- DreamOmni: Unified Image Generation and Editing [51.45871494724542]
本稿では,画像生成と編集の統一モデルであるDream Omniを紹介する。
訓練のためにドリーム・オムニはT2I世代と下流のタスクを共同で訓練する。
このコラボレーションは、編集性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-12-22T17:17:28Z) - Portrait Video Editing Empowered by Multimodal Generative Priors [39.747581584889495]
マルチモーダルプロンプトを用いた一貫した表現型スタイリングを実現する強力なポートレートビデオ編集手法であるPortraitGenを紹介する。
提案手法は,大規模2次元生成モデルから抽出した知識によるマルチモーダル入力を取り入れたものである。
また,表情類似性指導と顔認識画像編集モジュールを内蔵し,反復的データセット更新に伴う劣化問題を効果的に軽減する。
論文 参考訳(メタデータ) (2024-09-20T15:45:13Z) - A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models [117.77807994397784]
画像編集は、ユーザーが特定の要求を満たすために、与えられた合成画像または実際の画像を編集することを目的としている。
この分野での最近の顕著な進歩は、テキスト・ツー・イメージ(T2I)拡散モデルの開発に基づいている。
T2Iベースの画像編集手法は、編集性能を大幅に向上させ、マルチモーダル入力でガイドされたコンテンツを修正するためのユーザフレンドリーなインタフェースを提供する。
論文 参考訳(メタデータ) (2024-06-20T17:58:52Z) - OmniControlNet: Dual-stage Integration for Conditional Image Generation [61.1432268643639]
我々は、外部条件生成アルゴリズムを1つの高密度予測法に統合することにより、広く採用されているコントロールネットの双方向統合を提供する。
提案したOmniControlNetは,1)タスク埋め込み指導下での1つのマルチタスク高密度予測アルゴリズムによる条件生成と,2)テキスト埋め込み指導下での異なる条件付き画像生成プロセスを統合した。
論文 参考訳(メタデータ) (2024-06-09T18:03:47Z) - SEED-Data-Edit Technical Report: A Hybrid Dataset for Instructional Image Editing [53.00272278754867]
SEED-Data-Editは命令誘導画像編集のためのハイブリッドデータセットである。
自動パイプラインによって生成された高品質な編集データ。
インターネットから収集された実世界のシナリオデータ。
人間によって注釈付けされた高精度マルチターン編集データ。
論文 参考訳(メタデータ) (2024-05-07T04:55:47Z) - Latent Space Editing in Transformer-Based Flow Matching [53.75073756305241]
Flow Matching with a transformer backboneはスケーラブルで高品質な生成モデリングの可能性を秘めている。
編集スペースである$u$-spaceを導入し、制御可能で、蓄積可能で、構成可能な方法で操作できる。
最後に,テキストプロンプトを用いた微粒でニュアンスな編集を実現するための,単純かつ強力な手法を提案する。
論文 参考訳(メタデータ) (2023-12-17T21:49:59Z) - BIVDiff: A Training-Free Framework for General-Purpose Video Synthesis via Bridging Image and Video Diffusion Models [40.73982918337828]
本稿では,bf BIVDiffと呼ばれるトレーニング不要な汎用ビデオ合成フレームワークを提案する。
具体的には、まず、フレームワイドビデオ生成に特定の画像拡散モデル(例えば、ControlNetとInstruct Pix2Pix)を使用し、その後、生成されたビデオ上でMixed Inversionを行い、最後に、反転潜時をビデオ拡散モデルに入力する。
論文 参考訳(メタデータ) (2023-12-05T14:56:55Z) - EdiBERT, a generative model for image editing [12.605607949417033]
EdiBERTは、ベクトル量子化オートエンコーダによって構築された離散潜在空間で訓練された双方向変換器である。
結果のモデルが,多種多様なタスクにおける最先端のパフォーマンスと一致することを示す。
論文 参考訳(メタデータ) (2021-11-30T10:23:06Z) - Omni-Directional Image Generation from Single Snapshot Image [0.0]
ODI(Omni-directional image)は、カメラの周囲の球体全体を覆う視野を持つ画像である。
本稿では,単一スナップショット画像からODIを生成する新しいコンピュータビジョンタスクを提案する。
論文 参考訳(メタデータ) (2020-10-12T11:12:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。