論文の概要: OPa-Ma: Text Guided Mamba for 360-degree Image Out-painting
- arxiv url: http://arxiv.org/abs/2407.10923v1
- Date: Mon, 15 Jul 2024 17:23:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 14:00:49.043420
- Title: OPa-Ma: Text Guided Mamba for 360-degree Image Out-painting
- Title(参考訳): OPa-Ma:360度画像出力用テキストガイドマンバ
- Authors: Penglei Gao, Kai Yao, Tiandi Ye, Steven Wang, Yuan Yao, Xiaofeng Wang,
- Abstract要約: 我々は,従来の狭視野画像(NFoV)から360度画像を生成するという,最近の話題に対処する。
この課題は、NFoV画像から合理的で一貫した環境を予測することを目的としている。
そこで本稿では,Mambaと呼ばれる状態空間モデルを備えた新しいテキスト誘導アウトペイントフレームワークを提案する。
- 参考スコア(独自算出の注目度): 9.870063736691556
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we tackle the recently popular topic of generating 360-degree images given the conventional narrow field of view (NFoV) images that could be taken from a single camera or cellphone. This task aims to predict the reasonable and consistent surroundings from the NFoV images. Existing methods for feature extraction and fusion, often built with transformer-based architectures, incur substantial memory usage and computational expense. They also have limitations in maintaining visual continuity across the entire 360-degree images, which could cause inconsistent texture and style generation. To solve the aforementioned issues, we propose a novel text-guided out-painting framework equipped with a State-Space Model called Mamba to utilize its long-sequence modelling and spatial continuity. Furthermore, incorporating textual information is an effective strategy for guiding image generation, enriching the process with detailed context and increasing diversity. Efficiently extracting textual features and integrating them with image attributes presents a significant challenge for 360-degree image out-painting. To address this, we develop two modules, Visual-textual Consistency Refiner (VCR) and Global-local Mamba Adapter (GMA). VCR enhances contextual richness by fusing the modified text features with the image features, while GMA provides adaptive state-selective conditions by capturing the information flow from global to local representations. Our proposed method achieves state-of-the-art performance with extensive experiments on two broadly used 360-degree image datasets, including indoor and outdoor settings.
- Abstract(参考訳): 本稿では,従来の狭視野画像(NFoV)を1台のカメラや携帯電話から撮影できるため,最近普及している360度画像生成の課題に対処する。
この課題は、NFoV画像から合理的で一貫した環境を予測することを目的としている。
既存の特徴抽出と融合の方法は、しばしばトランスフォーマーベースのアーキテクチャで構築され、かなりのメモリ使用量と計算コストを発生させる。
また、360度画像全体の視覚的連続性を維持するのにも限界があり、一貫性のないテクスチャやスタイルの生成を引き起こす可能性がある。
以上の問題を解決するために,Mambaと呼ばれる状態空間モデルを備えた新しいテキストガイド付きアウトペイントフレームワークを提案し,その長文のモデリングと空間連続性を利用する。
さらに、テキスト情報の導入は、画像生成を誘導し、詳細なコンテキストでプロセスを強化し、多様性を増大させる効果的な戦略である。
テキストの特徴を効率的に抽出し、画像属性と統合することは、360度のアウトペイントにとって重要な課題である。
そこで我々は,VCR(Visual-textual Consistency Refiner)とGMA(Global-local Mamba Adapter)という2つのモジュールを開発した。
VCRは、修正されたテキスト特徴を画像特徴と融合させ、GMAは、グローバルからローカルへの情報フローをキャプチャすることで、適応的な状態選択条件を提供する。
提案手法は,室内環境や屋外環境など,広義に使用されている2つの360度画像データセットに対する広範な実験により,最先端性能を実現する。
関連論文リスト
- A Survey on Text-Driven 360-Degree Panorama Generation [31.86065545952698]
テキスト駆動型360度パノラマ生成は没入型視覚コンテンツ生成の革新的進歩である。
テキスト・画像拡散モデルの最近の進歩は、この新興分野の急速な発展を加速させている。
このサーベイは、最先端のアルゴリズムの詳細な分析と、360度3Dシーン生成におけるその拡張的応用を提供する。
論文 参考訳(メタデータ) (2025-02-20T18:19:57Z) - Visual Text Generation in the Wild [67.37458807253064]
野生で高品質なテキスト画像を生成する視覚テキスト生成装置(SceneVTG)を提案する。
提案したSceneVTGは、従来のレンダリングに基づく手法と最近の拡散に基づく手法を、忠実さと理性の観点から大きく上回っている。
生成された画像は、テキスト検出とテキスト認識を含むタスクに優れたユーティリティを提供する。
論文 参考訳(メタデータ) (2024-07-19T09:08:20Z) - TextCoT: Zoom In for Enhanced Multimodal Text-Rich Image Understanding [91.30065932213758]
大規模マルチモーダルモデル(LMM)は、その顕著な推論能力を活用することを目的とした研究の急増を引き起こした。
テキストリッチな画像理解のための新しいChain-of-ThoughtフレームワークであるTextCoTを提案する。
私たちのメソッドは追加のトレーニングが不要で、即時プラグアンドプレイ機能を提供します。
論文 参考訳(メタデータ) (2024-04-15T13:54:35Z) - A Novel State Space Model with Local Enhancement and State Sharing for Image Fusion [14.293042131263924]
画像融合タスクでは、異なるソースからのイメージは異なる特徴を持つ。
状態空間モデルとしてのMambaは自然言語処理の分野で登場している。
これらの課題に感化されて、画像融合タスク用に設計されたMambaネットワークをカスタマイズし、改善する。
論文 参考訳(メタデータ) (2024-04-14T16:09:33Z) - Taming Stable Diffusion for Text to 360° Panorama Image Generation [74.69314801406763]
そこで本研究では,テキストプロンプトから360度画像を生成するためにPanFusionという2分岐拡散モデルを提案する。
本研究では,協調的認知過程における歪みを最小限に抑えるために,投射認識を備えたユニークなクロスアテンション機構を提案する。
論文 参考訳(メタデータ) (2024-04-11T17:46:14Z) - MULAN: A Multi Layer Annotated Dataset for Controllable Text-to-Image Generation [54.64194935409982]
44K MUlti-Layer-wise RGBA 分解からなる新しいデータセット MuLAn を紹介する。
MuLAnは、高品質な画像のインスタンス分解と空間情報を提供する最初のフォトリアリスティックなリソースである。
我々は,新しい生成・編集技術,特にレイヤワイドソリューションの開発を促進することを目的としている。
論文 参考訳(メタデータ) (2024-04-03T14:58:00Z) - Locate, Assign, Refine: Taming Customized Promptable Image Inpainting [22.163855501668206]
本稿では,マルチモーダル・プロンプト・イメージ・インパインティング・プロジェクト,新しいタスクモデル,カスタマイズされたイメージ・インパインティングのためのデータを紹介する。
マスクプロンプトに対応する画像中の特定の領域をシームレスに塗布できる,画像塗布の新しいアプローチであるLAR-Genを提案する。
我々のLAR-Genは、ソースイメージのコンテキスト整合性、主観的アイデンティティ整合性、テキスト記述に対する局所的セマンティック整合性、滑らか性整合性を保証するために粗大な方法で採用しています。
論文 参考訳(メタデータ) (2024-03-28T16:07:55Z) - Autoregressive Omni-Aware Outpainting for Open-Vocabulary 360-Degree Image Generation [36.45222068699805]
AOG-Netは、NFoVとテキストガイダンスを併用または個別に、不完全な画像を段階的に描画することで、360度画像生成のために提案される。
各自己回帰ステップにおいて、アウトペイントガイダンスを定式化するために、グローバルローカルコンディショニング機構が考案された。
室内と屋外の両方でよく使用される2つの360度画像データセットに関する総合実験により,提案手法の最先端性能が実証された。
論文 参考訳(メタデータ) (2023-09-07T03:22:59Z) - Story Visualization by Online Text Augmentation with Context Memory [64.86944645907771]
オンラインテキスト拡張による双方向トランスフォーマーフレームワークのための新しいメモリアーキテクチャを提案する。
提案手法は, FID, キャラクタF1, フレーム精度, BLEU-2/3, R精度など, 様々な指標において, 芸術の状態を著しく上回っている。
論文 参考訳(メタデータ) (2023-08-15T05:08:12Z) - Guided Co-Modulated GAN for 360{\deg} Field of View Extrapolation [15.850166450573756]
一つの画像から360度視野を抽出する手法を提案する。
提案手法は, 従来の画像品質指標よりも高い精度で, 最新の結果が得られる。
論文 参考訳(メタデータ) (2022-04-15T01:48:35Z) - Bridging Composite and Real: Towards End-to-end Deep Image Matting [88.79857806542006]
画像マッチングにおける意味論と細部の役割について検討する。
本稿では,共有エンコーダと2つの分離デコーダを用いた新しいGlance and Focus Matting Network(GFM)を提案する。
総合的な実証研究により、GFMは最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2020-10-30T10:57:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。