Fugu-MT 論文翻訳(概要): OPa-Ma: Text Guided Mamba for 360-degree Image Out-painting

論文の概要: OPa-Ma: Text Guided Mamba for 360-degree Image Out-painting

arxiv url: http://arxiv.org/abs/2407.10923v1
Date: Mon, 15 Jul 2024 17:23:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-16 14:00:49.043420
Title: OPa-Ma: Text Guided Mamba for 360-degree Image Out-painting
Title（参考訳）: OPa-Ma:360度画像出力用テキストガイドマンバ
Authors: Penglei Gao, Kai Yao, Tiandi Ye, Steven Wang, Yuan Yao, Xiaofeng Wang,
Abstract要約: 我々は,従来の狭視野画像(NFoV)から360度画像を生成するという,最近の話題に対処する。この課題は、NFoV画像から合理的で一貫した環境を予測することを目的としている。そこで本稿では,Mambaと呼ばれる状態空間モデルを備えた新しいテキスト誘導アウトペイントフレームワークを提案する。
参考スコア（独自算出の注目度）: 9.870063736691556
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: In this paper, we tackle the recently popular topic of generating 360-degree images given the conventional narrow field of view (NFoV) images that could be taken from a single camera or cellphone. This task aims to predict the reasonable and consistent surroundings from the NFoV images. Existing methods for feature extraction and fusion, often built with transformer-based architectures, incur substantial memory usage and computational expense. They also have limitations in maintaining visual continuity across the entire 360-degree images, which could cause inconsistent texture and style generation. To solve the aforementioned issues, we propose a novel text-guided out-painting framework equipped with a State-Space Model called Mamba to utilize its long-sequence modelling and spatial continuity. Furthermore, incorporating textual information is an effective strategy for guiding image generation, enriching the process with detailed context and increasing diversity. Efficiently extracting textual features and integrating them with image attributes presents a significant challenge for 360-degree image out-painting. To address this, we develop two modules, Visual-textual Consistency Refiner (VCR) and Global-local Mamba Adapter (GMA). VCR enhances contextual richness by fusing the modified text features with the image features, while GMA provides adaptive state-selective conditions by capturing the information flow from global to local representations. Our proposed method achieves state-of-the-art performance with extensive experiments on two broadly used 360-degree image datasets, including indoor and outdoor settings.
Abstract（参考訳）: 本稿では,従来の狭視野画像(NFoV)を1台のカメラや携帯電話から撮影できるため,最近普及している360度画像生成の課題に対処する。この課題は、NFoV画像から合理的で一貫した環境を予測することを目的としている。既存の特徴抽出と融合の方法は、しばしばトランスフォーマーベースのアーキテクチャで構築され、かなりのメモリ使用量と計算コストを発生させる。また、360度画像全体の視覚的連続性を維持するのにも限界があり、一貫性のないテクスチャやスタイルの生成を引き起こす可能性がある。以上の問題を解決するために,Mambaと呼ばれる状態空間モデルを備えた新しいテキストガイド付きアウトペイントフレームワークを提案し,その長文のモデリングと空間連続性を利用する。さらに、テキスト情報の導入は、画像生成を誘導し、詳細なコンテキストでプロセスを強化し、多様性を増大させる効果的な戦略である。テキストの特徴を効率的に抽出し、画像属性と統合することは、360度のアウトペイントにとって重要な課題である。そこで我々は,VCR(Visual-textual Consistency Refiner)とGMA(Global-local Mamba Adapter)という2つのモジュールを開発した。 VCRは、修正されたテキスト特徴を画像特徴と融合させ、GMAは、グローバルからローカルへの情報フローをキャプチャすることで、適応的な状態選択条件を提供する。提案手法は,室内環境や屋外環境など,広義に使用されている2つの360度画像データセットに対する広範な実験により,最先端性能を実現する。

関連論文リスト

A Survey on Text-Driven 360-Degree Panorama Generation [31.86065545952698]
テキスト駆動型360度パノラマ生成は没入型視覚コンテンツ生成の革新的進歩である。テキスト・画像拡散モデルの最近の進歩は、この新興分野の急速な発展を加速させている。このサーベイは、最先端のアルゴリズムの詳細な分析と、360度3Dシーン生成におけるその拡張的応用を提供する。
論文参考訳（メタデータ） (2025-02-20T18:19:57Z)
Visual Text Generation in the Wild [67.37458807253064]
野生で高品質なテキスト画像を生成する視覚テキスト生成装置(SceneVTG)を提案する。提案したSceneVTGは、従来のレンダリングに基づく手法と最近の拡散に基づく手法を、忠実さと理性の観点から大きく上回っている。生成された画像は、テキスト検出とテキスト認識を含むタスクに優れたユーティリティを提供する。
論文参考訳（メタデータ） (2024-07-19T09:08:20Z)
VIP: Versatile Image Outpainting Empowered by Multimodal Large Language Model [76.02314305164595]
本研究は,ユーザの要求に応じて結果のカスタマイズが可能な,新たな画像出力フレームワークを提案する。画像のマスキング部分とマスキング部分のテキスト記述を自動的に抽出し整理するマルチモーダル大言語モデル(MLLM)を利用する。さらに、画像の特定の空間領域とテキストプロンプトの対応する部分との相互作用を強化するために、特別にCentral-Total-Surrounding (CTS) と呼ばれるCentral-Attentionモジュールが精巧に設計されている。
論文参考訳（メタデータ） (2024-06-03T07:14:19Z)
TextCoT: Zoom In for Enhanced Multimodal Text-Rich Image Understanding [91.30065932213758]
大規模マルチモーダルモデル(LMM)は、その顕著な推論能力を活用することを目的とした研究の急増を引き起こした。テキストリッチな画像理解のための新しいChain-of-ThoughtフレームワークであるTextCoTを提案する。私たちのメソッドは追加のトレーニングが不要で、即時プラグアンドプレイ機能を提供します。
論文参考訳（メタデータ） (2024-04-15T13:54:35Z)
A Novel State Space Model with Local Enhancement and State Sharing for Image Fusion [14.293042131263924]
画像融合タスクでは、異なるソースからのイメージは異なる特徴を持つ。状態空間モデルとしてのMambaは自然言語処理の分野で登場している。これらの課題に感化されて、画像融合タスク用に設計されたMambaネットワークをカスタマイズし、改善する。
論文参考訳（メタデータ） (2024-04-14T16:09:33Z)
Taming Stable Diffusion for Text to 360° Panorama Image Generation [74.69314801406763]
そこで本研究では,テキストプロンプトから360度画像を生成するためにPanFusionという2分岐拡散モデルを提案する。本研究では,協調的認知過程における歪みを最小限に抑えるために,投射認識を備えたユニークなクロスアテンション機構を提案する。
論文参考訳（メタデータ） (2024-04-11T17:46:14Z)
MULAN: A Multi Layer Annotated Dataset for Controllable Text-to-Image Generation [54.64194935409982]
44K MUlti-Layer-wise RGBA 分解からなる新しいデータセット MuLAn を紹介する。 MuLAnは、高品質な画像のインスタンス分解と空間情報を提供する最初のフォトリアリスティックなリソースである。我々は,新しい生成・編集技術,特にレイヤワイドソリューションの開発を促進することを目的としている。
論文参考訳（メタデータ） (2024-04-03T14:58:00Z)
Locate, Assign, Refine: Taming Customized Image Inpainting with Text-Subject Guidance [17.251982243534144]
LAR-Genは、マスクされたシーンイメージのシームレスなインペイントを可能にする、画像インペイントのための新しいアプローチである。提案手法は,主観的アイデンティティの保存と局所的セマンティック・コヒーレンスを確保するために,粗大かつきめの手法を採用する。実験と様々な応用シナリオは、アイデンティティ保存とテキストセマンティック一貫性の両方の観点から、LAR-Genの優位性を示している。
論文参考訳（メタデータ） (2024-03-28T16:07:55Z)
3D-aware Image Generation and Editing with Multi-modal Conditions [6.444512435220748]
1つの2Dセマンティックラベルから3D一貫性のある画像を生成することは、コンピュータグラフィックスとコンピュータビジョンにおいて重要かつ困難な研究トピックである。複数種類の条件入力を組み込んだ新しい3D画像生成・編集モデルを提案する。提案手法は,異なるノイズを持つ多様な画像を生成し,テキスト記述を通じて属性を編集し,参照RGB画像を与えることでスタイル転送を行う。
論文参考訳（メタデータ） (2024-03-11T07:10:37Z)
Autoregressive Omni-Aware Outpainting for Open-Vocabulary 360-Degree Image Generation [36.45222068699805]
AOG-Netは、NFoVとテキストガイダンスを併用または個別に、不完全な画像を段階的に描画することで、360度画像生成のために提案される。各自己回帰ステップにおいて、アウトペイントガイダンスを定式化するために、グローバルローカルコンディショニング機構が考案された。室内と屋外の両方でよく使用される2つの360度画像データセットに関する総合実験により,提案手法の最先端性能が実証された。
論文参考訳（メタデータ） (2023-09-07T03:22:59Z)
Story Visualization by Online Text Augmentation with Context Memory [64.86944645907771]
オンラインテキスト拡張による双方向トランスフォーマーフレームワークのための新しいメモリアーキテクチャを提案する。提案手法は, FID, キャラクタF1, フレーム精度, BLEU-2/3, R精度など, 様々な指標において, 芸術の状態を著しく上回っている。
論文参考訳（メタデータ） (2023-08-15T05:08:12Z)
Guided Co-Modulated GAN for 360{\deg} Field of View Extrapolation [15.850166450573756]
一つの画像から360度視野を抽出する手法を提案する。提案手法は, 従来の画像品質指標よりも高い精度で, 最新の結果が得られる。
論文参考訳（メタデータ） (2022-04-15T01:48:35Z)
Bridging Composite and Real: Towards End-to-end Deep Image Matting [88.79857806542006]
画像マッチングにおける意味論と細部の役割について検討する。本稿では,共有エンコーダと2つの分離デコーダを用いた新しいGlance and Focus Matting Network(GFM)を提案する。総合的な実証研究により、GFMは最先端の手法より優れていることが示されている。
論文参考訳（メタデータ） (2020-10-30T10:57:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。