論文の概要: R-Genie: Reasoning-Guided Generative Image Editing
- arxiv url: http://arxiv.org/abs/2505.17768v1
- Date: Fri, 23 May 2025 11:41:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.034128
- Title: R-Genie: Reasoning-Guided Generative Image Editing
- Title(参考訳): R-Genie: 推論ガイドによる生成画像編集
- Authors: Dong Zhang, Lingfeng He, Rui Yan, Fei Shen, Jinhui Tang,
- Abstract要約: 複雑な多面的テキストクエリに基づいて画像を合成する推論誘導生成編集という,新たな画像編集パラダイムを導入する。
R-Genieは推論誘導型生成画像エディタであり、高度な推論機能を備えた拡散モデルの生成パワーを相乗化している。
- 参考スコア(独自算出の注目度): 41.87126578621796
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While recent advances in image editing have enabled impressive visual synthesis capabilities, current methods remain constrained by explicit textual instructions and limited editing operations, lacking deep comprehension of implicit user intentions and contextual reasoning. In this work, we introduce a new image editing paradigm: reasoning-guided generative editing, which synthesizes images based on complex, multi-faceted textual queries accepting world knowledge and intention inference. To facilitate this task, we first construct a comprehensive dataset featuring over 1,000 image-instruction-edit triples that incorporate rich reasoning contexts and real-world knowledge. We then propose R-Genie: a reasoning-guided generative image editor, which synergizes the generation power of diffusion models with advanced reasoning capabilities of multimodal large language models. R-Genie incorporates a reasoning-attention mechanism to bridge linguistic understanding with visual synthesis, enabling it to handle intricate editing requests involving abstract user intentions and contextual reasoning relations. Extensive experimental results validate that R-Genie can equip diffusion models with advanced reasoning-based editing capabilities, unlocking new potentials for intelligent image synthesis.
- Abstract(参考訳): 画像編集の最近の進歩は印象的な視覚合成機能を実現しているが、現在の手法は明示的なテキスト命令と限定的な編集操作によって制約され、暗黙的なユーザの意図や文脈的推論の深い理解が欠如している。
本研究では、世界知識と意図推論を受け入れる複雑な多面的テキストクエリに基づく画像合成を行う、推論誘導生成編集という新たな画像編集パラダイムを導入する。
この作業を容易にするために、我々はまず、豊富な推論コンテキストと実世界の知識を組み込んだ1,000以上の画像インストラクション-編集三重項を含む包括的なデータセットを構築した。
次に、R-Genieを提案する。R-Genieは、多モーダルな大言語モデルの高度な推論能力を持つ拡散モデルの生成能力を相乗化する推論誘導生成画像エディタである。
R-Genieは、言語理解と視覚合成を橋渡しする推論アテンション機構を導入し、抽象的なユーザ意図や文脈的推論関係を含む複雑な編集要求を処理できるようにする。
大規模な実験結果から、R-Genieは高度な推論に基づく編集能力を持つ拡散モデルを備え、インテリジェントな画像合成のための新しいポテンシャルを解き放つことができることが検証された。
関連論文リスト
- GoT: Unleashing Reasoning Capability of Multimodal Large Language Model for Visual Generation and Editing [66.33454784945293]
Generation Chain-of-Thought(GoT)は、明示的な言語推論プロセスを通じて生成と編集を可能にする新しいパラダイムである。
GoTは従来のテキストから画像への生成と編集を推論誘導フレームワークに変換する。
論文 参考訳(メタデータ) (2025-03-13T17:59:59Z) - InstructGIE: Towards Generalizable Image Editing [34.83188723673297]
一般化ロバスト性を高めた新しい画像編集フレームワークを提案する。
このフレームワークには、VMamba Blockを利用して、画像編集タスクに特別に最適化されたモジュールが組み込まれている。
また、生成された画像の劣化した詳細に対処し、修正するために特別に設計された、選択的な領域マッチング技術も披露する。
論文 参考訳(メタデータ) (2024-03-08T03:43:04Z) - SmartEdit: Exploring Complex Instruction-based Image Editing with
Multimodal Large Language Models [91.22477798288003]
本稿では,命令ベースの画像編集の新しいアプローチであるSmartEditを紹介する。
MLLM(Multimodal Large Language Models)を利用して、その理解と推論能力を強化する。
我々は,より複雑な命令に対して,SmartEditの編集機能を効果的に刺激することのできる,少量の複雑な命令編集データを示す。
論文 参考訳(メタデータ) (2023-12-11T17:54:11Z) - Visually-Situated Natural Language Understanding with Contrastive
Reading Model and Frozen Large Language Models [24.456117679941816]
Contrastive Reading Model (Cream)は、Large Language Models (LLM)の言語画像理解能力を高めるために設計された、新しいニューラルネットワークである。
我々のアプローチは、視覚と言語理解のギャップを埋め、より洗練されたドキュメントインテリジェンスアシスタントの開発の道を開く。
論文 参考訳(メタデータ) (2023-05-24T11:59:13Z) - SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with
Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。
ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文 参考訳(メタデータ) (2023-05-09T05:48:38Z) - Plug-and-Play Diffusion Features for Text-Driven Image-to-Image
Translation [10.39028769374367]
本稿では,画像間翻訳の領域にテキスト・ツー・イメージ合成を取り入れた新しいフレームワークを提案する。
本手法は,事前学習したテキスト・画像拡散モデルのパワーを利用して,対象のテキストに適合する新たな画像を生成する。
論文 参考訳(メタデータ) (2022-11-22T20:39:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。