Fugu-MT 論文翻訳(概要): R-Genie: Reasoning-Guided Generative Image Editing

論文の概要: R-Genie: Reasoning-Guided Generative Image Editing

arxiv url: http://arxiv.org/abs/2505.17768v1
Date: Fri, 23 May 2025 11:41:26 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-26 18:08:34.034128
Title: R-Genie: Reasoning-Guided Generative Image Editing
Title（参考訳）: R-Genie: 推論ガイドによる生成画像編集
Authors: Dong Zhang, Lingfeng He, Rui Yan, Fei Shen, Jinhui Tang,
Abstract要約: 複雑な多面的テキストクエリに基づいて画像を合成する推論誘導生成編集という,新たな画像編集パラダイムを導入する。 R-Genieは推論誘導型生成画像エディタであり、高度な推論機能を備えた拡散モデルの生成パワーを相乗化している。
参考スコア（独自算出の注目度）: 41.87126578621796
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While recent advances in image editing have enabled impressive visual synthesis capabilities, current methods remain constrained by explicit textual instructions and limited editing operations, lacking deep comprehension of implicit user intentions and contextual reasoning. In this work, we introduce a new image editing paradigm: reasoning-guided generative editing, which synthesizes images based on complex, multi-faceted textual queries accepting world knowledge and intention inference. To facilitate this task, we first construct a comprehensive dataset featuring over 1,000 image-instruction-edit triples that incorporate rich reasoning contexts and real-world knowledge. We then propose R-Genie: a reasoning-guided generative image editor, which synergizes the generation power of diffusion models with advanced reasoning capabilities of multimodal large language models. R-Genie incorporates a reasoning-attention mechanism to bridge linguistic understanding with visual synthesis, enabling it to handle intricate editing requests involving abstract user intentions and contextual reasoning relations. Extensive experimental results validate that R-Genie can equip diffusion models with advanced reasoning-based editing capabilities, unlocking new potentials for intelligent image synthesis.
Abstract（参考訳）: 画像編集の最近の進歩は印象的な視覚合成機能を実現しているが、現在の手法は明示的なテキスト命令と限定的な編集操作によって制約され、暗黙的なユーザの意図や文脈的推論の深い理解が欠如している。本研究では、世界知識と意図推論を受け入れる複雑な多面的テキストクエリに基づく画像合成を行う、推論誘導生成編集という新たな画像編集パラダイムを導入する。この作業を容易にするために、我々はまず、豊富な推論コンテキストと実世界の知識を組み込んだ1,000以上の画像インストラクション-編集三重項を含む包括的なデータセットを構築した。次に、R-Genieを提案する。R-Genieは、多モーダルな大言語モデルの高度な推論能力を持つ拡散モデルの生成能力を相乗化する推論誘導生成画像エディタである。 R-Genieは、言語理解と視覚合成を橋渡しする推論アテンション機構を導入し、抽象的なユーザ意図や文脈的推論関係を含む複雑な編集要求を処理できるようにする。大規模な実験結果から、R-Genieは高度な推論に基づく編集能力を持つ拡散モデルを備え、インテリジェントな画像合成のための新しいポテンシャルを解き放つことができることが検証された。

関連論文リスト

RePrompt: Reasoning-Augmented Reprompting for Text-to-Image Generation via Reinforcement Learning [88.14234949860105]
RePromptは、強化学習による迅速な強化プロセスに明示的な推論を導入する、新しいリプロンプトフレームワークである。提案手法は,人手による注釈付きデータなしでエンドツーエンドのトレーニングを可能にする。
論文参考訳（メタデータ） (2025-05-23T06:44:26Z)
Image-Editing Specialists: An RLAIF Approach for Diffusion Models [28.807572302899004]
本稿では,特殊命令に基づく画像編集拡散モデルを訓練するための新しいアプローチを提案する。拡散モデルと人間の嗜好を一致させるオンライン強化学習フレームワークを導入する。実験結果から, 複雑なシーンにおいて, 10ステップで複雑な編集を行うことができることがわかった。
論文参考訳（メタデータ） (2025-04-17T10:46:39Z)
GoT: Unleashing Reasoning Capability of Multimodal Large Language Model for Visual Generation and Editing [66.33454784945293]
Generation Chain-of-Thought(GoT)は、明示的な言語推論プロセスを通じて生成と編集を可能にする新しいパラダイムである。 GoTは従来のテキストから画像への生成と編集を推論誘導フレームワークに変換する。
論文参考訳（メタデータ） (2025-03-13T17:59:59Z)
InstructGIE: Towards Generalizable Image Editing [34.83188723673297]
一般化ロバスト性を高めた新しい画像編集フレームワークを提案する。このフレームワークには、VMamba Blockを利用して、画像編集タスクに特別に最適化されたモジュールが組み込まれている。また、生成された画像の劣化した詳細に対処し、修正するために特別に設計された、選択的な領域マッチング技術も披露する。
論文参考訳（メタデータ） (2024-03-08T03:43:04Z)
SmartEdit: Exploring Complex Instruction-based Image Editing with Multimodal Large Language Models [91.22477798288003]
本稿では,命令ベースの画像編集の新しいアプローチであるSmartEditを紹介する。 MLLM(Multimodal Large Language Models)を利用して、その理解と推論能力を強化する。我々は,より複雑な命令に対して,SmartEditの編集機能を効果的に刺激することのできる,少量の複雑な命令編集データを示す。
論文参考訳（メタデータ） (2023-12-11T17:54:11Z)
Visually-Situated Natural Language Understanding with Contrastive Reading Model and Frozen Large Language Models [24.456117679941816]
Contrastive Reading Model (Cream)は、Large Language Models (LLM)の言語画像理解能力を高めるために設計された、新しいニューラルネットワークである。我々のアプローチは、視覚と言語理解のギャップを埋め、より洗練されたドキュメントインテリジェンスアシスタントの開発の道を開く。
論文参考訳（メタデータ） (2023-05-24T11:59:13Z)
SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文参考訳（メタデータ） (2023-05-09T05:48:38Z)
Plug-and-Play Diffusion Features for Text-Driven Image-to-Image Translation [10.39028769374367]
本稿では,画像間翻訳の領域にテキスト・ツー・イメージ合成を取り入れた新しいフレームワークを提案する。本手法は,事前学習したテキスト・画像拡散モデルのパワーを利用して,対象のテキストに適合する新たな画像を生成する。
論文参考訳（メタデータ） (2022-11-22T20:39:18Z)
Learning by Planning: Language-Guided Global Image Editing [53.72807421111136]
あいまいな編集言語要求を一連の編集操作にマッピングするテキスト・ツー・オペレーティング・モデルを開発した。タスクの唯一の監督はターゲットイメージであり、シーケンシャルな決定の安定したトレーニングには不十分である。本研究では,対象画像から可能な編集シーケンスを疑似基底真理として生成する,新たな操作計画アルゴリズムを提案する。
論文参考訳（メタデータ） (2021-06-24T16:30:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。