論文の概要: TalkPhoto: A Versatile Training-Free Conversational Assistant for Intelligent Image Editing
- arxiv url: http://arxiv.org/abs/2601.01915v1
- Date: Mon, 05 Jan 2026 09:00:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.92531
- Title: TalkPhoto: A Versatile Training-Free Conversational Assistant for Intelligent Image Editing
- Title(参考訳): TalkPhoto: インテリジェントな画像編集のための会話アシスタント
- Authors: Yujie Hu, Zecheng Tang, Xu Jiang, Weiqi Li, Jian Zhang,
- Abstract要約: MLLM(Multimodal Large Language Models)は、命令と画像間の情報交換を促進する。
これらのフレームワークは、複数の編集タスクを処理するためにモデルをトレーニングするために、しばしばマルチインストラクションデータセットを構築する。
本研究では,対話型インタラクションによる正確な画像操作を容易にする,多目的なトレーニング不要な画像編集フレームワークであるTalkPhotoを紹介する。
- 参考スコア(独自算出の注目度): 21.708181904910177
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Thanks to the powerful language comprehension capabilities of Large Language Models (LLMs), existing instruction-based image editing methods have introduced Multimodal Large Language Models (MLLMs) to promote information exchange between instructions and images, ensuring the controllability and flexibility of image editing. However, these frameworks often build a multi-instruction dataset to train the model to handle multiple editing tasks, which is not only time-consuming and labor-intensive but also fails to achieve satisfactory results. In this paper, we present TalkPhoto, a versatile training-free image editing framework that facilitates precise image manipulation through conversational interaction. We instruct the open-source LLM with a specially designed prompt template to analyze user needs after receiving instructions and hierarchically invoke existing advanced editing methods, all without additional training. Moreover, we implement a plug-and-play and efficient invocation of image editing methods, allowing complex and unseen editing tasks to be integrated into the current framework, achieving stable and high-quality editing results. Extensive experiments demonstrate that our method not only provides more accurate invocation with fewer token consumption but also achieves higher editing quality across various image editing tasks.
- Abstract(参考訳): LLM(Large Language Models)の強力な言語理解機能のおかげで、既存の命令ベースの画像編集手法は、命令と画像間の情報交換を促進し、画像編集の制御性と柔軟性を確保するために、MLLM(Multimodal Large Language Models)を導入した。
しかしながら、これらのフレームワークは、複数の編集タスクを処理するためにモデルをトレーニングするために、しばしばマルチインストラクションデータセットを構築します。
本稿では,対話型インタラクションによる正確な画像操作を容易にする,多機能なトレーニング不要な画像編集フレームワークであるTalkPhotoを提案する。
我々はオープンソースのLCMに特別なプロンプトテンプレートを組み、命令を受け取り、既存の高度な編集手法を階層的に実行し、追加の訓練なしにユーザニーズを分析できるように指示する。
さらに,画像編集手法のプラグイン・アンド・プレイ・効率的な実行を実現し,複雑な未確認編集タスクを現在のフレームワークに統合し,安定かつ高品質な編集結果を実現する。
大規模な実験により,トークン使用量が少なくなるだけでなく,様々な画像編集タスクに対して高い編集品質が得られることがわかった。
関連論文リスト
- MIRA: Multimodal Iterative Reasoning Agent for Image Editing [48.41212094929379]
本稿では,MIRA(Multimodal Iterative Reasoning Agent)を提案する。
単一のプロンプトや静的プランを発行する代わりに、MIRAは、視覚的なフィードバックを使用して、その決定を行うために、段階的にアトミックな編集命令を予測する。
われわれの150Kマルチモーダルツール使用データセットであるMIRA-Editingと2段階のSFT + GRPOトレーニングパイプラインを組み合わせることで、MIRAは複雑な編集命令に対して推論と編集を行うことができる。
論文 参考訳(メタデータ) (2025-11-26T06:13:32Z) - BrushEdit: All-In-One Image Inpainting and Editing [76.93556996538398]
BrushEditは、インペイントベースの命令誘導画像編集パラダイムである。
本研究では,MLLMとデュアルブランチ画像の描画モデルを統合することで,自由形式の命令編集を可能にするシステムを提案する。
本フレームワークは,MLLMとインパインティングモデルを効果的に組み合わせ,7つの指標で優れた性能を実現する。
論文 参考訳(メタデータ) (2024-12-13T17:58:06Z) - SmartEdit: Exploring Complex Instruction-based Image Editing with
Multimodal Large Language Models [91.22477798288003]
本稿では,命令ベースの画像編集の新しいアプローチであるSmartEditを紹介する。
MLLM(Multimodal Large Language Models)を利用して、その理解と推論能力を強化する。
我々は,より複雑な命令に対して,SmartEditの編集機能を効果的に刺激することのできる,少量の複雑な命令編集データを示す。
論文 参考訳(メタデータ) (2023-12-11T17:54:11Z) - Emu Edit: Precise Image Editing via Recognition and Generation Tasks [62.95717180730946]
本稿では,マルチタスク画像編集モデルであるEmu Editについて述べる。
我々は、地域ベースの編集、自由形式の編集、コンピュータビジョンタスクなど、前例のない範囲でマルチタスクに訓練する。
Emu Editは画像インペイント、超解像、編集タスクの構成といった新しいタスクに、ラベル付き例で一般化できることを示す。
論文 参考訳(メタデータ) (2023-11-16T18:55:58Z) - Guiding Instruction-based Image Editing via Multimodal Large Language
Models [102.82211398699644]
マルチモーダル大言語モデル (MLLM) は, クロスモーダル理解と視覚応答生成において有望な能力を示す。
MLLMはどのようにして編集手順を容易にし、MGIE(MLLM-Guided Image Editing)を提示するかを検討する。
MGIEは表現的な指示を導き、明確なガイダンスを提供する。
論文 参考訳(メタデータ) (2023-09-29T10:01:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。