論文の概要: CAMILA: Context-Aware Masking for Image Editing with Language Alignment
- arxiv url: http://arxiv.org/abs/2509.19731v2
- Date: Wed, 01 Oct 2025 19:11:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 12:04:55.840634
- Title: CAMILA: Context-Aware Masking for Image Editing with Language Alignment
- Title(参考訳): CAMILA: 言語アライメントによる画像編集のためのコンテキスト対応マスキング
- Authors: Hyunseung Kim, Chiho Choi, Srikanth Malla, Sai Prahladh Padmanabhan, Saurabh Bagchi, Joon Hee Choi,
- Abstract要約: 本稿では,CAMILAと命名された画像編集のためのコンテキスト認識手法を提案する。
CAMILAは、命令と画像間のコンテキスト的コヒーレンスを検証するように設計されている。
提案手法は,最先端モデルよりも優れた性能とセマンティックアライメントを実現する。
- 参考スコア(独自算出の注目度): 19.448726702919416
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Text-guided image editing has been allowing users to transform and synthesize images through natural language instructions, offering considerable flexibility. However, most existing image editing models naively attempt to follow all user instructions, even if those instructions are inherently infeasible or contradictory, often resulting in nonsensical output. To address these challenges, we propose a context-aware method for image editing named as CAMILA (Context-Aware Masking for Image Editing with Language Alignment). CAMILA is designed to validate the contextual coherence between instructions and the image, ensuring that only relevant edits are applied to the designated regions while ignoring non-executable instructions. For comprehensive evaluation of this new method, we constructed datasets for both single- and multi-instruction image editing, incorporating the presence of infeasible requests. Our method achieves better performance and higher semantic alignment than state-of-the-art models, demonstrating its effectiveness in handling complex instruction challenges while preserving image integrity.
- Abstract(参考訳): テキストガイドによる画像編集により、ユーザーは自然言語による画像の変換と合成が可能になった。
しかしながら、既存のほとんどの画像編集モデルは、本質的には不可能または矛盾した命令であっても、すべてのユーザー命令を否定的に追従しようと試み、しばしば非意味な出力をもたらす。
これらの課題に対処するため,CAMILA (Context-Aware Masking for Image Editing with Language Alignment) という画像編集手法を提案する。
CAMILAは、命令と画像の間のコンテキスト的一貫性を検証するように設計されており、実行不可能な命令を無視しながら、関連する編集のみを指定された領域に適用することを保証する。
提案手法を総合的に評価するために,提案手法は単一および複数命令の画像編集のためのデータセットを構築し,実現不可能な要求の存在を取り入れた。
本手法は,画像の整合性を保ちながら複雑な命令問題に対処する上での有効性を実証し,最先端モデルよりも優れた性能とセマンティックアライメントを実現する。
関連論文リスト
- Describe, Don't Dictate: Semantic Image Editing with Natural Language Intent [38.61468007698179]
そこで我々は,DescriptiveEditという記述型プロンプトベースの編集フレームワークを提案する。
中心となる考え方は「参照画像に基づくテキスト・ツー・イメージ生成」としての命令ベースの画像編集を再構築することである。
論文 参考訳(メタデータ) (2025-08-28T07:45:08Z) - FireEdit: Fine-grained Instruction-based Image Editing via Region-aware Vision Language Model [54.693572837423226]
FireEditは、Region対応のVLMを利用する、革新的なインストラクションベースの画像編集フレームワークである。
FireEditは、ユーザの指示を正確に理解し、編集プロセスの効果的な制御を保証するように設計されている。
提案手法は,最先端の命令ベース画像編集手法を超越した手法である。
論文 参考訳(メタデータ) (2025-03-25T16:59:42Z) - FreeEdit: Mask-free Reference-based Image Editing with Multi-modal Instruction [31.95664918050255]
FreeEditは参照ベースの画像編集を実現するための新しいアプローチである。
ユーザフレンドリーな言語命令に基づいて参照画像から視覚概念を正確に再現することができる。
論文 参考訳(メタデータ) (2024-09-26T17:18:39Z) - DM-Align: Leveraging the Power of Natural Language Instructions to Make Changes to Images [55.546024767130994]
本稿では,画像のどの部分を変更するか,保存するかを明確に推論することで,画像エディタのテキストベースの制御を強化する新しいモデルを提案する。
元のソースイメージの記述と必要な更新を反映する命令と入力イメージとの間の単語アライメントに依存する。
Bisonデータセットのサブセットと、Dreamと呼ばれる自己定義データセットで評価される。
論文 参考訳(メタデータ) (2024-04-27T22:45:47Z) - InstructBrush: Learning Attention-based Instruction Optimization for Image Editing [54.07526261513434]
InstructBrushは命令ベースの画像編集方法の逆変換手法である。
画像ペアから編集命令として編集効果を抽出し、さらに画像編集に適用する。
提案手法は,編集性能に優れ,目的の編集効果とセマンティックに一致している。
論文 参考訳(メタデータ) (2024-03-27T15:03:38Z) - ZONE: Zero-Shot Instruction-Guided Local Editing [56.56213730578504]
ゼロショットインストラクションを用いた局所画像編集手法ZONEを提案する。
InstructPix2Pixを通してユーザが提供する命令から特定の画像編集領域に変換する。
次に,オフザシェルフセグメントモデルから正確な画像層抽出を行う領域IoU方式を提案する。
論文 参考訳(メタデータ) (2023-12-28T02:54:34Z) - Visual Instruction Inversion: Image Editing via Visual Prompting [34.96778567507126]
本稿では,視覚的プロンプトによる画像編集手法を提案する。
テキストと画像の拡散モデルのリッチで事前訓練された編集機能を利用して、視覚的なプロンプトを編集命令に反転させる。
論文 参考訳(メタデータ) (2023-07-26T17:50:10Z) - LEDITS: Real Image Editing with DDPM Inversion and Semantic Guidance [0.0]
LEDITSはリアルタイム編集のための軽量なアプローチであり、Edit Friendly DDPMインバージョン技術とSemantic Guidanceを統合している。
このアプローチは、微妙で広範囲な編集や構成やスタイルの変更といった多彩な編集を実現すると同時に、アーキテクチャの最適化や拡張も必要としない。
論文 参考訳(メタデータ) (2023-07-02T09:11:09Z) - DiffEdit: Diffusion-based semantic image editing with mask guidance [64.555930158319]
DiffEditは、セマンティック画像編集のタスクにテキスト条件付き拡散モデルを利用する方法である。
私たちの主なコントリビューションは、編集が必要な入力画像の領域をハイライトするマスクを自動的に生成できることです。
論文 参考訳(メタデータ) (2022-10-20T17:16:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。