論文の概要: Editor's Choice: Evaluating Abstract Intent in Image Editing through Atomic Entity Analysis
- arxiv url: http://arxiv.org/abs/2605.14842v1
- Date: Thu, 14 May 2026 13:46:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-16 00:43:04.128031
- Title: Editor's Choice: Evaluating Abstract Intent in Image Editing through Atomic Entity Analysis
- Title(参考訳): 編集者の選択:アトミックエンティティ分析による画像編集における抽象インテントの評価
- Authors: Mor Ventura, Roy Hirsch, Yonatan Bitton, Regev Cohen, Roi Reichart,
- Abstract要約: 我々は抽象画像編集の定義と分類を定式化する。
抽象的な編集を個々のエンティティレベルのアセスメントに分解するフレームワークであるEntity-Rubricsを紹介します。
抽象画像編集に特化した最初のベンチマークであるAbstractEditをコントリビュートする。
- 参考スコア(独自算出の注目度): 25.778492153141666
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans naturally communicate through abstract concepts like "mood". However, current image editing benchmarks focus primarily on explicit, literal commands, leaving abstract instructions largely underexplored. In this work, we first formalize the definition and taxonomy of abstract image editing. To measure instruction-following in this challenging domain, we introduce Entity-Rubrics, a framework that breaks down abstract edits into individual, entity-level assessments and achieves strong correlation with human judgment. Alongside this framework, we contribute AbstractEdit, the first benchmark dedicated to abstract image editing across diverse real-world scenes. Evaluating 11 leading models on this dataset reveals a fundamental challenge: standard architectures struggle to balance intent and preservation, commonly defaulting to under-editing or over-editing. Our analysis demonstrates that driving meaningful improvements relies heavily on integrating advanced LLM text encoders and iterative thinking. Looking forward, our entity-based paradigm can generalize beyond assessment to serve as a reward model, enable models to correctly interpret abstract communication, or highlight specific failures in test-time critique loops. Ultimately, we hope this work serves as a stepping stone toward seamless multimodal interaction, closing the gap between rigid machine execution and the natural, open-ended way humans communicate.
- Abstract(参考訳): 人間は自然に「ムード」のような抽象概念を通してコミュニケーションする。
しかし、現在の画像編集ベンチマークは主に明示的でリテラルなコマンドに焦点を当てており、抽象的な命令はほとんど探索されていない。
本稿ではまず,抽象画像編集の定義と分類を定式化する。
本稿では,抽象的な編集を個々のエンティティレベルの評価に分解し,人間の判断と強く相関するフレームワークであるEntity-Rubricsを紹介する。
このフレームワークとともに、さまざまな現実世界のシーンにまたがる抽象的な画像編集に特化した最初のベンチマークであるAbstractEditにコントリビュートする。
標準アーキテクチャはインテントと保存のバランスをとるのに苦労し、通常、過度に編集されるか過剰に編集される。
本分析は,高度なLCMテキストエンコーダと反復的思考の統合に大きく依存していることを示す。
今後、私たちのエンティティベースのパラダイムは、評価を超えて報酬モデルとして機能し、モデルで抽象的なコミュニケーションを正しく解釈したり、テストタイムの批判ループで特定の失敗をハイライトしたりすることが可能になります。
最終的には、この作業がシームレスなマルチモーダルインタラクションに向けた一歩として機能し、厳格なマシン実行と、人間がコミュニケーションする自然でオープンな方法のギャップを埋めることを期待しています。
関連論文リスト
- Probing Visual Planning in Image Editing Models [9.427970566064213]
本稿では,一段階のイメージ変換として視覚計画を再構成する編集・アズ・ア・レーソンのパラダイムであるEARを提案する。
固有推論を視覚認識から分離するために,探索課題として抽象パズルを用いる。
論文 参考訳(メタデータ) (2026-04-23T19:00:31Z) - Disentangling to Re-couple: Resolving the Similarity-Controllability Paradox in Subject-Driven Text-to-Image Generation [38.61976178933174]
視覚情報とテキスト情報を再結合するフレームワークであるDisCoを提案する。
提案手法はパラドックスを効果的に解決し,高忠実度被写体保存と正確なテキスト制御を同時に実現する。
論文 参考訳(メタデータ) (2026-04-01T13:03:11Z) - GRADE: Benchmarking Discipline-Informed Reasoning in Image Editing [67.29558599215902]
GRADEは、画像編集において、規律に反する知識と推論を評価する最初のベンチマークである。
GRADEは10の学術領域で520の慎重にキュレートされたサンプルで構成されている。
論文 参考訳(メタデータ) (2026-03-12T17:59:52Z) - Bridging Cognitive Gap: Hierarchical Description Learning for Artistic Image Aesthetics Assessment [51.40989269202702]
審美的品質評価タスクは,AIGCの定量的評価システムの開発に不可欠である。
本研究では,記述生成による美的次元の分離を図った芸術的画像の美的評価フレームワークであるArtQuantを提案する。
提案手法は,従来のトレーニングの33%しか必要とせず,いくつかのデータセット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-12-29T12:18:26Z) - EditThinker: Unlocking Iterative Reasoning for Any Image Editor [72.28251670314451]
編集中に「考える」ための熟考的な編集フレームワークを提案する。
このフレームワークの推論エンジンとして機能するために、単一のMLLM、EditThinkerをトレーニングします。
我々は、強化学習を用いて、EditThinkerの思考をその編集と整合させ、よりターゲットを絞った命令改善を生成する。
論文 参考訳(メタデータ) (2025-12-05T18:58:09Z) - Think Visually, Reason Textually: Vision-Language Synergy in ARC [94.15522924153264]
ARC-AGIは、概念ルールの誘導と新しいタスクへの転送のための厳格なテストベッドである。
既存のほとんどの手法は、ARC-AGIを純粋にテキストによる推論タスクとして扱い、人間が視覚的抽象化に強く依存しているという事実を見落としている。
VLSR(Vision-Language Synergy Reasoning)とMSSC(Modality-Switch Self-Correction)の2つの相乗的戦略を導入する。
本研究は,視覚的抽象と言語的推論を一体化させることが,汎用的な人間的な知性を実現するための重要なステップであることを示唆している。
論文 参考訳(メタデータ) (2025-11-19T18:59:04Z) - Beyond Textual CoT: Interleaved Text-Image Chains with Deep Confidence Reasoning for Image Editing [32.36623938012829]
CoT(Chain-of-Thought)は、複雑なビジュアルレイアウトを表現する能力に制限がある。
本稿では,視覚的編集過程を純粋にテキストベースの推論からインターリーブな論理へとシフトさせるためのマルチモーダル推論編集(MURE)を提案する。
14Kの高品質な編集例を含む最初のCoT-Edit-14Kデータセットをリリースする。
論文 参考訳(メタデータ) (2025-10-09T12:36:51Z) - InteractEdit: Zero-Shot Editing of Human-Object Interactions in Images [42.8116807595149]
ゼロショット・ヒューマン・オブジェクト・インタラクション(HOI)編集のための新しいフレームワークであるInteractEditを提案する。
画像内の既存のインタラクションを、対象と対象のアイデンティティを保持しながら、新しい望ましいインタラクションに変換する。
実験の結果,InteractEditは既存の手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-03-12T07:40:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。