論文の概要: How Well Do Models Follow Visual Instructions? VIBE: A Systematic Benchmark for Visual Instruction-Driven Image Editing
- arxiv url: http://arxiv.org/abs/2602.01851v1
- Date: Mon, 02 Feb 2026 09:24:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.038514
- Title: How Well Do Models Follow Visual Instructions? VIBE: A Systematic Benchmark for Visual Instruction-Driven Image Editing
- Title(参考訳): VIBE:ビジュアルインストラクション駆動画像編集のためのシステムベンチマーク
- Authors: Huanyu Zhang, Xuehai Bai, Chengzu Li, Chen Liang, Haochen Tian, Haodong Li, Ruichuan An, Yifan Zhang, Anna Korhonen, Zhang Zhang, Liang Wang, Tieniu Tan,
- Abstract要約: 我々は,3段階の相互作用階層を導入し,決定的接地,形態的操作,因果推論を捉える。
本稿では,スケーラブルできめ細かい評価を実現するために,タスク固有のメトリクスを備えた堅牢なLMM-as-a-judge評価フレームワークを提案する。
プロプライエタリなモデルは早期の視覚指示追従能力を示し、一貫してオープンソースモデルを上回っていることがわかった。
- 参考スコア(独自算出の注目度): 56.60465182650588
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent generative models have achieved remarkable progress in image editing. However, existing systems and benchmarks remain largely text-guided. In contrast, human communication is inherently multimodal, where visual instructions such as sketches efficiently convey spatial and structural intent. To address this gap, we introduce VIBE, the Visual Instruction Benchmark for Image Editing with a three-level interaction hierarchy that captures deictic grounding, morphological manipulation, and causal reasoning. Across these levels, we curate high-quality and diverse test cases that reflect progressively increasing complexity in visual instruction following. We further propose a robust LMM-as-a-judge evaluation framework with task-specific metrics to enable scalable and fine-grained assessment. Through a comprehensive evaluation of 17 representative open-source and proprietary image editing models, we find that proprietary models exhibit early-stage visual instruction-following capabilities and consistently outperform open-source models. However, performance degrades markedly with increasing task difficulty even for the strongest systems, highlighting promising directions for future research.
- Abstract(参考訳): 最近の生成モデルは画像編集において顕著な進歩を遂げている。
しかし、既存のシステムとベンチマークは、主にテキスト誘導されている。
対照的に、人間のコミュニケーションは本質的にマルチモーダルであり、スケッチのような視覚的な指示は空間的および構造的意図を効率的に伝達する。
このギャップに対処するため,画像編集のためのVisual Instruction BenchmarkであるVIBEを導入する。
これらのレベルにわたって、視覚的指示の複雑さが徐々に増加することを反映した高品質で多様なテストケースをキュレートする。
さらに、スケーラブルできめ細かい評価を実現するために、タスク固有のメトリクスを備えた堅牢なLMM-as-a-judge評価フレームワークを提案する。
17のオープンソースおよびプロプライエタリな画像編集モデルの総合的な評価により,プロプライエタリなモデルが早期の視覚指示追従能力を示し,一貫してオープンソースモデルを上回っていることが判明した。
しかし、性能は著しく低下し、最強のシステムでもタスクの難しさが増し、将来の研究への有望な方向性が浮き彫りになった。
関連論文リスト
- AMVICC: A Novel Benchmark for Cross-Modal Failure Mode Profiling for VLMs and IGMs [2.357397994148727]
マルチモーダル大言語モデル (MLLM) と画像生成モデル (IGM) について検討した。
我々は、画像からテキストまでのタスクとテキストから画像までのタスクの障害モードを比較するための新しいベンチマークを作成しました。
この結果から,障害モードはモデルとモダリティの間で共有されることが多いが,特定の障害はモデル固有かつモダリティ固有であることがわかった。
論文 参考訳(メタデータ) (2026-01-20T00:06:58Z) - More Images, More Problems? A Controlled Analysis of VLM Failure Modes [80.64323947730905]
大規模視覚言語モデル (LVLM) は目覚ましい能力を示しているが、複数の画像に対する理解と推論の能力は未解明のままである。
LVLMのマルチイメージ能力を厳格に評価する新しいベンチマークMIMICを紹介する。
論文 参考訳(メタデータ) (2026-01-12T18:45:13Z) - Image-POSER: Reflective RL for Multi-Expert Image Generation and Editing [16.943575863059607]
Image-POSERは、事前訓練されたテキスト・ツー・イメージの専門家とイメージ・ツー・イメージの専門家の多様なレジストリをオーケストレーションする。
動的タスクの分解を通じて、エンドツーエンドのプロンプトを処理します。
人間の評価において常に好まれる。
論文 参考訳(メタデータ) (2025-11-15T03:15:34Z) - Factuality Matters: When Image Generation and Editing Meet Structured Visuals [46.627460447235855]
我々は、13万の高品質な構造化画像対からなる大規模データセットを構築した。
FLUX.1 KontextとVLMを統合する統一モデルを訓練する。
3段階のトレーニングカリキュラムは、プログレッシブな特徴アライメント、知識の注入、推論による生成を可能にする。
論文 参考訳(メタデータ) (2025-10-06T17:56:55Z) - EdiVal-Agent: An Object-Centric Framework for Automated, Fine-Grained Evaluation of Multi-Turn Editing [170.71134330650796]
EdiVal-Agentは、命令ベースの画像編集のためのオブジェクト指向評価フレームワークである。
標準のシングルターンだけでなく、マルチターンの命令ベースの編集を精度良く評価するように設計されている。
EdiVal-Benchは、インコンテキスト、フローマッチング、拡散パラダイムにまたがる9つの命令タイプと13の最先端編集モデルをカバーするベンチマークである。
論文 参考訳(メタデータ) (2025-09-16T17:45:39Z) - Text-Visual Semantic Constrained AI-Generated Image Quality Assessment [47.575342788480505]
本稿では,AI生成画像におけるテキスト画像の一貫性と知覚歪みの両方を包括的に評価する統合フレームワークを提案する。
このアプローチでは、複数のモデルから重要な機能を統合し、2つのコアモジュールを導入することで、上記の課題に取り組む。
複数のベンチマークデータセットで実施されたテストは、SC-AGIQAが既存の最先端メソッドより優れていることを示している。
論文 参考訳(メタデータ) (2025-07-14T16:21:05Z) - InstructCV: Instruction-Tuned Text-to-Image Diffusion Models as Vision Generalists [66.85125112199898]
我々は,タスク固有の設計選択を抽象化する,コンピュータビジョンタスクのための統一言語インタフェースを開発する。
InstructCVと呼ばれる我々のモデルは、他のジェネラリストやタスク固有の視覚モデルと比較して競合的に機能する。
論文 参考訳(メタデータ) (2023-09-30T14:26:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。