論文の概要: Agent Banana: High-Fidelity Image Editing with Agentic Thinking and Tooling
- arxiv url: http://arxiv.org/abs/2602.09084v1
- Date: Mon, 09 Feb 2026 18:59:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.190292
- Title: Agent Banana: High-Fidelity Image Editing with Agentic Thinking and Tooling
- Title(参考訳): エージェント・バナ:エージェント思考とツールによる高忠実な画像編集
- Authors: Ruijie Ye, Jiayi Zhang, Zhuoxin Liu, Zihao Zhu, Siyuan Yang, Li Li, Tianfu Fu, Franck Dernoncourt, Yue Zhao, Jiacheng Zhu, Ryan Rossi, Wenhao Chai, Zhengzhong Tu,
- Abstract要約: エージェント・バナは階層的なエージェント・プランナー・エグゼクティブ・フレームワークであり、高忠実で、オブジェクト指向で、熟考的な編集を行う。
Context Foldingは、長い相互作用履歴を構造化メモリに圧縮し、安定した長距離制御を行う。
Image Layer Decompositionは、非ターゲット領域を保存するために、ローカライズされたレイヤベースの編集を実行する。
- 参考スコア(独自算出の注目度): 69.36546486569146
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study instruction-based image editing under professional workflows and identify three persistent challenges: (i) editors often over-edit, modifying content beyond the user's intent; (ii) existing models are largely single-turn, while multi-turn edits can alter object faithfulness; and (iii) evaluation at around 1K resolution is misaligned with real workflows that often operate on ultra high-definition images (e.g., 4K). We propose Agent Banana, a hierarchical agentic planner-executor framework for high-fidelity, object-aware, deliberative editing. Agent Banana introduces two key mechanisms: (1) Context Folding, which compresses long interaction histories into structured memory for stable long-horizon control; and (2) Image Layer Decomposition, which performs localized layer-based edits to preserve non-target regions while enabling native-resolution outputs. To support rigorous evaluation, we build HDD-Bench, a high-definition, dialogue-based benchmark featuring verifiable stepwise targets and native 4K images (11.8M pixels) for diagnosing long-horizon failures. On HDD-Bench, Agent Banana achieves the best multi-turn consistency and background fidelity (e.g., IC 0.871, SSIM-OM 0.84, LPIPS-OM 0.12) while remaining competitive on instruction following, and also attains strong performance on standard single-turn editing benchmarks. We hope this work advances reliable, professional-grade agentic image editing and its integration into real workflows.
- Abstract(参考訳): プロのワークフロー下での教示に基づく画像編集について検討し,3つの課題を抽出する。
(i)編集者は、しばしば過度に編集され、ユーザの意図を超えた内容を変更する。
(二)既存のモデルは概ね単ターンであるが、多ターン編集はオブジェクトの忠実度を変えることができる。
(iii) 約1Kの解像度での評価は、しばしば超高精細画像(例:4K)で動く実際のワークフローと不一致である。
本稿では,階層型エージェント・プランナ・エグゼクティブ・フレームワークであるAgens Bananaを提案する。
エージェント・バナナは,(1)長い相互作用履歴を安定な長水平制御のために構造化メモリに圧縮するコンテキストフォールディング,(2)非ターゲット領域をネイティブ解像度で出力しながら,局所的なレイヤベースの編集を行うイメージ層分解という2つの重要なメカニズムを導入している。
厳密な評価を支援するために,検証可能なステップワイズターゲットとネイティブ4K画像(11.8Mピクセル)を特徴とする高精細な対話型ベンチマークであるHDD-Benchを構築した。
HDD-Benchでは、Agens Bananaはマルチターンの一貫性とバックグラウンドの忠実度(IC 0.871、SSIM-OM 0.84、LPIPS-OM 0.12)を最良に達成し、通常のシングルターン編集ベンチマークでは高いパフォーマンスを実現している。
この作業は、信頼性の高いプロ級のエージェント画像編集と、実際のワークフローへの統合の進歩を願っている。
関連論文リスト
- I2E: From Image Pixels to Actionable Interactive Environments for Text-Guided Image Editing [59.434028565445885]
I2Eは、画像編集を構造化された環境内の実行可能な相互作用プロセスとして再考する、新しい「分解・テーマ・アクション」パラダイムである。
I2EはDecomposerを使用して、非構造化画像を個別に操作可能なオブジェクト層に変換し、複雑な命令を解析するために、物理を意識したVision-Language-Action Agentを導入する。
I2Eは、複雑な構成命令の処理、物理的妥当性の維持、マルチターン編集安定性の確保において、最先端の手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2026-01-07T09:29:57Z) - I2I-Bench: A Comprehensive Benchmark Suite for Image-to-Image Editing Models [78.62380562116135]
既存の画像編集ベンチマークは、タスクの範囲が限られており、評価範囲が不十分であり、手動のアノテーションに大きく依存している。
画像間編集モデルの総合的なベンチマークである textbfI2I-Bench を提案する。
I2I-Benchを用いて、多数の主流画像編集モデルをベンチマークし、様々な次元にわたる編集モデル間のギャップとトレードオフを調査した。
論文 参考訳(メタデータ) (2025-12-04T10:44:07Z) - An LLM-LVLM Driven Agent for Iterative and Fine-Grained Image Editing [5.192553173010677]
RefineEdit-Agentは、複雑で反復的でコンテキスト対応の画像編集のための、新しい、トレーニング不要なインテリジェントエージェントフレームワークである。
我々のフレームワークは、LVI駆動のインストラクションとシーン理解モジュール、多レベル編集プランナー、反復画像編集モジュール、LVLM駆動のフィードバックと評価ループから構成されている。
論文 参考訳(メタデータ) (2025-08-24T16:28:18Z) - Marmot: Object-Level Self-Correction via Multi-Agent Reasoning [55.74860093731475]
Marmotは、マルチオブジェクトの自己修正にマルチエージェント推論を活用する、新しくて一般化可能なフレームワークである。
Marmotは、画像生成タスクにおけるオブジェクトカウント、属性割り当て、空間関係の精度を大幅に改善する。
論文 参考訳(メタデータ) (2025-04-10T16:54:28Z) - GenArtist: Multimodal LLM as an Agent for Unified Image Generation and Editing [60.09562648953926]
GenArtistは、マルチモーダル大言語モデル(MLLM)エージェントによって調整された統合画像生成および編集システムである。
ツールライブラリに既存のモデルを包括的に統合し,ツールの選択と実行にエージェントを利用する。
実験により、GenArtistは様々な生成および編集タスクを実行でき、最先端のパフォーマンスを達成できることが示された。
論文 参考訳(メタデータ) (2024-07-08T04:30:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。