論文の概要: VIBE: Visual Instruction Based Editor
- arxiv url: http://arxiv.org/abs/2601.02242v1
- Date: Mon, 05 Jan 2026 16:17:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:23.267685
- Title: VIBE: Visual Instruction Based Editor
- Title(参考訳): VIBE:ビジュアルインストラクションベースのエディタ
- Authors: Grigorii Alekseenko, Aleksandr Gordeev, Irina Tolstykh, Bulat Suleimanov, Vladimir Dokholyan, Georgii Fedorov, Sergey Yakubson, Aleksandra Tsybina, Mikhail Chernyshov, Maksim Kuprashevich,
- Abstract要約: 本稿では,高速な命令に基づく画像編集パイプラインを提案する。
パイプラインはImgEditとGEditベンチマークで評価される。
BF16ではNVIDIA H100で最大2K解像度で編集画像を生成するが、追加の推論最適化や蒸留は行わない。
- 参考スコア(独自算出の注目度): 60.21587335143115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction-based image editing is among the fastest developing areas in generative AI. Over the past year, the field has reached a new level, with dozens of open-source models released alongside highly capable commercial systems. However, only a limited number of open-source approaches currently achieve real-world quality. In addition, diffusion backbones, the dominant choice for these pipelines, are often large and computationally expensive for many deployments and research settings, with widely used variants typically containing 6B to 20B parameters. This paper presents a compact, high-throughput instruction-based image editing pipeline that uses a modern 2B-parameter Qwen3-VL model to guide the editing process and the 1.6B-parameter diffusion model Sana1.5 for image generation. Our design decisions across architecture, data processing, training configuration, and evaluation target low-cost inference and strict source consistency while maintaining high quality across the major edit categories feasible at this scale. Evaluated on the ImgEdit and GEdit benchmarks, the proposed method matches or exceeds the performance of substantially heavier baselines, including models with several times as many parameters and higher inference cost, and is particularly strong on edits that require preserving the input image, such as an attribute adjustment, object removal, background edits, and targeted replacement. The model fits within 24 GB of GPU memory and generates edited images at up to 2K resolution in approximately 4 seconds on an NVIDIA H100 in BF16, without additional inference optimizations or distillation.
- Abstract(参考訳): インストラクションベースの画像編集は、生成AIの最も早い発展分野の一つである。
過去1年間、この分野は新たなレベルに達し、非常に有能な商用システムとともに、数十のオープンソースモデルがリリースされている。
しかし、現在、実際の品質を達成するのは、限られた数のオープンソースアプローチのみである。
さらに、これらのパイプラインの主要な選択である拡散バックボーンは、多くの場合、多くのデプロイメントや研究環境において、大規模で計算コストがかかる。
本稿では、2BパラメータQwen3-VLモデルと1.6Bパラメータ拡散モデルSana1.5を用いて画像生成を行う。
アーキテクチャやデータ処理,トレーニング構成,評価といった設計上の決定は,低コストな推論と厳密なソース一貫性を目標としつつ,大規模な編集カテゴリにおける高品質の維持を目標としています。
ImgEdit と GEdit のベンチマークで評価したところ,提案手法は,パラメータ数倍のモデルと推論コストの高いモデルを含む,はるかに重いベースラインの性能と一致し,特に属性調整やオブジェクト削除,バックグラウンド編集,ターゲットの置き換えといった,入力画像の保存を必要とする編集に強い。
このモデルは24GBのGPUメモリにフィットし、推論最適化や蒸留なしでBF16のNVIDIA H100上で、最大2K解像度で編集された画像を約4秒で生成する。
関連論文リスト
- Step1X-Edit: A Practical Framework for General Image Editing [64.07202539610576]
我々は、Step1X-Editと呼ばれる最先端の画像編集モデルをリリースする。
GPT-4oやGemini2 Flashのようなクローズドソースモデルと同等のパフォーマンスを提供できる。
評価のために,実世界のユーザ指示に根ざした新しいベンチマークであるGEdit-Benchを開発した。
論文 参考訳(メタデータ) (2025-04-24T17:25:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。