論文の概要: From Scale to Speed: Adaptive Test-Time Scaling for Image Editing
- arxiv url: http://arxiv.org/abs/2603.00141v1
- Date: Tue, 24 Feb 2026 09:13:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.051276
- Title: From Scale to Speed: Adaptive Test-Time Scaling for Image Editing
- Title(参考訳): スケールからスピードへ:画像編集のための適応的なテスト時間スケーリング
- Authors: Xiangyan Qu, Zhenlong Yuan, Jing Tang, Rui Chen, Datao Tang, Meng Yu, Lei Sun, Yancheng Bai, Xiangxiang Chu, Gaopeng Gou, Gang Xiong, Yujun Cai,
- Abstract要約: Image Chain-of-Thought (Image-CoT)は、推論時間を拡張して画像生成を改善するテストタイムスケーリングパラダイムである。
本稿では、編集効率と性能を向上させるオンデマンドテストタイムスケーリングフレームワークであるAdaptive Edit-CoT(ADE-CoT)を提案する。
- 参考スコア(独自算出の注目度): 42.704748740631885
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image Chain-of-Thought (Image-CoT) is a test-time scaling paradigm that improves image generation by extending inference time. Most Image-CoT methods focus on text-to-image (T2I) generation. Unlike T2I generation, image editing is goal-directed: the solution space is constrained by the source image and instruction. This mismatch causes three challenges when applying Image-CoT to editing: inefficient resource allocation with fixed sampling budgets, unreliable early-stage verification using general MLLM scores, and redundant edited results from large-scale sampling. To address this, we propose ADaptive Edit-CoT (ADE-CoT), an on-demand test-time scaling framework to enhance editing efficiency and performance. It incorporates three key strategies: (1) a difficulty-aware resource allocation that assigns dynamic budgets based on estimated edit difficulty; (2) edit-specific verification in early pruning that uses region localization and caption consistency to select promising candidates; and (3) depth-first opportunistic stopping, guided by an instance-specific verifier, that terminates when intent-aligned results are found. Extensive experiments on three SOTA editing models (Step1X-Edit, BAGEL, FLUX.1 Kontext) across three benchmarks show that ADE-CoT achieves superior performance-efficiency trade-offs. With comparable sampling budgets, ADE-CoT obtains better performance with more than 2x speedup over Best-of-N.
- Abstract(参考訳): Image Chain-of-Thought (Image-CoT)は、推論時間を拡張して画像生成を改善するテストタイムスケーリングパラダイムである。
ほとんどのImage-CoTメソッドは、テキスト・トゥ・イメージ(T2I)生成に重点を置いている。
T2I生成とは異なり、画像編集はゴール指向であり、解空間はソース画像と命令によって制約される。
このミスマッチは、固定サンプリング予算による非効率なリソース割り当て、一般的なMLLMスコアによる信頼できない早期検証、大規模サンプリングによる冗長な編集結果の3つの問題を引き起こす。
そこで我々は,編集効率と性能を向上させるために,オンデマンドテストタイムスケーリングフレームワークであるAdaptive Edit-CoT (ADE-CoT)を提案する。
1)編集難度に基づいて動的予算を割り当てる難易度リソース割り当て,(2)領域の局所化とキャプションの整合性を利用した早期プルーニングにおける編集固有の検証,(3)インスタンス固有の検証器によって導かれる深度優先の停止,という3つの重要な戦略が組み込まれている。
3種類のSOTA編集モデル(Step1X-Edit, BAGEL, FLUX.1)の大規模実験
Kontext)は、3つのベンチマークで、ADE-CoTは優れたパフォーマンスと効率のトレードオフを実現していることを示している。
ADE-CoTのサンプリング予算は、Best-of-Nよりも2倍以上のスピードアップでパフォーマンスが向上した。
関連論文リスト
- When, What, and How: Rethinking Retrieval-Enhanced Speculative Decoding [29.402164743559]
ReSpecは、ドラフト作成を適応的な意思決定に変換する新しいフレームワークである。
Spec-Benchの実験では、ReSpecの最先端アクセラレーションはそれぞれ33%以上と25%以上を達成している。
論文 参考訳(メタデータ) (2025-11-03T06:57:16Z) - EditInfinity: Image Editing with Binary-Quantized Generative Models [64.05135380710749]
画像編集のためのバイナリ量子化生成モデルのパラメータ効率適応について検討する。
具体的には、画像編集のためのバイナリ量子化生成モデルであるEmphInfinityを適応させるEditInfinityを提案する。
テキストの修正と画像スタイルの保存を促進させる,効率的かつ効果的な画像反転機構を提案する。
論文 参考訳(メタデータ) (2025-10-23T05:06:24Z) - ATTS: Asynchronous Test-Time Scaling via Conformal Prediction [112.54016379556073]
大規模な言語モデル(LLM)は、テスト時のスケーリングの恩恵を受けるが、しばしば高い推論遅延によって妨げられる。
統計的に保証された適応スケーリングフレームワークであるATTS(Asynchronous Test-Time Scaling)を紹介する。
ATTSは、テストタイムのスケーリングにおいて最大56.7倍のスピードアップと4.14倍のスループット向上を実現している。
論文 参考訳(メタデータ) (2025-09-18T16:55:09Z) - From Editor to Dense Geometry Estimator [77.21804448599009]
密度幾何予測のための拡散変換器(DiT)アーキテクチャに基づく高度な編集モデルを適用するフレームワークである textbfFE2E を紹介する。
FE2EはETH3Dデータセットで35%以上のパフォーマンス向上を実現し、100$times$データでトレーニングされたDepthAnythingシリーズを上回っている。
論文 参考訳(メタデータ) (2025-09-04T15:58:50Z) - In-Context Edit: Enabling Instructional Image Editing with In-Context Generation in Large Scale Diffusion Transformer [42.44787022143543]
ICEditはテキスト内編集のパラダイムであり、品質改善のためのパラメータ効率の最小限の微調整を行う。
トレーニングデータのわずか0.1%とトレーニング可能なパラメータ1%で、最先端の編集性能を実現している。
論文 参考訳(メタデータ) (2025-04-29T12:14:47Z) - Diffusion-Enhanced Test-time Adaptation with Text and Image Augmentation [67.37146712877794]
IT3Aは、未知の新しいドメインから各テストサンプルをマルチモーダル拡張するために、事前訓練された生成モデルを利用する新しいテスト時間適応手法である。
事前学習された視覚と言語モデルからの強化されたデータを組み合わせることで、未知の新しいテストデータに適応するモデルの能力を高めることができる。
ゼロショット設定では、IT3Aは5.50%の精度で最先端のテスト時間プロンプトチューニング手法より優れている。
論文 参考訳(メタデータ) (2024-12-12T20:01:24Z) - GraPE: A Generate-Plan-Edit Framework for Compositional T2I Synthesis [10.47359822447001]
本稿では,複雑な多段階生成のタスクを3段階に分解する,T2I合成の代替パラダイムを提案する。
提案手法は,モジュール性が高く,トレーニングが自由であり,画像生成モデルと編集モデルの組み合わせに対して適用可能であるという事実から,その強みを導出する。
論文 参考訳(メタデータ) (2024-12-08T22:29:56Z) - Modality and Task Adaptation for Enhanced Zero-shot Composed Image Retrieval [20.612534837883892]
Zero-Shot Composed Image Retrieval (ZS-CIR) はバイモーダル (image+text) クエリを用いてターゲット画像を取得するように設計されている。
本稿では,2つのコンポーネントからなる軽量なポストホックフレームワークを提案する。
実験により,提案するコンポーネントを組み込むことで,インバージョンに基づく手法が大幅な改善を実現することが示された。
論文 参考訳(メタデータ) (2024-10-31T08:49:05Z) - PostEdit: Posterior Sampling for Efficient Zero-Shot Image Editing [63.38854614997581]
拡散サンプリングプロセスを制御するために後続のスキームを組み込んだPostEditを導入する。
提案したPostEditは、未編集領域を正確に保存しながら、最先端の編集性能を実現する。
インバージョンもトレーニングも不要で、約1.5秒と18GBのGPUメモリを必要とするため、高品質な結果が得られる。
論文 参考訳(メタデータ) (2024-10-07T09:04:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。