論文の概要: Does the Manipulation Process Matter? RITA: Reasoning Composite Image Manipulations via Reversely-Ordered Incremental-Transition Autoregression
- arxiv url: http://arxiv.org/abs/2509.20006v2
- Date: Thu, 25 Sep 2025 01:49:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 12:02:33.94714
- Title: Does the Manipulation Process Matter? RITA: Reasoning Composite Image Manipulations via Reversely-Ordered Incremental-Transition Autoregression
- Title(参考訳): マニピュレーションプロセスは重要か? RITA:逆順序インクリメンタル・トランジション自己回帰による複合画像マニピュレーションの推論
- Authors: Xuekang Zhu, Ji-Zhe Zhou, Kaiwen Feng, Chenfan Qu, Yunfei Wang, Liting Zhou, Jian Liu,
- Abstract要約: 我々は、条件付きシーケンス予測タスクとして画像操作のローカライゼーションを再構成し、RITAフレームワークを提案する。
RITAは、各ステップの予測を次のステップの条件として、操作された領域を順番に階層的に予測する。
トレーニングと評価を可能にするため,マルチステップ操作データを合成し,新しいベンチマークHSIMを構築する。
- 参考スコア(独自算出の注目度): 13.933194190556714
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image manipulations often entail a complex manipulation process, comprising a series of editing operations to create a deceptive image, exhibiting sequentiality and hierarchical characteristics. However, existing IML methods remain manipulation-process-agnostic, directly producing localization masks in a one-shot prediction paradigm without modeling the underlying editing steps. This one-shot paradigm compresses the high-dimensional compositional space into a single binary mask, inducing severe dimensional collapse, thereby creating a fundamental mismatch with the intrinsic nature of the IML task. To address this, we are the first to reformulate image manipulation localization as a conditional sequence prediction task, proposing the RITA framework. RITA predicts manipulated regions layer-by-layer in an ordered manner, using each step's prediction as the condition for the next, thereby explicitly modeling temporal dependencies and hierarchical structures among editing operations. To enable training and evaluation, we synthesize multi-step manipulation data and construct a new benchmark HSIM. We further propose the HSS metric to assess sequential order and hierarchical alignment. Extensive experiments show RITA achieves SOTA on traditional benchmarks and provides a solid foundation for the novel hierarchical localization task, validating its potential as a general and effective paradigm. The code and dataset will be publicly available.
- Abstract(参考訳): 画像操作は複雑な操作処理を伴い、一連の編集操作によって偽画像を生成し、連続性と階層的な特徴を示す。
しかし、既存のIMLメソッドは操作プロセスに依存しないままであり、基礎となる編集ステップをモデル化することなく、ワンショット予測パラダイムで直接ローカライズマスクを生成する。
この一ショットのパラダイムは、高次元の合成空間を単一の二分マスクに圧縮し、重度な次元の崩壊を誘発し、IMLタスクの本質的な性質と根本的なミスマッチを生み出す。
これを解決するため,条件付きシーケンス予測タスクとして画像操作のローカライゼーションを再構成し,RITAフレームワークを提案する。
RITAは、各ステップの予測を次のステップの条件として、順番に処理された領域を階層的に予測し、編集操作間の時間的依存関係と階層構造を明示的にモデル化する。
トレーニングと評価を可能にするため,マルチステップ操作データを合成し,新しいベンチマークHSIMを構築する。
さらに、逐次順序と階層的アライメントを評価するためのHSSメトリックを提案する。
大規模な実験により、RITAは従来のベンチマークでSOTAを達成し、新しい階層的ローカライゼーションタスクの確かな基盤を提供し、汎用的で効果的なパラダイムとしての可能性を検証している。
コードとデータセットが公開される。
関連論文リスト
- XY-Cut++: Advanced Layout Ordering via Hierarchical Mask Mechanism on a Novel Benchmark [1.9020548287019097]
XY-Cut++は、事前マスク処理、多粒度セグメンテーション、およびクロスモーダルマッチングを統合するレイアウト順序付け手法である。
最先端のパフォーマンス(全体の98.8BLEU)を達成し、シンプルさと効率性を維持している。
論文 参考訳(メタデータ) (2025-04-14T14:19:57Z) - Feature Alignment with Equivariant Convolutions for Burst Image Super-Resolution [52.55429225242423]
本稿では,同変畳み込みに基づくアライメントを特徴とするBurst Image Super-Resolution (BISR) のための新しいフレームワークを提案する。
これにより、アライメント変換は画像領域の明示的な監督を通じて学習でき、特徴領域に容易に適用できる。
BISRベンチマークの実験は、定量的メトリクスと視覚的品質の両方において、我々のアプローチの優れた性能を示している。
論文 参考訳(メタデータ) (2025-03-11T11:13:10Z) - Task Success Prediction for Open-Vocabulary Manipulation Based on Multi-Level Aligned Representations [1.1650821883155187]
Contrastive $lambda$-Repformerを提案する。これは、画像と命令文を整列させることで、テーブルトップ操作タスクのタスク成功を予測する。
提案手法は,以下の3つの重要な特徴を多レベルアライメント表現に統合する。
Contrastive $lambda$-Repformerを,大規模標準データセット,RT-1データセット,物理ロボットプラットフォームに基づいて評価する。
論文 参考訳(メタデータ) (2024-10-01T06:35:34Z) - MaskInversion: Localized Embeddings via Optimization of Explainability Maps [49.50785637749757]
MaskInversionは、テスト時にマスクによって指定されたクエリ画像領域に対するコンテキスト認識の埋め込みを生成する。
オープン語彙のクラス検索、表現理解の参照、局所的なキャプションや画像生成など、幅広いタスクに使用することができる。
論文 参考訳(メタデータ) (2024-07-29T14:21:07Z) - Generalized Consistency Trajectory Models for Image Manipulation [59.576781858809355]
拡散モデル(DM)は、画像編集や復元などの応用と同様に、無条件生成において優れている。
本研究の目的は、一般化されたCTM(GCTM)を提案することによって、整合性軌道モデル(CTM)の完全なポテンシャルを解放することである。
本稿では,GCTMの設計空間について論じ,画像から画像への変換,復元,編集など,様々な画像操作タスクにおいて有効性を示す。
論文 参考訳(メタデータ) (2024-03-19T07:24:54Z) - Tuning-Free Inversion-Enhanced Control for Consistent Image Editing [44.311286151669464]
我々は、チューニング不要なインバージョン強化制御(TIC)と呼ばれる新しいアプローチを提案する。
TICは、インバージョンプロセスとサンプリングプロセスの特徴を相関付け、DDIM再構成の不整合を軽減する。
また、インバージョンと単純なDDIM編集プロセスの両方の内容を組み合わせたマスク誘導型アテンション結合戦略を提案する。
論文 参考訳(メタデータ) (2023-12-22T11:13:22Z) - MAGIC: Mask-Guided Image Synthesis by Inverting a Quasi-Robust
Classifier [37.774220727662914]
単一画像の操作を制御できるワンショットマスク誘導画像合成法を提案する。
提案手法は,事前学習した準ロバスト分類器から構造勾配を利用する。
MAGICは入力上の勾配を集約し、ガイドバイナリマスクによって駆動される。
論文 参考訳(メタデータ) (2022-09-23T12:15:40Z) - Semantic Image Synthesis via Diffusion Models [174.24523061460704]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に事実上のGANベースのアプローチに従っている。
意味画像合成のためのDDPMに基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Bi-Granularity Contrastive Learning for Post-Training in Few-Shot Scene [10.822477939237459]
トークンレベルとシーケンスレベルの両方のコントラスト学習を統合するために,ポストトレーニングのためのコントラストマスク言語モデリング(CMLM)を提案する。
CMLMは、データ拡張を必要とせずに、数ショット設定で、最近のいくつかのポストトレーニングメソッドを超越している。
論文 参考訳(メタデータ) (2021-06-04T08:17:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。