Fugu-MT 論文翻訳(概要): InteractEdit: Zero-Shot Editing of Human-Object Interactions in Images

論文の概要: InteractEdit: Zero-Shot Editing of Human-Object Interactions in Images

arxiv url: http://arxiv.org/abs/2503.09130v1
Date: Wed, 12 Mar 2025 07:40:45 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-13 21:17:52.650987
Title: InteractEdit: Zero-Shot Editing of Human-Object Interactions in Images
Title（参考訳）: InteractEdit: 画像中の人間と物体の相互作用のゼロショット編集
Authors: Jiun Tian Hoe, Weipeng Hu, Wei Zhou, Chao Xie, Ziwei Wang, Chee Seng Chan, Xudong Jiang, Yap-Peng Tan,
Abstract要約: ゼロショット・ヒューマン・オブジェクト・インタラクション(HOI)編集のための新しいフレームワークであるInteractEditを提案する。画像内の既存のインタラクションを、対象と対象のアイデンティティを保持しながら、新しい望ましいインタラクションに変換する。実験の結果,InteractEditは既存の手法よりも大幅に優れていた。
参考スコア（独自算出の注目度）: 42.8116807595149
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper presents InteractEdit, a novel framework for zero-shot Human-Object Interaction (HOI) editing, addressing the challenging task of transforming an existing interaction in an image into a new, desired interaction while preserving the identities of the subject and object. Unlike simpler image editing scenarios such as attribute manipulation, object replacement or style transfer, HOI editing involves complex spatial, contextual, and relational dependencies inherent in humans-objects interactions. Existing methods often overfit to the source image structure, limiting their ability to adapt to the substantial structural modifications demanded by new interactions. To address this, InteractEdit decomposes each scene into subject, object, and background components, then employs Low-Rank Adaptation (LoRA) and selective fine-tuning to preserve pretrained interaction priors while learning the visual identity of the source image. This regularization strategy effectively balances interaction edits with identity consistency. We further introduce IEBench, the most comprehensive benchmark for HOI editing, which evaluates both interaction editing and identity preservation. Our extensive experiments show that InteractEdit significantly outperforms existing methods, establishing a strong baseline for future HOI editing research and unlocking new possibilities for creative and practical applications. Code will be released upon publication.
Abstract（参考訳）: 本稿では、画像中の既存のインタラクションを、対象と対象の同一性を維持しつつ、新たな望ましいインタラクションに変換するという課題に対処する、ゼロショットヒューマンオブジェクトインタラクション(HOI)編集のための新しいフレームワークであるInteractEditを提案する。属性操作やオブジェクト置換、スタイル転送といった単純な画像編集のシナリオとは異なり、HOI編集は人間とオブジェクトの相互作用に固有の複雑な空間的、文脈的、関係的な依存関係を含む。既存の方法は、しばしばソースイメージ構造に過度に適合し、新しい相互作用によって要求される実質的な構造変化に適応する能力を制限する。この問題を解決するためにInteractEditは、各シーンを主題、オブジェクト、背景コンポーネントに分解し、次にローランド適応(LoRA)と選択的微調整を使用して、ソースイメージの視覚的アイデンティティを学習しながら、事前にトレーニングされたインタラクションを保存する。この正規化戦略は、相互作用の編集とアイデンティティの一貫性を効果的にバランスさせる。また、HoI編集における最も包括的なベンチマークであるIEBenchを導入し、インタラクション編集とアイデンティティ保存の両方を評価する。大規模な実験により、InteractEditは既存の方法よりも大幅に優れており、将来のHOI編集研究の強力なベースラインを確立し、クリエイティブで実用的なアプリケーションのための新たな可能性の解放を図っている。コードは出版時に公開される。

関連論文リスト

CPAM: Context-Preserving Adaptive Manipulation for Zero-Shot Real Image Editing [24.68304617869157]
コンテキスト保存適応マニピュレーション(CPAM)は複雑な非厳密な実画像編集のための新しいフレームワークである。我々は,オブジェクトと背景を効果的に保存し,独立に制御する自己認識機構を調整した保存適応モジュールを開発した。また,多様な画像操作作業を簡易に行うためのマスク誘導戦略も導入した。
論文参考訳（メタデータ） (2025-06-23T09:19:38Z)
Image Editing As Programs with Diffusion Models [69.05164729625052]
本稿では,Diffusion Transformer (DiT) アーキテクチャ上に構築された統合画像編集フレームワークである IEAP (Image Editing As Programs) を紹介する。 IEAPは、複雑な編集命令を原子操作のシーケンスに分解して、リダミストレンズによる命令編集にアプローチする。我々のフレームワークは、特に複雑なマルチステップ命令に対して、より優れた精度とセマンティック忠実度を提供する。
論文参考訳（メタデータ） (2025-06-04T16:57:24Z)
Improving Editability in Image Generation with Layer-wise Memory [23.004027029130953]
現在の編集アプローチは、主に単一オブジェクトの修正用に設計されており、シーケンシャルな編集に苦労している。新しい要素を自然に統合しながら、既存のコンテンツを保存する粗いマスク入力を実現することを提案する。我々のフレームワークはレイヤワイドメモリによってこれを実現し、遅延表現を格納し、以前の編集からの埋め込みを促す。
論文参考訳（メタデータ） (2025-05-02T07:36:49Z)
MoEdit: On Learning Quantity Perception for Multi-object Image Editing [30.569177864762167]
MoEditは補助フリーのマルチオブジェクト画像編集フレームワークである。本稿では、各オブジェクト属性の区別と分離性を保証するFeComモジュールについて述べる。また,Quantity Attention (QTTN)モジュールも提案する。
論文参考訳（メタデータ） (2025-03-13T07:13:54Z)
BrushEdit: All-In-One Image Inpainting and Editing [79.55816192146762]
BrushEditは、インペイントベースの命令誘導画像編集パラダイムである。本研究では,MLLMとデュアルブランチ画像の描画モデルを統合することで,自由形式の命令編集を可能にするシステムを提案する。本フレームワークは,MLLMとインパインティングモデルを効果的に組み合わせ,7つの指標で優れた性能を実現する。
論文参考訳（メタデータ） (2024-12-13T17:58:06Z)
An Item is Worth a Prompt: Versatile Image Editing with Disentangled Control [21.624984690721842]
D-Editは、包括的な画像-プロンプトインタラクションをいくつかのアイテム-プロンプトインタラクションに切り離すためのフレームワークである。クロスアテンション層が歪んだ事前学習拡散モデルに基づいており、アイテム・プロンプト・アソシエーションを構築するために2段階の最適化を採用している。画像ベース,テキストベース,マスクベースの編集,アイテム削除を含む4種類の編集作業において,最先端の結果を示す。
論文参考訳（メタデータ） (2024-03-07T20:06:29Z)
LoMOE: Localized Multi-Object Editing via Multi-Diffusion [8.90467024388923]
本稿では,ゼロショットローカライズされたマルチオブジェクト編集のための新しいフレームワークを提案する。提案手法は, 前景マスクとそれに対応する簡単なテキストプロンプトを利用して, 対象領域に局所的な影響を与える。ラテント空間内のクロスアテンションとバックグラウンドロスの組み合わせにより、編集対象の特性が保存される。
論文参考訳（メタデータ） (2024-03-01T10:46:47Z)
EVEDIT: Event-based Knowledge Editing with Deductive Editing Boundaries [69.72012539060731]
大規模言語モデル(LLM)における効率的な知識編集(KE)の理論的枠組みを導入する。本稿では,事象をイベント記述と組み合わせたイベントベースの知識編集タスクを提案する。編集モデルにおける不確実性を解消するための既存の設定よりもイベントベースの編集の方が優れていることを実証的に示す。
論文参考訳（メタデータ） (2024-02-17T16:34:50Z)
AdapEdit: Spatio-Temporal Guided Adaptive Editing Algorithm for Text-Based Continuity-Sensitive Image Editing [24.9487669818162]
本稿では,適応的な画像編集を実現するための時間的ガイド付き適応編集アルゴリズムAdapEditを提案する。我々のアプローチは、モデルの事前保存において大きな利点があり、モデルトレーニング、微調整された追加データ、最適化を必要としない。提案手法は,様々な原画像や編集命令を対象とし,競争性能を実証し,従来の手法よりも優れていたことを示す。
論文参考訳（メタデータ） (2023-12-13T09:45:58Z)
Object-aware Inversion and Reassembly for Image Editing [61.19822563737121]
オブジェクトレベルのきめ細かい編集を可能にするために,オブジェクト認識型インバージョンと再アセンブリ(OIR)を提案する。画像の編集時に各編集ペアに対して最適な反転ステップを見つけるために,検索基準を用いる。本手法は,オブジェクトの形状,色,材料,カテゴリなどの編集において,特に多目的編集シナリオにおいて優れた性能を発揮する。
論文参考訳（メタデータ） (2023-10-18T17:59:02Z)
CHATEDIT: Towards Multi-turn Interactive Facial Image Editing via Dialogue [17.503012018823902]
本稿では、画像編集と会話能力を評価するためのChatEditベンチマークデータセットを提案する。 ChatEditはCelebA-HQデータセットから構築され、画像上のユーザの編集要求に対応する注釈付きマルチターンダイアログが組み込まれている。本稿では,ユーザ要求のトラッキングと応答生成のための対話モジュールを統合した新しいベースラインフレームワークを提案する。
論文参考訳（メタデータ） (2023-03-20T13:45:58Z)
HairCLIP: Design Your Hair by Text and Reference Image [100.85116679883724]
本稿では, 毛髪属性を個別に, 共同で操作できる新しい毛髪編集インタラクションモードを提案する。画像とテキストの条件を共有埋め込み空間にエンコードし、統一的なヘア編集フレームワークを提案する。念入りに設計されたネットワーク構造と損失関数により,我々のフレームワークは高品質な毛髪編集を行うことができる。
論文参考訳（メタデータ） (2021-12-09T18:59:58Z)
Enjoy Your Editing: Controllable GANs for Image Editing via Latent Space Navigation [136.53288628437355]
コントロール可能なセマンティックイメージ編集により、ユーザーはクリック数回で画像属性全体を変更できる。現在のアプローチでは、絡み合った属性編集、グローバルなイメージアイデンティティの変更、フォトリアリズムの低下に悩まされることが多い。本稿では,主に定性評価に焦点を当てた先行研究とは異なり,制御可能な編集性能を測定するための定量的評価手法を提案する。
論文参考訳（メタデータ） (2021-02-01T21:38:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。