論文の概要: Action-based image editing guided by human instructions
- arxiv url: http://arxiv.org/abs/2412.04558v1
- Date: Thu, 05 Dec 2024 19:01:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 15:56:23.624880
- Title: Action-based image editing guided by human instructions
- Title(参考訳): 人間の指示による行動に基づく画像編集
- Authors: Maria Mihaela Trusca, Mingxiao Li, Marie-Francine Moens,
- Abstract要約: 本稿では,アクションテキストの指示に敏感な新しいモデルを提案する。
アクションベースのテキスト命令と高い推論機能を用いた画像編集の大幅な改善を示す。
- 参考スコア(独自算出の注目度): 25.733240674502653
- License:
- Abstract: Text-based image editing is typically approached as a static task that involves operations such as inserting, deleting, or modifying elements of an input image based on human instructions. Given the static nature of this task, in this paper, we aim to make this task dynamic by incorporating actions. By doing this, we intend to modify the positions or postures of objects in the image to depict different actions while maintaining the visual properties of the objects. To implement this challenging task, we propose a new model that is sensitive to action text instructions by learning to recognize contrastive action discrepancies. The model training is done on new datasets defined by extracting frames from videos that show the visual scenes before and after an action. We show substantial improvements in image editing using action-based text instructions and high reasoning capabilities that allow our model to use the input image as a starting scene for an action while generating a new image that shows the final scene of the action.
- Abstract(参考訳): テキストベースの画像編集は通常、人間の指示に基づいて入力画像の要素を挿入、削除、修正といった操作を含む静的タスクとしてアプローチされる。
本稿では,このタスクの静的な性質を考慮し,アクションを組み込むことにより,このタスクを動的に行うことを目的とする。
これにより、画像内の物体の位置や姿勢を変更して、物体の視覚的特性を維持しながら異なる動作を描写する。
この課題を実現するために,コントラッシブな動作の相違を認識することを学ぶことによって,アクションテキスト命令に敏感な新しいモデルを提案する。
モデルトレーニングは、アクション前後の視覚シーンを示すビデオからフレームを抽出することによって定義される新しいデータセットに基づいて行われる。
我々は、アクションベースのテキスト命令を用いた画像編集の大幅な改善と、アクションの最終シーンを示す新しい画像を生成しながら、入力イメージをアクションの開始シーンとして使用できる高い推論能力を示す。
関連論文リスト
- Add-it: Training-Free Object Insertion in Images With Pretrained Diffusion Models [78.90023746996302]
Add-itは、拡散モデルの注意メカニズムを拡張して、3つの主要なソースからの情報を組み込む、トレーニング不要のアプローチである。
我々の重み付き拡張アテンション機構は、自然物の位置を確実にしながら、構造的一貫性と細部を維持できる。
人間の評価によると、Add-itは80%以上のケースで好まれる。
論文 参考訳(メタデータ) (2024-11-11T18:50:09Z) - DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - Text Guided Image Editing with Automatic Concept Locating and Forgetting [27.70615803908037]
画像中の潜在的なターゲット概念を特定するために,Locate and Forget (LaF) と呼ばれる新しい手法を提案する。
本手法はベースラインと比較して,テキスト誘導画像編集作業において質的かつ定量的に優位性を示す。
論文 参考訳(メタデータ) (2024-05-30T05:36:32Z) - InstructBrush: Learning Attention-based Instruction Optimization for Image Editing [54.07526261513434]
InstructBrushは命令ベースの画像編集方法の逆変換手法である。
画像ペアから編集命令として編集効果を抽出し、さらに画像編集に適用する。
提案手法は,編集性能に優れ,目的の編集効果とセマンティックに一致している。
論文 参考訳(メタデータ) (2024-03-27T15:03:38Z) - AdapEdit: Spatio-Temporal Guided Adaptive Editing Algorithm for
Text-Based Continuity-Sensitive Image Editing [24.9487669818162]
本稿では,適応的な画像編集を実現するための時間的ガイド付き適応編集アルゴリズムAdapEditを提案する。
我々のアプローチは、モデルの事前保存において大きな利点があり、モデルトレーニング、微調整された追加データ、最適化を必要としない。
提案手法は,様々な原画像や編集命令を対象とし,競争性能を実証し,従来の手法よりも優れていたことを示す。
論文 参考訳(メタデータ) (2023-12-13T09:45:58Z) - Emu Edit: Precise Image Editing via Recognition and Generation Tasks [62.95717180730946]
本稿では,マルチタスク画像編集モデルであるEmu Editについて述べる。
我々は、地域ベースの編集、自由形式の編集、コンピュータビジョンタスクなど、前例のない範囲でマルチタスクに訓練する。
Emu Editは画像インペイント、超解像、編集タスクの構成といった新しいタスクに、ラベル付き例で一般化できることを示す。
論文 参考訳(メタデータ) (2023-11-16T18:55:58Z) - Zero-Shot Action Recognition from Diverse Object-Scene Compositions [15.942187254262091]
本稿では,ゼロショット動作認識の問題点について考察する。
この挑戦的なシナリオのために、現在の主要なアプローチは、事前訓練されたネットワークを使用してビデオ内のオブジェクトを認識することによって、画像領域から知識を伝達することである。
オブジェクトがビデオの内容のローカルなビューを提供する場合、この作業では、アクションが発生するシーンのグローバルなビューも含もうとしています。
個々のシーンは、オブジェクトよりも遠方にあるものの、目に見えないアクションを認識することができ、オブジェクトベースのスコアとシーンベースのスコアの直接的な組み合わせは、アクション認識を劣化させる。
論文 参考訳(メタデータ) (2021-10-26T08:23:14Z) - SESAME: Semantic Editing of Scenes by Adding, Manipulating or Erasing
Objects [127.7627687126465]
SESAMEは、オブジェクトの追加、操作、消去によるシーンのセマンティック編集のための新しいジェネレータ-差別化器である。
我々の設定では、ユーザは編集対象領域のセマンティックラベルを提供し、ジェネレータは対応するピクセルを合成する。
我々は,多種多様なデータセット上でモデルを評価し,2つのタスクについて最先端のパフォーマンスを報告する。
論文 参考訳(メタデータ) (2020-04-10T10:19:19Z) - Semantic Image Manipulation Using Scene Graphs [105.03614132953285]
本稿では,星座変更や画像編集を直接監督する必要のないシーングラフネットワークを提案する。
これにより、追加のアノテーションを使わずに、既存の実世界のデータセットからシステムをトレーニングすることができる。
論文 参考訳(メタデータ) (2020-04-07T20:02:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。