論文の概要: Point and Instruct: Enabling Precise Image Editing by Unifying Direct
Manipulation and Text Instructions
- arxiv url: http://arxiv.org/abs/2402.07925v1
- Date: Mon, 5 Feb 2024 16:23:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-18 13:26:42.329755
- Title: Point and Instruct: Enabling Precise Image Editing by Unifying Direct
Manipulation and Text Instructions
- Title(参考訳): ポイントとインストラクション:直接操作とテキストインストラクションの統合による精密画像編集の実現
- Authors: Alec Helbling, Seongmin Lee, Polo Chau
- Abstract要約: 本稿では,親しみやすい直接操作とテキスト操作をシームレスに結合するシステムであるPoint and Instructを紹介する。
本システムでは,オブジェクトや記述位置を視覚的にマークし,テキストによる指示で参照することができる。
- 参考スコア(独自算出の注目度): 3.5027259853255215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning has enabled the development of powerful systems capable of
editing images from natural language instructions. However, in many common
scenarios it is difficult for users to specify precise image transformations
with text alone. For example, in an image with several dogs, it is difficult to
select a particular dog and move it to a precise location. Doing this with text
alone would require a complex prompt that disambiguates the target dog and
describes the destination. However, direct manipulation is well suited to
visual tasks like selecting objects and specifying locations. We introduce
Point and Instruct, a system for seamlessly combining familiar direct
manipulation and textual instructions to enable precise image manipulation.
With our system, a user can visually mark objects and locations, and reference
them in textual instructions. This allows users to benefit from both the visual
descriptiveness of natural language and the spatial precision of direct
manipulation.
- Abstract(参考訳): 機械学習は、自然言語命令から画像を編集できる強力なシステムの開発を可能にした。
しかし、多くの一般的なシナリオでは、ユーザーがテキストだけで正確な画像変換を指定することは困難である。
例えば、複数の犬を乗せた画像では、特定の犬を選択して正確な場所に移動させることは困難である。
これをテキストだけで行うには、ターゲット犬を曖昧にし、目的地を記述する複雑なプロンプトが必要になる。
しかし、直接操作はオブジェクトの選択や場所の指定といった視覚的なタスクに適している。
本稿では,手慣れた直接操作とテキスト命令をシームレスに組み合わせ,正確な画像操作を可能にするシステムであるPoint and Instructを紹介する。
本システムでは,オブジェクトや位置を視覚的にマークし,テキストによる指示で参照することができる。
これにより、ユーザーは自然言語の視覚的記述性と直接操作の空間的精度の両方の利点を享受できる。
関連論文リスト
- DM-Align: Leveraging the Power of Natural Language Instructions to Make Changes to Images [55.546024767130994]
本稿では,画像のどの部分を変更するか,保存するかを明確に推論することで,画像エディタのテキストベースの制御を強化する新しいモデルを提案する。
元のソースイメージの記述と必要な更新を反映する命令と入力イメージとの間の単語アライメントに依存する。
Bisonデータセットのサブセットと、Dreamと呼ばれる自己定義データセットで評価される。
論文 参考訳(メタデータ) (2024-04-27T22:45:47Z) - ClickDiffusion: Harnessing LLMs for Interactive Precise Image Editing [3.1165821291812295]
ClickDiffusionは、自然言語命令とユーザが直接操作インターフェースを通じて提供する視覚的フィードバックを組み合わせる。
我々は、画像とマルチモーダル命令の両方をテキスト表現にシリアライズすることにより、LLMを活用して画像のレイアウトと外観を正確に変換できることを実証した。
論文 参考訳(メタデータ) (2024-04-05T19:38:18Z) - Text-Driven Image Editing via Learnable Regions [74.45313434129005]
本研究では,ユーザが提供するマスクやスケッチを必要とせずに,テキストプロンプトによって駆動される領域ベースの画像編集手法を提案する。
この単純なアプローチにより、現在の画像生成モデルと互換性のあるフレキシブルな編集が可能になることを示す。
実験では,提案した言語記述に対応する忠実度とリアリズムの高い画像の操作において,提案手法の競合性能を示す。
論文 参考訳(メタデータ) (2023-11-28T02:27:31Z) - Manipulating Embeddings of Stable Diffusion Prompts [22.10069408287608]
本稿では,プロンプトテキストの代わりにプロンプトの埋め込みを操作する新しい手法を提案し,解析する。
提案手法は退屈度が低く,結果のイメージが好まれることが多い。
論文 参考訳(メタデータ) (2023-08-23T10:59:41Z) - ImageBrush: Learning Visual In-Context Instructions for Exemplar-Based
Image Manipulation [49.07254928141495]
我々は、より正確な画像編集のための視覚的指示を学習する、ImageBrushと呼ばれる新しい操作手法を提案する。
私たちのキーとなるアイデアは、人間の意図を正確に捉えた2つの変換画像を視覚的指示として使うことです。
提案モデルでは,ポーズ伝達,画像翻訳,映像インパインティングなどの下流タスクに対して,ロバストな一般化機能を示す。
論文 参考訳(メタデータ) (2023-08-02T01:57:11Z) - ManiTrans: Entity-Level Text-Guided Image Manipulation via Token-wise
Semantic Alignment and Generation [97.36550187238177]
実世界の実体レベルにおけるテキスト誘導画像操作に関する新しい課題について検討する。
このタスクは、(1)テキスト記述と整合したエンティティを編集すること、(2)テキスト関連領域を保存すること、(3)操作されたエンティティを自然に画像にマージすること、の3つの基本的な要件を課している。
本フレームワークでは,操作対象の画像領域を特定するためのセマンティックアライメントモジュールと,視覚と言語の関係の整合を支援するセマンティックアライメントモジュールを備えている。
論文 参考訳(メタデータ) (2022-04-09T09:01:19Z) - StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery [71.1862388442953]
StyleGAN画像操作のためのテキストベースのインターフェースを開発しています。
まず,ユーザが提案するテキストプロンプトに応答して,CLIPに基づく損失を利用して入力潜時ベクトルを変更する最適化手法を提案する。
次に、与えられた入力画像に対してテキスト誘導の潜時操作ステップを推論し、より高速で安定したテキストベースの操作を可能にする潜時マッパーについて述べる。
論文 参考訳(メタデータ) (2021-03-31T17:51:25Z) - Adjusting Image Attributes of Localized Regions with Low-level Dialogue [83.06971746641686]
NLIEの低レベル命令を探索するタスク指向対話システムを開発した。
我々のシステムは、編集操作のレベルに基づいて言語を基盤とし、ユーザーが選択するオプションを提案する。
分析の結果,提案した低レベル言語インタフェースの利用に一般的に適応していることがわかった。
論文 参考訳(メタデータ) (2020-02-11T20:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。