論文の概要: EditScribe: Non-Visual Image Editing with Natural Language Verification Loops
- arxiv url: http://arxiv.org/abs/2408.06632v1
- Date: Tue, 13 Aug 2024 04:40:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-14 18:36:27.435412
- Title: EditScribe: Non-Visual Image Editing with Natural Language Verification Loops
- Title(参考訳): EditScribe: 自然言語検証ループによる非ビジュアル画像編集
- Authors: Ruei-Che Chang, Yuxuan Liu, Lotus Zhang, Anhong Guo,
- Abstract要約: EditScribeは、大規模なマルチモーダルモデルを利用した自然言語検証ループを使用して画像編集を可能にするプロトタイプシステムである。
ユーザはまず、最初のジェネリクスとオブジェクト記述を通じて画像内容を理解し、その後、オープンな自然言語プロンプトを使用して編集動作を指定する。
視覚障害者10名を対象にした調査では、EditScribeが画像編集動作を非視覚的に実行し、検証することを支援した。
- 参考スコア(独自算出の注目度): 12.16675723509151
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Image editing is an iterative process that requires precise visual evaluation and manipulation for the output to match the editing intent. However, current image editing tools do not provide accessible interaction nor sufficient feedback for blind and low vision individuals to achieve this level of control. To address this, we developed EditScribe, a prototype system that makes image editing accessible using natural language verification loops powered by large multimodal models. Using EditScribe, the user first comprehends the image content through initial general and object descriptions, then specifies edit actions using open-ended natural language prompts. EditScribe performs the image edit, and provides four types of verification feedback for the user to verify the performed edit, including a summary of visual changes, AI judgement, and updated general and object descriptions. The user can ask follow-up questions to clarify and probe into the edits or verification feedback, before performing another edit. In a study with ten blind or low-vision users, we found that EditScribe supported participants to perform and verify image edit actions non-visually. We observed different prompting strategies from participants, and their perceptions on the various types of verification feedback. Finally, we discuss the implications of leveraging natural language verification loops to make visual authoring non-visually accessible.
- Abstract(参考訳): 画像編集は、編集意図に合わせて出力の正確な視覚的評価と操作を必要とする反復的なプロセスである。
しかし、現在の画像編集ツールは、このレベルの制御を達成するために、目と視力の低い個人に対して、アクセス可能なインタラクションや十分なフィードバックを提供していない。
そこで我々は,大規模なマルチモーダルモデルを用いた自然言語検証ループを用いて,画像編集を可能にするプロトタイプであるEditScribeを開発した。
EditScribeを使うと、ユーザは最初に画像の内容を、最初のジェネリクスとオブジェクト記述で理解し、その後、オープンな自然言語プロンプトを使って編集アクションを指定する。
EditScribeは画像編集を実行し、ユーザーが実行した編集を検証するための4種類の検証フィードバックを提供する。
ユーザは、追加の編集を実行する前に、フォローアップの質問をして、編集や検証のフィードバックを明確にし、調査することができる。
視覚障害者10名を対象にした調査では、EditScribeが画像編集動作を非視覚的に実行し、検証することを支援した。
参加者から異なるプロンプト戦略と,各種の検証フィードバックに対する認識を観察した。
最後に、視覚的オーサリングを非視覚的に利用できるようにするために、自然言語検証ループを活用することの意味について論じる。
関連論文リスト
- FreeEdit: Mask-free Reference-based Image Editing with Multi-modal Instruction [31.95664918050255]
FreeEditは参照ベースの画像編集を実現するための新しいアプローチである。
ユーザフレンドリーな言語命令に基づいて参照画像から視覚概念を正確に再現することができる。
論文 参考訳(メタデータ) (2024-09-26T17:18:39Z) - Empowering Visual Creativity: A Vision-Language Assistant to Image Editing Recommendations [109.65267337037842]
IER(Image Editing Recommendation)の課題を紹介する。
IERは、入力画像から多様なクリエイティブな編集命令を自動生成し、ユーザの未指定の編集目的を表すシンプルなプロンプトを作成することを目的としている。
本稿では,Creative-Vision Language Assistant(Creativity-VLA)を紹介する。
論文 参考訳(メタデータ) (2024-05-31T18:22:29Z) - Edit One for All: Interactive Batch Image Editing [44.50631647670942]
本稿では,StyleGANを媒体として,インタラクティブなバッチ画像編集手法を提案する。
サンプル画像中のユーザが指定した編集(例えば、顔の前面に表示させる)が与えられた場合、我々の方法は自動的に他のテスト画像に編集を転送することができる。
実験により,本手法を用いた編集は,既存の単一画像編集法と類似した視覚的品質を有することが示された。
論文 参考訳(メタデータ) (2024-01-18T18:58:44Z) - Optimisation-Based Multi-Modal Semantic Image Editing [58.496064583110694]
本稿では,複数の編集命令型に対応するために,推論時編集の最適化を提案する。
各損失関数の影響を調整することで、ユーザの好みに合わせてフレキシブルな編集ソリューションを構築することができる。
本手法は,テキスト,ポーズ,スクリブルといった編集条件を用いて評価し,複雑な編集を行う能力を強調した。
論文 参考訳(メタデータ) (2023-11-28T15:31:11Z) - Emu Edit: Precise Image Editing via Recognition and Generation Tasks [62.95717180730946]
本稿では,マルチタスク画像編集モデルであるEmu Editについて述べる。
我々は、地域ベースの編集、自由形式の編集、コンピュータビジョンタスクなど、前例のない範囲でマルチタスクに訓練する。
Emu Editは画像インペイント、超解像、編集タスクの構成といった新しいタスクに、ラベル付き例で一般化できることを示す。
論文 参考訳(メタデータ) (2023-11-16T18:55:58Z) - Object-aware Inversion and Reassembly for Image Editing [61.19822563737121]
オブジェクトレベルのきめ細かい編集を可能にするために,オブジェクト認識型インバージョンと再アセンブリ(OIR)を提案する。
画像の編集時に各編集ペアに対して最適な反転ステップを見つけるために,検索基準を用いる。
本手法は,オブジェクトの形状,色,材料,カテゴリなどの編集において,特に多目的編集シナリオにおいて優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-10-18T17:59:02Z) - Visual Instruction Inversion: Image Editing via Visual Prompting [34.96778567507126]
本稿では,視覚的プロンプトによる画像編集手法を提案する。
テキストと画像の拡散モデルのリッチで事前訓練された編集機能を利用して、視覚的なプロンプトを編集命令に反転させる。
論文 参考訳(メタデータ) (2023-07-26T17:50:10Z) - CHATEDIT: Towards Multi-turn Interactive Facial Image Editing via
Dialogue [17.503012018823902]
本稿では、画像編集と会話能力を評価するためのChatEditベンチマークデータセットを提案する。
ChatEditはCelebA-HQデータセットから構築され、画像上のユーザの編集要求に対応する注釈付きマルチターンダイアログが組み込まれている。
本稿では,ユーザ要求のトラッキングと応答生成のための対話モジュールを統合した新しいベースラインフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-20T13:45:58Z) - Imagen Editor and EditBench: Advancing and Evaluating Text-Guided Image
Inpainting [53.708523312636096]
本稿では,テキスト誘導画像のインペイントを微調整し,カスケード拡散モデルであるImagen Editorを提案する。
編集はテキストプロンプトに忠実で、オブジェクト検出器を使用してトレーニング中に塗装マスクを提案する。
質的,定量的な評価を改善するために,テキスト誘導画像の塗り絵の体系的ベンチマークであるEditBenchを導入する。
論文 参考訳(メタデータ) (2022-12-13T21:25:11Z) - UniTune: Text-Driven Image Editing by Fine Tuning a Diffusion Model on a
Single Image [2.999198565272416]
我々は,画像生成モデルを単一画像上で微調整することで,画像編集モデルに変換できることを観察する。
我々は、任意の画像とテキストによる編集記述を入力として取得し、入力画像への忠実度を維持しながら編集を行う、新しい画像編集方法UniTuneを提案する。
従来不可能であった視覚的変化を必要とするものを含む,驚くほど広い範囲の表現的編集操作を行うことが可能であることを実証した。
論文 参考訳(メタデータ) (2022-10-17T23:46:05Z) - Adjusting Image Attributes of Localized Regions with Low-level Dialogue [83.06971746641686]
NLIEの低レベル命令を探索するタスク指向対話システムを開発した。
我々のシステムは、編集操作のレベルに基づいて言語を基盤とし、ユーザーが選択するオプションを提案する。
分析の結果,提案した低レベル言語インタフェースの利用に一般的に適応していることがわかった。
論文 参考訳(メタデータ) (2020-02-11T20:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。