論文の概要: Adjusting Image Attributes of Localized Regions with Low-level Dialogue
- arxiv url: http://arxiv.org/abs/2002.04678v1
- Date: Tue, 11 Feb 2020 20:59:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 02:23:48.240838
- Title: Adjusting Image Attributes of Localized Regions with Low-level Dialogue
- Title(参考訳): 低レベル対話による局所領域の画像属性の調整
- Authors: Tzu-Hsiang Lin, Alexander Rudnicky, Trung Bui, Doo Soon Kim, Jean Oh
- Abstract要約: NLIEの低レベル命令を探索するタスク指向対話システムを開発した。
我々のシステムは、編集操作のレベルに基づいて言語を基盤とし、ユーザーが選択するオプションを提案する。
分析の結果,提案した低レベル言語インタフェースの利用に一般的に適応していることがわかった。
- 参考スコア(独自算出の注目度): 83.06971746641686
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural Language Image Editing (NLIE) aims to use natural language
instructions to edit images. Since novices are inexperienced with image editing
techniques, their instructions are often ambiguous and contain high-level
abstractions that tend to correspond to complex editing steps to accomplish.
Motivated by this inexperience aspect, we aim to smooth the learning curve by
teaching the novices to edit images using low-level commanding terminologies.
Towards this end, we develop a task-oriented dialogue system to investigate
low-level instructions for NLIE. Our system grounds language on the level of
edit operations, and suggests options for a user to choose from. Though
compelled to express in low-level terms, a user evaluation shows that 25% of
users found our system easy-to-use, resonating with our motivation. An analysis
shows that users generally adapt to utilizing the proposed low-level language
interface. In this study, we identify that object segmentation as the key
factor to the user satisfaction. Our work demonstrates the advantages of the
low-level, direct language-action mapping approach that can be applied to other
problem domains beyond image editing such as audio editing or industrial
design.
- Abstract(参考訳): 自然言語画像編集(NLIE)は、自然言語を使って画像を編集することを目的としている。
初心者は画像編集技術に精通していないため、その指示はしばしば曖昧であり、複雑な編集手順に対応する高いレベルの抽象化を含んでいる。
この経験不足に動機づけられて,初心者に低レベルの命令用語を用いて画像編集を教えることにより,学習曲線の円滑化を目指す。
そこで我々は,NLIEの低レベル命令を探索するタスク指向対話システムを開発した。
本システムでは,編集操作のレベルで言語を基礎として,ユーザが選択するオプションを提案する。
低レベルの表現を強制されたが、ユーザ評価の結果、25%のユーザが、システムの使いやすさに気付き、モチベーションに共鳴していることがわかった。
分析の結果,提案した低レベル言語インタフェースの利用に一般的に適応していることがわかった。
本研究では,対象のセグメンテーションがユーザ満足度の重要な要因であることを示す。
本研究は,音声編集や産業設計といった画像編集以外の問題領域に適用可能な,低レベルの直接言語対応マッピング手法の利点を示す。
関連論文リスト
- Zero-shot Image Editing with Reference Imitation [50.75310094611476]
我々は、ユーザーがより便利に創造性を発揮できるように、模倣編集と呼ばれる新しい形態の編集を提示する。
ビデオクリップから2つのフレームをランダムに選択し、あるフレームのいくつかの領域をマスクし、他のフレームからの情報を用いてマスクされた領域を復元する、MimicBrushと呼ばれる生成学習フレームワークを提案する。
各種試験事例における本手法の有効性を実験的に示すとともに,既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-11T17:59:51Z) - Empowering Visual Creativity: A Vision-Language Assistant to Image Editing Recommendations [109.65267337037842]
IER(Image Editing Recommendation)の課題を紹介する。
IERは、入力画像から多様なクリエイティブな編集命令を自動生成し、ユーザの未指定の編集目的を表すシンプルなプロンプトを作成することを目的としている。
本稿では,Creative-Vision Language Assistant(Creativity-VLA)を紹介する。
論文 参考訳(メタデータ) (2024-05-31T18:22:29Z) - InstructGIE: Towards Generalizable Image Editing [34.83188723673297]
一般化ロバスト性を高めた新しい画像編集フレームワークを提案する。
このフレームワークには、VMamba Blockを利用して、画像編集タスクに特別に最適化されたモジュールが組み込まれている。
また、生成された画像の劣化した詳細に対処し、修正するために特別に設計された、選択的な領域マッチング技術も披露する。
論文 参考訳(メタデータ) (2024-03-08T03:43:04Z) - Text-Driven Image Editing via Learnable Regions [74.45313434129005]
本研究では,ユーザが提供するマスクやスケッチを必要とせずに,テキストプロンプトによって駆動される領域ベースの画像編集手法を提案する。
この単純なアプローチにより、現在の画像生成モデルと互換性のあるフレキシブルな編集が可能になることを示す。
実験では,提案した言語記述に対応する忠実度とリアリズムの高い画像の操作において,提案手法の競合性能を示す。
論文 参考訳(メタデータ) (2023-11-28T02:27:31Z) - CLIP-Guided StyleGAN Inversion for Text-Driven Real Image Editing [22.40686064568406]
提案するCLIPInverterは,複数属性の変更を効率よく,かつ確実に行うことのできる,テキスト駆動型画像編集手法である。
本手法は,人間の顔,猫,鳥など,さまざまな領域における操作精度とフォトリアリズムにおいて,競合するアプローチよりも優れる。
論文 参考訳(メタデータ) (2023-07-17T11:29:48Z) - User-friendly Image Editing with Minimal Text Input: Leveraging
Captioning and Injection Techniques [32.82206298102458]
テキスト駆動画像編集は拡散モデルにおいて顕著な成功を収めた。
既存の手法では、ユーザの記述がソースイメージのコンテキストを十分に基礎づけていると仮定する。
本稿では,素早い生成フレームワークを組み合わせることで,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2023-06-05T09:09:10Z) - Language Guided Local Infiltration for Interactive Image Retrieval [12.324893780690918]
Interactive Image Retrieval (IIR) は、一般的に参照画像と似ているが、要求されたテキスト修正の下で画像を取得することを目的としている。
テキスト情報を完全に活用し,画像特徴にテキスト特徴を浸透させる言語ガイド型局所浸透システム(LGLI)を提案する。
我々の手法は、最先端のIIR手法よりも優れています。
論文 参考訳(メタデータ) (2023-04-16T10:33:08Z) - Learning by Planning: Language-Guided Global Image Editing [53.72807421111136]
あいまいな編集言語要求を一連の編集操作にマッピングするテキスト・ツー・オペレーティング・モデルを開発した。
タスクの唯一の監督はターゲットイメージであり、シーケンシャルな決定の安定したトレーニングには不十分である。
本研究では,対象画像から可能な編集シーケンスを疑似基底真理として生成する,新たな操作計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-24T16:30:03Z) - A Benchmark and Baseline for Language-Driven Image Editing [81.74863590492663]
まず,ローカル編集とグローバル編集の両方をサポートする新しい言語駆動画像編集データセットを提案する。
本手法では,各編集操作をサブモジュールとして扱い,演算パラメータを自動的に予測する。
ベンチマークとベースラインの両方を含む我々の研究は、画像編集領域をより汎用的で自由なレベルに進めると確信しています。
論文 参考訳(メタデータ) (2020-10-05T20:51:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。