論文の概要: CAISE: Conversational Agent for Image Search and Editing
- arxiv url: http://arxiv.org/abs/2202.11847v1
- Date: Thu, 24 Feb 2022 00:55:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-25 16:28:58.159608
- Title: CAISE: Conversational Agent for Image Search and Editing
- Title(参考訳): CAISE:画像検索と編集のための会話エージェント
- Authors: Hyounghun Kim, Doo Soon Kim, Seunghyun Yoon, Franck Dernoncourt, Trung
Bui, Mohit Bansal
- Abstract要約: 画像検索・編集のための自動会話エージェント(CAISE)のデータセットを提案する。
私たちの知る限り、これは対話型画像検索とアノテーションの編集を提供する最初のデータセットです。
アシスタントアノテーションがツールで実行する機能は実行可能なコマンドとして記録される。
- 参考スコア(独自算出の注目度): 109.57721903485663
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Demand for image editing has been increasing as users' desire for expression
is also increasing. However, for most users, image editing tools are not easy
to use since the tools require certain expertise in photo effects and have
complex interfaces. Hence, users might need someone to help edit their images,
but having a personal dedicated human assistant for every user is impossible to
scale. For that reason, an automated assistant system for image editing is
desirable. Additionally, users want more image sources for diverse image
editing works, and integrating an image search functionality into the editing
tool is a potential remedy for this demand. Thus, we propose a dataset of an
automated Conversational Agent for Image Search and Editing (CAISE). To our
knowledge, this is the first dataset that provides conversational image search
and editing annotations, where the agent holds a grounded conversation with
users and helps them to search and edit images according to their requests. To
build such a system, we first collect image search and editing conversations
between pairs of annotators. The assistant-annotators are equipped with a
customized image search and editing tool to address the requests from the
user-annotators. The functions that the assistant-annotators conduct with the
tool are recorded as executable commands, allowing the trained system to be
useful for real-world application execution. We also introduce a
generator-extractor baseline model for this task, which can adaptively select
the source of the next token (i.e., from the vocabulary or from textual/visual
contexts) for the executable command. This serves as a strong starting point
while still leaving a large human-machine performance gap for useful future
work. Our code and dataset are publicly available at:
https://github.com/hyounghk/CAISE
- Abstract(参考訳): ユーザの表現欲求が高まるにつれて、画像編集の需要も増大している。
しかし、ほとんどのユーザーにとって画像編集ツールは、写真効果の専門知識と複雑なインターフェースを必要とするため、使いやすくない。
そのため、ユーザーは画像の編集を手伝う人が必要だが、すべてのユーザーのために個人専用のヒューマンアシスタントを持つことは不可能だ。
そのため、画像編集のための自動アシスタントシステムが望ましい。
さらに、ユーザーは多様な画像編集作業のためにより多くの画像ソースを欲しがっており、画像検索機能を編集ツールに統合することは、この要求に対する潜在的な修正である。
そこで我々は,画像検索と編集のための自動会話エージェント(CAISE)のデータセットを提案する。
私たちの知る限り、これは会話的な画像検索と編集アノテーションを提供する最初のデータセットであり、エージェントはユーザーと接地した会話を保持し、リクエストに応じて画像の検索と編集を支援する。
このようなシステムを構築するために,まず画像検索とアノテータ間の会話の編集を行う。
アシスタントアノテータは、ユーザーアノテータからの要求に対応するカスタマイズされた画像検索および編集ツールを備えている。
アシスタントアノテータがツールで実行する機能は実行可能なコマンドとして記録され、トレーニングされたシステムは実世界のアプリケーション実行に役立ちます。
また,実行コマンドに対して,次のトークン(語彙から,あるいはテキスト/視覚コンテキストから)のソースを適応的に選択できる,ジェネレータ・エキストラクタベースラインモデルも導入する。
これは、将来の有用な作業のために、大きな人間と機械のパフォーマンスギャップを残しながら、強力な出発点となる。
私たちのコードとデータセットは、https://github.com/hyounghk/CAISEで公開されています。
関連論文リスト
- Divide and Conquer: Language Models can Plan and Self-Correct for
Compositional Text-to-Image Generation [72.6168579583414]
CompAgentは、大規模な言語モデル(LLM)エージェントをコアとして、コンポジションテキスト・画像生成のためのトレーニング不要のアプローチである。
提案手法は,オープンワールド合成T2I生成のための総合的なベンチマークであるT2I-CompBenchに対して10%以上の改善を達成している。
論文 参考訳(メタデータ) (2024-01-28T16:18:39Z) - The Contemporary Art of Image Search: Iterative User Intent Expansion
via Vision-Language Model [4.531548217880843]
画像検索のための革新的なユーザ意図拡張フレームワークを提案する。
本フレームワークは,視覚モデルを用いてマルチモーダルなユーザ入力を解析・構成する。
提案フレームワークは,ユーザの画像検索体験を大幅に改善する。
論文 参考訳(メタデータ) (2023-12-04T06:14:25Z) - Emu Edit: Precise Image Editing via Recognition and Generation Tasks [62.95717180730946]
本稿では,マルチタスク画像編集モデルであるEmu Editについて述べる。
我々は、地域ベースの編集、自由形式の編集、コンピュータビジョンタスクなど、前例のない範囲でマルチタスクに訓練する。
Emu Editは画像インペイント、超解像、編集タスクの構成といった新しいタスクに、ラベル付き例で一般化できることを示す。
論文 参考訳(メタデータ) (2023-11-16T18:55:58Z) - ImageEye: Batch Image Processing Using Program Synthesis [7.111443975103331]
本稿では,バッチ画像処理のための新しい合成手法を提案する。
本手法は画像内の個々のオブジェクトに微細な編集を施すことができる。
提案手法をImageEyeと呼ばれるツールに実装し,50個の画像編集タスクで評価した。
論文 参考訳(メタデータ) (2023-04-06T17:38:34Z) - CHATEDIT: Towards Multi-turn Interactive Facial Image Editing via
Dialogue [17.503012018823902]
本稿では、画像編集と会話能力を評価するためのChatEditベンチマークデータセットを提案する。
ChatEditはCelebA-HQデータセットから構築され、画像上のユーザの編集要求に対応する注釈付きマルチターンダイアログが組み込まれている。
本稿では,ユーザ要求のトラッキングと応答生成のための対話モジュールを統合した新しいベースラインフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-20T13:45:58Z) - NICER: Aesthetic Image Enhancement with Humans in the Loop [0.7756211500979312]
本研究は,完全,半自動,完全手動のプロセスにおいて,非参照画像強調に対するニューラルネットワークに基づくアプローチを提案する。
NICERは,ユーザインタラクションを伴わずに画像美学を向上し,ユーザインタラクションを可能とすることで,多様な改善結果が得られることを示す。
論文 参考訳(メタデータ) (2020-12-03T09:14:10Z) - A Benchmark and Baseline for Language-Driven Image Editing [81.74863590492663]
まず,ローカル編集とグローバル編集の両方をサポートする新しい言語駆動画像編集データセットを提案する。
本手法では,各編集操作をサブモジュールとして扱い,演算パラメータを自動的に予測する。
ベンチマークとベースラインの両方を含む我々の研究は、画像編集領域をより汎用的で自由なレベルに進めると確信しています。
論文 参考訳(メタデータ) (2020-10-05T20:51:16Z) - Text as Neural Operator: Image Manipulation by Text Instruction [68.53181621741632]
本稿では、複雑なテキスト命令を用いて複数のオブジェクトで画像を編集し、オブジェクトの追加、削除、変更を可能にする設定について検討する。
タスクの入力は、(1)参照画像を含むマルチモーダルであり、(2)所望の修正を記述した自然言語の命令である。
提案モデルは,最近の3つの公開データセットの強いベースラインに対して良好に動作することを示す。
論文 参考訳(メタデータ) (2020-08-11T07:07:10Z) - Adjusting Image Attributes of Localized Regions with Low-level Dialogue [83.06971746641686]
NLIEの低レベル命令を探索するタスク指向対話システムを開発した。
我々のシステムは、編集操作のレベルに基づいて言語を基盤とし、ユーザーが選択するオプションを提案する。
分析の結果,提案した低レベル言語インタフェースの利用に一般的に適応していることがわかった。
論文 参考訳(メタデータ) (2020-02-11T20:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。