論文の概要: iCap: Interactive Image Captioning with Predictive Text
- arxiv url: http://arxiv.org/abs/2001.11782v3
- Date: Sat, 22 Feb 2020 04:15:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-05 06:56:43.428362
- Title: iCap: Interactive Image Captioning with Predictive Text
- Title(参考訳): iCap:予測テキストによるインタラクティブな画像キャプション
- Authors: Zhengxiong Jia and Xirong Li
- Abstract要約: iCapはウェブベースのインタラクティブな画像キャプションシステムで、ユーザーからのライブ入力に関して新しいテキストを予測することができる。
自動評価と実際のユーザスタディの両方を対象とする実験では,提案手法の有効性が示されている。
- 参考スコア(独自算出の注目度): 10.744784851205434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we study a brand new topic of interactive image captioning with
human in the loop. Different from automated image captioning where a given test
image is the sole input in the inference stage, we have access to both the test
image and a sequence of (incomplete) user-input sentences in the interactive
scenario. We formulate the problem as Visually Conditioned Sentence Completion
(VCSC). For VCSC, we propose asynchronous bidirectional decoding for image
caption completion (ABD-Cap). With ABD-Cap as the core module, we build iCap, a
web-based interactive image captioning system capable of predicting new text
with respect to live input from a user. A number of experiments covering both
automated evaluations and real user studies show the viability of our
proposals.
- Abstract(参考訳): 本稿では,ループ内の人間と対話的な画像キャプションの新たな話題について検討する。
推論段階において、与えられたテスト画像が唯一の入力である自動画像キャプションとは異なり、対話シナリオにおいて、テスト画像と(不完全な)ユーザ入力文のシーケンスの両方にアクセスすることができる。
問題を視覚条件付き文補完(VCSC)として定式化する。
本稿では,VCSCに対して,画像キャプション完了(ABD-Cap)のための非同期双方向デコーディングを提案する。
ABD-Capをコアモジュールとし,ユーザからのライブ入力に対して新たなテキストを予測可能なWebベースのインタラクティブ画像キャプションシステムであるiCapを構築した。
自動評価と実際のユーザ調査の両方をカバーする多くの実験が提案の有効性を示している。
関連論文リスト
- Text Data-Centric Image Captioning with Interactive Prompts [20.48013600818985]
画像キャプションの監視手法は大きな進歩を遂げているが,高品質な人手による画像テキストデータの収集は困難である。
本稿では,Interactive Prompts を用いた新しいテキストデータ中心型画像キャプタリング手法 TIPCap を提案する。
論文 参考訳(メタデータ) (2024-03-28T07:43:49Z) - PromptCap: Prompt-Guided Task-Aware Image Captioning [118.39243917422492]
本稿では,画像とブラックボックスLMのより良いコネクタとして設計されたキャプションモデルであるPromptCapを提案する。
PromptCapは、生成されたキャプションで記述する視覚エンティティを制御するために自然言語プロンプトを使用する。
本稿では,GPT-3に画像キャプションを付加してVQAを実行する既存のパイプライン上で,PromptCapの有効性を示す。
論文 参考訳(メタデータ) (2022-11-15T19:07:53Z) - Injecting Semantic Concepts into End-to-End Image Captioning [61.41154537334627]
本稿では、地域特徴を抽出することなくグリッド表現を使用する、純粋視覚変換器を用いた画像キャプションモデルViTCAPを提案する。
性能向上のために,意味論的概念を予測し,それをエンドツーエンドのキャプションに組み込む新しいコンセプトトークンネットワーク(CTN)を導入する。
特に、CTNは視覚変換器に基づいて構築され、分類タスクを通じて概念トークンを予測するように設計されている。
論文 参考訳(メタデータ) (2021-12-09T22:05:05Z) - Contrastive Semantic Similarity Learning for Image Captioning Evaluation
with Intrinsic Auto-encoder [52.42057181754076]
自動エンコーダ機構とコントラスト表現学習の進歩により,画像キャプションのための学習基準を提案する。
文レベルの表現を学習するための3つのプログレッシブモデル構造を開発する。
実験結果から,提案手法は他の指標から得られるスコアとよく一致できることが示唆された。
論文 参考訳(メタデータ) (2021-06-29T12:27:05Z) - Multi-Modal Image Captioning for the Visually Impaired [0.0]
盲目の人が自分の周囲を理解する方法の1つは、画像をクリックして、画像キャプションシステムによって生成された説明に頼ることです。
視覚障害者向けキャプション画像に関する現在の作業では、キャプション生成時に画像に存在するテキストデータを使用しない。
本研究では,最先端画像キャプションモデルであるaoanetを改良し,画像に検出されたテキストを入力特徴として活用することを提案する。
論文 参考訳(メタデータ) (2021-05-17T18:35:24Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z) - CapWAP: Captioning with a Purpose [56.99405135645775]
我々は、CapWAP(Captioning with a Purpose)という新しいタスクを提案する。
私たちのゴールは、意図した人口の情報ニーズに合うように調整可能なシステムを開発することです。
目的とする情報に直接最適化するために強化学習を利用することが可能であることを示す。
論文 参考訳(メタデータ) (2020-11-09T09:23:55Z) - Pragmatic Issue-Sensitive Image Captioning [11.998287522410404]
課題感性画像キャプション(ISIC)を提案する。
ISICは、ターゲット画像とイシューを付与したキャプションシステムであり、関連する情報を特定する方法で分割された画像の集合である。
我々は,ISICが視覚質問応答の関連タスクを補完し,強化する方法について述べる。
論文 参考訳(メタデータ) (2020-04-29T20:00:53Z) - TextCaps: a Dataset for Image Captioning with Reading Comprehension [56.89608505010651]
テキストは人間環境において一様であり、環境を理解するためにしばしば重要である。
画像のコンテキストにおけるテキストの理解方法を研究するために,新しいデータセットであるTextCapsを,28k画像用の145kキャプションで収集した。
我々のデータセットは、テキストを認識し、それをその視覚的コンテキストに関連付け、テキストのどの部分をコピーするか、言い換えるかを決定するモデルに挑戦する。
論文 参考訳(メタデータ) (2020-03-24T02:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。