論文の概要: Pragmatic Issue-Sensitive Image Captioning
- arxiv url: http://arxiv.org/abs/2004.14451v2
- Date: Mon, 5 Oct 2020 23:24:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 12:39:52.317417
- Title: Pragmatic Issue-Sensitive Image Captioning
- Title(参考訳): 実用的課題感性画像キャプション
- Authors: Allen Nie, Reuben Cohn-Gordon, and Christopher Potts
- Abstract要約: 課題感性画像キャプション(ISIC)を提案する。
ISICは、ターゲット画像とイシューを付与したキャプションシステムであり、関連する情報を特定する方法で分割された画像の集合である。
我々は,ISICが視覚質問応答の関連タスクを補完し,強化する方法について述べる。
- 参考スコア(独自算出の注目度): 11.998287522410404
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Image captioning systems have recently improved dramatically, but they still
tend to produce captions that are insensitive to the communicative goals that
captions should meet. To address this, we propose Issue-Sensitive Image
Captioning (ISIC). In ISIC, a captioning system is given a target image and an
issue, which is a set of images partitioned in a way that specifies what
information is relevant. The goal of the captioner is to produce a caption that
resolves this issue. To model this task, we use an extension of the Rational
Speech Acts model of pragmatic language use. Our extension is built on top of
state-of-the-art pretrained neural image captioners and explicitly reasons
about issues in our sense. We establish experimentally that these models
generate captions that are both highly descriptive and issue-sensitive, and we
show how ISIC can complement and enrich the related task of Visual Question
Answering.
- Abstract(参考訳): 画像キャプションシステムは最近劇的に改善されているが、キャプションが満たすべきコミュニケーション目標に敏感なキャプションを生成する傾向がある。
この問題に対処するため,Issue-Sensitive Image Captioning (ISIC)を提案する。
ISICでは、意味のある情報を特定する方法で分割された画像の集合である、ターゲット画像とイシューをキャプションシステムに付与する。
キャプションの目標は、この問題を解決するキャプションを作ることである。
このタスクをモデル化するために,実践的な言語使用のRational Speech Actsモデルを拡張した。
私たちの拡張は、最先端のトレーニング済みのニューラルイメージキャプタと、私たちの意味での問題に関する明確な理由の上に構築されています。
我々は,これらのモデルが,非常に記述的かつ問題に敏感なキャプションを生成できることを実験的に証明し,ISICが視覚質問応答の関連タスクをどのように補完し,強化するかを示す。
関連論文リスト
- What Makes for Good Image Captions? [50.48589893443939]
我々のフレームワークは、優れた画像キャプションは、情報的に十分であり、最小限の冗長であり、人間によって容易に理解できるという3つの重要な側面のバランスをとるべきであると仮定している。
本稿では,局所的な視覚情報とグローバルな視覚情報を統合することで,豊かなキャプションを生成するParamid of Captions(PoCa)手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T12:49:57Z) - Enhancing Visual Question Answering through Question-Driven Image Captions as Prompts [3.6064695344878093]
視覚的質問応答(VQA)は、視覚と言語の内容を理解し、推論し、推論する必要があるため、AI完全タスクとして知られている。
本稿では,VQAパイプラインの中間プロセスとして画像キャプションを組み込むことによる影響について検討する。
論文 参考訳(メタデータ) (2024-04-12T16:35:23Z) - Cross-Domain Image Captioning with Discriminative Finetuning [20.585138136033905]
自己監督的な識別的コミュニケーションの目的を持ったアウト・オブ・ザ・ボックスのニューラルキャプタを微調整することは、プレーンで視覚的に記述された言語を回復するのに役立ちます。
画像識別タスクを担っているヒトのアノテータに対して,Vanilla ClipCapのキャプションや接地木キャプションよりも,識別的に微調整されたキャプションの方が有用であることを示す。
論文 参考訳(メタデータ) (2023-04-04T09:33:16Z) - CapOnImage: Context-driven Dense-Captioning on Image [13.604173177437536]
画像上のキャプション(CapOnImage)と呼ばれる新しいタスクを導入し、コンテキスト情報に基づいて画像の異なる場所で高密度キャプションを生成する。
テキストと画像位置の対応を段階的に学習するマルチレベル事前学習タスクを備えたマルチモーダル事前学習モデルを提案する。
他の画像キャプションモデルと比較すると、キャプション精度と多様性の両面で最良の結果が得られる。
論文 参考訳(メタデータ) (2022-04-27T14:40:31Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z) - Structural and Functional Decomposition for Personality Image Captioning
in a Communication Game [53.74847926974122]
パーソナリティ画像キャプション(PIC)は、性格特性が与えられた自然言語キャプションを持つ画像を記述することを目的としている。
本稿では,話者とリスナーのコミュニケーションゲームに基づくPICの新しい定式化を提案する。
論文 参考訳(メタデータ) (2020-11-17T10:19:27Z) - CapWAP: Captioning with a Purpose [56.99405135645775]
我々は、CapWAP(Captioning with a Purpose)という新しいタスクを提案する。
私たちのゴールは、意図した人口の情報ニーズに合うように調整可能なシステムを開発することです。
目的とする情報に直接最適化するために強化学習を利用することが可能であることを示す。
論文 参考訳(メタデータ) (2020-11-09T09:23:55Z) - More Grounded Image Captioning by Distilling Image-Text Matching Model [56.79895670335411]
本研究では,より基礎的な画像キャプションのための効果的な知識蒸留法として,POS強化画像テキストマッチングモデル(SCAN)を提案する。
1) 文と画像が与えられた場合、POS-SCANはSCANよりも正確にオブジェクトをグラウンドできる; 2) POS-SCANはキャプタの視覚的注意モジュールの単語領域アラインメント正規化として機能する。
論文 参考訳(メタデータ) (2020-04-01T12:42:06Z) - Egoshots, an ego-vision life-logging dataset and semantic fidelity
metric to evaluate diversity in image captioning models [63.11766263832545]
我々は,字幕のない実生活画像978枚からなる新しい画像キャプションデータセット,Egoshotsを提案する。
生成されたキャプションの品質を評価するために,新しい画像キャプション指標,オブジェクトベースセマンティックフィデリティ(SF)を提案する。
論文 参考訳(メタデータ) (2020-03-26T04:43:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。