論文の概要: Clue: Cross-modal Coherence Modeling for Caption Generation
- arxiv url: http://arxiv.org/abs/2005.00908v1
- Date: Sat, 2 May 2020 19:28:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 11:50:05.796185
- Title: Clue: Cross-modal Coherence Modeling for Caption Generation
- Title(参考訳): Clue: カプセル生成のためのクロスモーダルコヒーレンスモデリング
- Authors: Malihe Alikhani, Piyush Sharma, Shengjie Li, Radu Soricut and Matthew
Stone
- Abstract要約: 談話の計算モデルにインスパイアされたコヒーレンス関係を用いて,画像キャプションにおける情報ニーズと目標について検討する。
画像とテキストで推論を学習するための新しいタスクを導入し、これらのコヒーレンスアノテーションを利用して関係分類器を中間的なステップとして学習することができることを示す。
その結果,コヒーレンス関係によって規定される情報ニーズに対して,生成したキャプションの一貫性と品質が劇的に向上したことを示す。
- 参考スコア(独自算出の注目度): 38.12058832538408
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We use coherence relations inspired by computational models of discourse to
study the information needs and goals of image captioning. Using an annotation
protocol specifically devised for capturing image--caption coherence relations,
we annotate 10,000 instances from publicly-available image--caption pairs. We
introduce a new task for learning inferences in imagery and text, coherence
relation prediction, and show that these coherence annotations can be exploited
to learn relation classifiers as an intermediary step, and also train
coherence-aware, controllable image captioning models. The results show a
dramatic improvement in the consistency and quality of the generated captions
with respect to information needs specified via coherence relations.
- Abstract(参考訳): 談話の計算モデルにインスパイアされたコヒーレンス関係を用いて、画像キャプションの情報ニーズと目標を研究する。
画像キャプチャーコヒーレンス関係をキャプチャするために特別に考案されたアノテーションプロトコルを用いて、公開されている画像キャプチャペアから10,000インスタンスを注釈する。
画像とテキストにおける推論の学習,コヒーレンス関係の予測,およびこれらのコヒーレンスアノテーションを利用して関係分類器を中間的なステップとして学習し,コヒーレンス対応で制御可能な画像キャプションモデルを訓練することを示す。
その結果,コヒーレンス関係によって特定された情報ニーズに対して,生成キャプションの一貫性と品質が劇的に向上した。
関連論文リスト
- Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。
具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。
我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2024-05-21T18:02:07Z) - Guiding Attention using Partial-Order Relationships for Image Captioning [2.620091916172863]
誘導注意ネットワーク機構は、視覚シーンとテキスト記述の関係を利用する。
この埋め込み空間は、共有セマンティック空間における類似の画像、トピック、キャプションを許容する。
MSCOCOデータセットに基づく実験結果は,我々のアプローチの競争力を示している。
論文 参考訳(メタデータ) (2022-04-15T14:22:09Z) - Cross-Modal Coherence for Text-to-Image Retrieval [35.82045187976062]
我々はテキスト・ツー・イメージ検索タスクに対して,クロスモーダル・コヒーレンス・モデル(Cross-Modal Coherence Model)を訓練する。
画像・テキスト・コヒーレンス関係を訓練したモデルでは,コヒーレンス・コヒーレンス・コヒーレンス・コヒーレンス・コヒーレンス・モデルよりも,元来ターゲットテキストとペアリングした画像の検索が可能であった。
本研究は,テキストや画像のコモンセンス推論を捉える上で,異なるモダリティがコミュニケーションする方法,コヒーレンス関係の役割について考察した。
論文 参考訳(メタデータ) (2021-09-22T21:31:27Z) - ReFormer: The Relational Transformer for Image Captioning [12.184772369145014]
画像キャプションは、シーングラフを使用して画像内のオブジェクトの関係を表現することにより、より良いパフォーマンスを実現することができる。
本稿では,関係情報を埋め込んだ特徴を生成する新しいアーキテクチャReFormerを提案する。
本モデルは画像キャプションとシーングラフ生成における最先端手法を著しく上回る。
論文 参考訳(メタデータ) (2021-07-29T17:03:36Z) - Matching Visual Features to Hierarchical Semantic Topics for Image
Paragraph Captioning [50.08729005865331]
本稿では,階層的トピック誘導画像段落生成フレームワークを開発した。
複数の抽象レベルでの画像とテキストの相関をキャプチャするために、変分推論ネットワークを設計します。
段落生成を導くために、学習した階層的トピックと視覚的特徴を言語モデルに統合する。
論文 参考訳(メタデータ) (2021-05-10T06:55:39Z) - Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文 参考訳(メタデータ) (2020-11-18T20:21:19Z) - Dense Relational Image Captioning via Multi-task Triple-Stream Networks [95.0476489266988]
視覚的な場面におけるオブジェクト間の情報に関して,キャプションを生成することを目的とした新しいタスクである。
このフレームワークは、多様性と情報の量の両方において有利であり、包括的なイメージ理解につながる。
論文 参考訳(メタデータ) (2020-10-08T09:17:55Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。