論文の概要: Boost Image Captioning with Knowledge Reasoning
- arxiv url: http://arxiv.org/abs/2011.00927v1
- Date: Mon, 2 Nov 2020 12:19:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 12:25:11.683494
- Title: Boost Image Captioning with Knowledge Reasoning
- Title(参考訳): 知識推論による画像キャプション向上
- Authors: Feicheng Huang, Zhixin Li, Haiyang Wei, Canlong Zhang, Huifang Ma
- Abstract要約: 本稿では,単語ごとの逐次的な記述を生成する際の視覚的注意の正しさを改善するために,単語注意を提案する。
本稿では,知識グラフから抽出した外部知識をエンコーダ・デコーダ・フレームワークに注入し,意味のあるキャプションを容易にする新しい手法を提案する。
- 参考スコア(独自算出の注目度): 10.733743535624509
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatically generating a human-like description for a given image is a
potential research in artificial intelligence, which has attracted a great of
attention recently. Most of the existing attention methods explore the mapping
relationships between words in sentence and regions in image, such
unpredictable matching manner sometimes causes inharmonious alignments that may
reduce the quality of generated captions. In this paper, we make our efforts to
reason about more accurate and meaningful captions. We first propose word
attention to improve the correctness of visual attention when generating
sequential descriptions word-by-word. The special word attention emphasizes on
word importance when focusing on different regions of the input image, and
makes full use of the internal annotation knowledge to assist the calculation
of visual attention. Then, in order to reveal those incomprehensible intentions
that cannot be expressed straightforwardly by machines, we introduce a new
strategy to inject external knowledge extracted from knowledge graph into the
encoder-decoder framework to facilitate meaningful captioning. Finally, we
validate our model on two freely available captioning benchmarks: Microsoft
COCO dataset and Flickr30k dataset. The results demonstrate that our approach
achieves state-of-the-art performance and outperforms many of the existing
approaches.
- Abstract(参考訳): 画像の人間的な記述を自動的に生成することは、人工知能の潜在的な研究であり、近年は注目を集めている。
既存の注目手法の多くは、文中の単語と画像内の領域間のマッピング関係を探索するが、予測不可能な一致は、しばしば、生成されたキャプションの品質を低下させる不調和なアライメントを引き起こす。
本稿では,より正確で有意義なキャプションを推論する試みについて述べる。
まず,逐次的な記述を単語毎に生成する際の視覚的注意の正確性を改善するために,単語注意を提案する。
特別な単語アテンションは、入力画像の異なる領域にフォーカスする際の単語の重要性を強調し、内部アノテーション知識をフル活用して視覚的アテンションの計算を支援する。
次に,機械で直接表現できないような理解不能な意図を明らかにするために,知識グラフから抽出した外部知識をエンコーダ・デコーダフレームワークに注入し,意味のある字幕作成を容易にする新たな戦略を提案する。
最後に、当社のモデルを、Microsoft COCOデータセットとFlickr30kデータセットの2つの利用可能なキャプションベンチマークで検証する。
その結果,本手法は最先端の性能を達成し,既存手法よりも優れていることがわかった。
関連論文リスト
- Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。
具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。
我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2024-05-21T18:02:07Z) - Retrieval-Augmented Transformer for Image Captioning [51.79146669195357]
我々は、kNNメモリを用いた画像キャプション手法を開発し、外部コーパスから知識を抽出して生成プロセスを支援する。
我々のアーキテクチャは、視覚的類似性に基づく知識検索と、識別可能なエンコーダと、トークンを予測するためにkNN拡張アテンション層を組み合わせる。
COCOデータセットで実施した実験結果は、明示的な外部メモリを利用することで、生成プロセスの助けとなり、キャプションの品質が向上することを示した。
論文 参考訳(メタデータ) (2022-07-26T19:35:49Z) - Image Captioning based on Feature Refinement and Reflective Decoding [0.0]
本稿では,エンコーダデコーダを用いた画像キャプションシステムを提案する。
画像の各領域の空間的特徴とグローバルな特徴をResNet-101をバックボーンとしてFaster R-CNNを使って抽出する。
デコーダはアテンションベースのリカレントモジュールとリフレクティブアテンションモジュールからなり、デコーダの長期的なシーケンシャル依存関係をモデル化する能力を高める。
論文 参考訳(メタデータ) (2022-06-16T07:56:28Z) - Guiding Attention using Partial-Order Relationships for Image Captioning [2.620091916172863]
誘導注意ネットワーク機構は、視覚シーンとテキスト記述の関係を利用する。
この埋め込み空間は、共有セマンティック空間における類似の画像、トピック、キャプションを許容する。
MSCOCOデータセットに基づく実験結果は,我々のアプローチの競争力を示している。
論文 参考訳(メタデータ) (2022-04-15T14:22:09Z) - Exploring Explicit and Implicit Visual Relationships for Image
Captioning [11.82805641934772]
本稿では,画像キャプションのための領域レベルの表現を豊かにするために,明示的かつ暗黙的な視覚関係を探索する。
具体的には、オブジェクトペア上にセマンティックグラフを構築し、ゲートグラフ畳み込みネットワーク(Gated GCN)を利用して、近隣住民の情報を選択的に集約する。
暗黙的に、我々は変圧器から領域ベースの双方向エンコーダ表現を介して検出されたオブジェクト間のグローバルな相互作用を描画する。
論文 参考訳(メタデータ) (2021-05-06T01:47:51Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z) - Robust Image Captioning [3.20603058999901]
本研究では, 対向的ロバストカットアルゴリズムを用いて, 対象関係を利用する。
本研究は,画像キャプションのための提案手法の有望な性能を示す。
論文 参考訳(メタデータ) (2020-12-06T00:33:17Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z) - Spatio-Temporal Graph for Video Captioning with Knowledge Distillation [50.034189314258356]
空間と時間におけるオブジェクトの相互作用を利用したビデオキャプションのためのグラフモデルを提案する。
我々のモデルは解釈可能なリンクを構築し、明示的な視覚的グラウンドを提供することができる。
オブジェクト数の変動による相関を回避するため,オブジェクト認識型知識蒸留機構を提案する。
論文 参考訳(メタデータ) (2020-03-31T03:58:11Z) - Exploring and Distilling Cross-Modal Information for Image Captioning [47.62261144821135]
このような理解には、関連した画像領域に対する視覚的注意と、コヒーレントな特徴に対する意味的注意が必要であると論じる。
トランスフォーマーに基づくグローバル・ローカル情報探索・蒸留手法を提案する。
我々のTransformerベースのモデルでは、COCOテストセットのオフラインCOCO評価においてCIDErスコアが129.3に達し、精度、速度、パラメータ予算の点で著しく効率が良い。
論文 参考訳(メタデータ) (2020-02-28T07:46:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。