論文の概要: Multi-modal reward for visual relationships-based image captioning
- arxiv url: http://arxiv.org/abs/2303.10766v2
- Date: Tue, 21 Mar 2023 16:39:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-22 11:07:50.582824
- Title: Multi-modal reward for visual relationships-based image captioning
- Title(参考訳): 視覚関係に基づく画像キャプションにおけるマルチモーダル報酬
- Authors: Ali Abedi, Hossein Karshenas, Peyman Adibi
- Abstract要約: 本稿では、画像のシーングラフから抽出した視覚的関係情報を画像の空間的特徴マップに融合させることにより、画像キャプションのためのディープニューラルネットワークアーキテクチャを提案する。
次に、共通埋め込み空間における言語と視覚の類似性の組み合わせを用いて、提案するネットワークの深層強化学習のためにマルチモーダル報酬関数を導入する。
- 参考スコア(独自算出の注目度): 4.354364351426983
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks have achieved promising results in automatic image
captioning due to their effective representation learning and context-based
content generation capabilities. As a prominent type of deep features used in
many of the recent image captioning methods, the well-known bottomup features
provide a detailed representation of different objects of the image in
comparison with the feature maps directly extracted from the raw image.
However, the lack of high-level semantic information about the relationships
between these objects is an important drawback of bottom-up features, despite
their expensive and resource-demanding extraction procedure. To take advantage
of visual relationships in caption generation, this paper proposes a deep
neural network architecture for image captioning based on fusing the visual
relationships information extracted from an image's scene graph with the
spatial feature maps of the image. A multi-modal reward function is then
introduced for deep reinforcement learning of the proposed network using a
combination of language and vision similarities in a common embedding space.
The results of extensive experimentation on the MSCOCO dataset show the
effectiveness of using visual relationships in the proposed captioning method.
Moreover, the results clearly indicate that the proposed multi-modal reward in
deep reinforcement learning leads to better model optimization, outperforming
several state-of-the-art image captioning algorithms, while using light and
easy to extract image features. A detailed experimental study of the components
constituting the proposed method is also presented.
- Abstract(参考訳): ディープニューラルネットワークは、効果的な表現学習とコンテキストベースのコンテンツ生成能力により、自動画像キャプションで有望な結果を得た。
近年の多くの画像キャプション手法で用いられる深い特徴として、よく知られたボトムアップ機能は、生画像から直接抽出された特徴マップと比較して、画像の異なるオブジェクトの詳細な表現を提供する。
しかし、これらのオブジェクト間の関係に関するハイレベルな意味情報の欠如は、コストとリソース要求の抽出手順にもかかわらず、ボトムアップ機能の重大な欠点である。
本稿では,キャプション生成における視覚関係の活用を目的として,画像の空間的特徴マップと画像のシーングラフから抽出した視覚関係情報を融合して,画像キャプションのためのディープニューラルネットワークアーキテクチャを提案する。
次に、共通埋め込み空間における言語と視覚の類似性の組み合わせを用いて、提案ネットワークの深層強化学習にマルチモーダル報酬関数を導入する。
MSCOCOデータセットを用いた広範囲な実験の結果,提案手法における視覚的関係の有効性が示された。
さらに, 深部強化学習におけるマルチモーダル報酬は, 画像特徴の抽出が容易でありながら, 最新の画像キャプションアルゴリズムよりも優れたモデル最適化をもたらすことが明らかとなった。
また,提案手法を構成する部品について詳細な実験を行った。
関連論文リスト
- Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。
具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。
我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2024-05-21T18:02:07Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - Retrieval-Augmented Transformer for Image Captioning [51.79146669195357]
我々は、kNNメモリを用いた画像キャプション手法を開発し、外部コーパスから知識を抽出して生成プロセスを支援する。
我々のアーキテクチャは、視覚的類似性に基づく知識検索と、識別可能なエンコーダと、トークンを予測するためにkNN拡張アテンション層を組み合わせる。
COCOデータセットで実施した実験結果は、明示的な外部メモリを利用することで、生成プロセスの助けとなり、キャプションの品質が向上することを示した。
論文 参考訳(メタデータ) (2022-07-26T19:35:49Z) - Guiding Attention using Partial-Order Relationships for Image Captioning [2.620091916172863]
誘導注意ネットワーク機構は、視覚シーンとテキスト記述の関係を利用する。
この埋め込み空間は、共有セマンティック空間における類似の画像、トピック、キャプションを許容する。
MSCOCOデータセットに基づく実験結果は,我々のアプローチの競争力を示している。
論文 参考訳(メタデータ) (2022-04-15T14:22:09Z) - Two-stage Visual Cues Enhancement Network for Referring Image
Segmentation [89.49412325699537]
Referring Image (RIS)は、ある自然言語表現によって参照される画像から対象のオブジェクトをセグメント化することを目的としている。
本稿では,2段階のビジュアルキュー拡張ネットワーク(TV-Net)を考案し,この問題に対処する。
この2段階の強化により,提案するTV-Netは,自然言語表現と画像間のきめ細かいマッチング動作の学習において,より優れた性能を享受できる。
論文 参考訳(メタデータ) (2021-10-09T02:53:39Z) - Exploring Semantic Relationships for Unpaired Image Captioning [40.401322131624866]
視覚領域と言語領域を高レベルな意味情報でブリッジすることで、不適切な画像キャプションを実現する。
画像の理解を深めるため,セマンティック・リレーション・エクスプローラーを提案する。
提案手法は,CIDErのスコアが8%に向上したペア設定下で,5つの強いベースラインを向上する。
論文 参考訳(メタデータ) (2021-06-20T09:10:11Z) - Exploring Explicit and Implicit Visual Relationships for Image
Captioning [11.82805641934772]
本稿では,画像キャプションのための領域レベルの表現を豊かにするために,明示的かつ暗黙的な視覚関係を探索する。
具体的には、オブジェクトペア上にセマンティックグラフを構築し、ゲートグラフ畳み込みネットワーク(Gated GCN)を利用して、近隣住民の情報を選択的に集約する。
暗黙的に、我々は変圧器から領域ベースの双方向エンコーダ表現を介して検出されたオブジェクト間のグローバルな相互作用を描画する。
論文 参考訳(メタデータ) (2021-05-06T01:47:51Z) - Learning to Compose Hypercolumns for Visual Correspondence [57.93635236871264]
本稿では,画像に条件付けされた関連レイヤを活用することで,動的に効率的な特徴を構成する視覚対応手法を提案する。
提案手法はダイナミックハイパーピクセルフロー(Dynamic Hyperpixel Flow)と呼ばれ,深層畳み込みニューラルネットワークから少数の関連層を選択することにより,高速にハイパーカラム機能を構成することを学習する。
論文 参考訳(メタデータ) (2020-07-21T04:03:22Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。