論文の概要: Dual Graph Convolutional Networks with Transformer and Curriculum
Learning for Image Captioning
- arxiv url: http://arxiv.org/abs/2108.02366v1
- Date: Thu, 5 Aug 2021 04:57:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-06 14:42:19.994307
- Title: Dual Graph Convolutional Networks with Transformer and Curriculum
Learning for Image Captioning
- Title(参考訳): 画像キャプションのための変換器とカリキュラム学習を用いたデュアルグラフ畳み込みネットワーク
- Authors: Xinzhi Dong, Chengjiang Long, Wenju Xu, Chunxia Xiao
- Abstract要約: 既存の画像キャプション手法は、単一のイメージ内のオブジェクトやインスタンスの関係を理解することだけに焦点を当てている。
画像キャプションのための変換器とカリキュラム学習を備えたデュアルグラフ畳み込みネットワーク(Dual-GCN)を提案する。
- 参考スコア(独自算出の注目度): 26.496357517937614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing image captioning methods just focus on understanding the
relationship between objects or instances in a single image, without exploring
the contextual correlation existed among contextual image. In this paper, we
propose Dual Graph Convolutional Networks (Dual-GCN) with transformer and
curriculum learning for image captioning. In particular, we not only use an
object-level GCN to capture the object to object spatial relation within a
single image, but also adopt an image-level GCN to capture the feature
information provided by similar images. With the well-designed Dual-GCN, we can
make the linguistic transformer better understand the relationship between
different objects in a single image and make full use of similar images as
auxiliary information to generate a reasonable caption description for a single
image. Meanwhile, with a cross-review strategy introduced to determine
difficulty levels, we adopt curriculum learning as the training strategy to
increase the robustness and generalization of our proposed model. We conduct
extensive experiments on the large-scale MS COCO dataset, and the experimental
results powerfully demonstrate that our proposed method outperforms recent
state-of-the-art approaches. It achieves a BLEU-1 score of 82.2 and a BLEU-2
score of 67.6. Our source code is available at {\em
\color{magenta}{\url{https://github.com/Unbear430/DGCN-for-image-captioning}}}.
- Abstract(参考訳): 既存の画像キャプション手法は、文脈的相関を探索することなく、単一の画像内のオブジェクトやインスタンスの関係を理解することに集中する。
本稿では,画像キャプションのためのトランスフォーマとカリキュラム学習を備えたDual Graph Convolutional Networks (Dual-GCN)を提案する。
特に、オブジェクトレベルのGCNを用いて1つの画像内のオブジェクト空間関係をキャプチャするだけでなく、画像レベルのGCNを用いて類似画像が提供する特徴情報をキャプチャする。
良く設計されたDual-GCNにより、言語変換器は単一の画像内の異なるオブジェクト間の関係をよりよく理解し、類似した画像を補助情報としてフル活用して、単一の画像に対して適切なキャプション記述を生成することができる。
一方、難易度を決定するための相互レビュー戦略を導入し、カリキュラム学習をトレーニング戦略として採用し、提案モデルの堅牢性と一般化を図る。
大規模MS COCOデータセットについて広範な実験を行い,提案手法が最近の最先端手法よりも優れていることを示す。
BLEU-1スコアは82.2、BLEU-2スコアは67.6である。
ソースコードは {\em \color{magenta}{\url{https://github.com/unbear430/dgcn-for-image-captioning}}} で利用可能です。
関連論文リスト
- AddressCLIP: Empowering Vision-Language Models for City-wide Image Address Localization [57.34659640776723]
そこで我々は,より意味論的に問題を解決するために,AddressCLIPというエンドツーエンドのフレームワークを提案する。
われわれはピッツバーグとサンフランシスコに3つのデータセットを構築した。
論文 参考訳(メタデータ) (2024-07-11T03:18:53Z) - Composing Object Relations and Attributes for Image-Text Matching [70.47747937665987]
この研究は、シーングラフを利用して、リレーショナルエッジで相互接続されたオブジェクトや属性のノードでキャプションを表現するデュアルエンコーダ画像テキストマッチングモデルを導入する。
本モデルは,オブジェクト属性とオブジェクトオブジェクトの意味関係を効率的に符号化し,ロバストかつ高速な性能システムを実現する。
論文 参考訳(メタデータ) (2024-06-17T17:56:01Z) - SCONE-GAN: Semantic Contrastive learning-based Generative Adversarial
Network for an end-to-end image translation [18.93434486338439]
SCONE-GANはリアルで多様な風景画像を生成する学習に有効であることが示されている。
より現実的で多様な画像生成のために、スタイル参照画像を導入します。
画像から画像への変換と屋外画像のスタイリングのための提案アルゴリズムを検証した。
論文 参考訳(メタデータ) (2023-11-07T10:29:16Z) - Augment the Pairs: Semantics-Preserving Image-Caption Pair Augmentation
for Grounding-Based Vision and Language Models [16.4010094165575]
テキスト条件付きおよびテキスト条件付きデータ拡張で訓練されたロバストな句接頭辞モデルを提案する。
近年のマスク信号再構成に着想を得て,新しいデータ拡張形式としてピクセルレベルのマスキングを提案する。
提案手法は,各種メトリクスを用いた最先端技術に対する高度な性能を示す。
論文 参考訳(メタデータ) (2023-11-05T01:14:02Z) - CSP: Self-Supervised Contrastive Spatial Pre-Training for
Geospatial-Visual Representations [90.50864830038202]
ジオタグ付き画像の自己教師型学習フレームワークであるContrastive Spatial Pre-Training(CSP)を提案する。
デュアルエンコーダを用いて画像とその対応する位置情報を別々に符号化し、コントラスト目的を用いて画像から効果的な位置表現を学習する。
CSPは、様々なラベル付きトレーニングデータサンプリング比と10~34%の相対的な改善で、モデル性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-05-01T23:11:18Z) - IR-GAN: Image Manipulation with Linguistic Instruction by Increment
Reasoning [110.7118381246156]
Incrment Reasoning Generative Adversarial Network (IR-GAN)は、画像における視覚的インクリメントと命令における意味的インクリメントとの整合性を推論することを目的としている。
まず,単語レベルと命令レベルの命令エンコーダを導入し,履歴関連命令からユーザの意図を意味的インクリメントとして学習する。
第2に、対象画像を生成するために、意味的インクリメントの表現をソースイメージに組み込んで、ソースイメージが補助的参照の役割を担っている。
論文 参考訳(メタデータ) (2022-04-02T07:48:39Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Exploring Explicit and Implicit Visual Relationships for Image
Captioning [11.82805641934772]
本稿では,画像キャプションのための領域レベルの表現を豊かにするために,明示的かつ暗黙的な視覚関係を探索する。
具体的には、オブジェクトペア上にセマンティックグラフを構築し、ゲートグラフ畳み込みネットワーク(Gated GCN)を利用して、近隣住民の情報を選択的に集約する。
暗黙的に、我々は変圧器から領域ベースの双方向エンコーダ表現を介して検出されたオブジェクト間のグローバルな相互作用を描画する。
論文 参考訳(メタデータ) (2021-05-06T01:47:51Z) - RTIC: Residual Learning for Text and Image Composition using Graph
Convolutional Network [19.017377597937617]
画像検索のための画像とテキストの構成学習について検討する。
本稿では,グラフ畳み込みネットワーク(gcn)と既存の合成手法を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2021-04-07T09:41:52Z) - Supervised and Unsupervised Learning of Parameterized Color Enhancement [112.88623543850224]
我々は、教師なし学習と教師なし学習の両方を用いて、画像翻訳タスクとしての色強調の問題に取り組む。
我々は,MIT-Adobe FiveKベンチマークにおいて,教師付き(ペアデータ)と教師なし(ペアデータ)の2つの画像強調手法と比較して,最先端の結果が得られた。
20世紀初頭の写真や暗黒ビデオフレームに応用することで,本手法の一般化能力を示す。
論文 参考訳(メタデータ) (2019-12-30T13:57:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。