論文の概要: ReFormer: The Relational Transformer for Image Captioning
- arxiv url: http://arxiv.org/abs/2107.14178v1
- Date: Thu, 29 Jul 2021 17:03:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-30 15:31:40.040024
- Title: ReFormer: The Relational Transformer for Image Captioning
- Title(参考訳): ReFormer:イメージキャプションのためのリレーショナルトランス
- Authors: Xuewen Yang, Yingru Liu, Xin Wang
- Abstract要約: 画像キャプションは、シーングラフを使用して画像内のオブジェクトの関係を表現することにより、より良いパフォーマンスを実現することができる。
本稿では,関係情報を埋め込んだ特徴を生成する新しいアーキテクチャReFormerを提案する。
本モデルは画像キャプションとシーングラフ生成における最先端手法を著しく上回る。
- 参考スコア(独自算出の注目度): 12.184772369145014
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Image captioning is shown to be able to achieve a better performance by using
scene graphs to represent the relations of objects in the image. The current
captioning encoders generally use a Graph Convolutional Net (GCN) to represent
the relation information and merge it with the object region features via
concatenation or convolution to get the final input for sentence decoding.
However, the GCN-based encoders in the existing methods are less effective for
captioning due to two reasons. First, using the image captioning as the
objective (i.e., Maximum Likelihood Estimation) rather than a relation-centric
loss cannot fully explore the potential of the encoder. Second, using a
pre-trained model instead of the encoder itself to extract the relationships is
not flexible and cannot contribute to the explainability of the model. To
improve the quality of image captioning, we propose a novel architecture
ReFormer -- a RElational transFORMER to generate features with relation
information embedded and to explicitly express the pair-wise relationships
between objects in the image. ReFormer incorporates the objective of scene
graph generation with that of image captioning using one modified Transformer
model. This design allows ReFormer to generate not only better image captions
with the bene-fit of extracting strong relational image features, but also
scene graphs to explicitly describe the pair-wise relation-ships. Experiments
on publicly available datasets show that our model significantly outperforms
state-of-the-art methods on image captioning and scene graph generation
- Abstract(参考訳): 画像キャプションは、シーングラフを使用して画像内のオブジェクトの関係を表現することにより、より良いパフォーマンスを実現することができる。
現在のキャプションエンコーダは、グラフ畳み込みネット(gcn)を使用して関連情報を表現し、畳み込みまたは畳み込みを介して対象領域の特徴とマージし、文復号の最終入力を得る。
しかし、既存の手法におけるgcnベースのエンコーダは、2つの理由によりキャプションにはあまり効果がない。
第一に、画像キャプションを目的(すなわち最大類似度推定)として使う場合、関係中心の損失ではなく、エンコーダのポテンシャルを十分に調べることができない。
第二に、エンコーダ自体の代わりに事前訓練されたモデルを使用して関係を抽出することは柔軟性がなく、モデルの説明可能性に寄与できない。
画像キャプションの質を向上させるため,画像内のオブジェクト間の対関係を明示的に表現し,関係情報を埋め込んだ特徴を生成できるリレーショナルトランスフォーマを提案する。
reformerは、1つの変圧器モデルを用いてシーングラフ生成の目的を画像キャプションの目的と組み込んでいる。
この設計により、ReFormerは強力なリレーショナルイメージ特徴を抽出するベネフィットに優れた画像キャプションを生成するだけでなく、シーングラフでペアワイドなリレーショナルシップを明示的に記述することができる。
公開データセットにおける実験により,画像キャプションとシーングラフ生成における最先端手法を有意に上回っていることが示された。
関連論文リスト
- Composing Object Relations and Attributes for Image-Text Matching [70.47747937665987]
この研究は、シーングラフを利用して、リレーショナルエッジで相互接続されたオブジェクトや属性のノードでキャプションを表現するデュアルエンコーダ画像テキストマッチングモデルを導入する。
本モデルは,オブジェクト属性とオブジェクトオブジェクトの意味関係を効率的に符号化し,ロバストかつ高速な性能システムを実現する。
論文 参考訳(メタデータ) (2024-06-17T17:56:01Z) - Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。
具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。
我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2024-05-21T18:02:07Z) - Relation Rectification in Diffusion Model [64.84686527988809]
本稿では,最初に生成できない関係を正確に表現するためにモデルを洗練することを目的とした,リレーション・リクティフィケーション(Relation Rectification)と呼ばれる新しいタスクを紹介する。
異種グラフ畳み込みネットワーク(HGCN)を利用した革新的な解を提案する。
軽量HGCNは、テキストエンコーダによって生成されたテキスト埋め込みを調整し、埋め込み空間におけるテキスト関係の正確な反映を保証する。
論文 参考訳(メタデータ) (2024-03-29T15:54:36Z) - FACTUAL: A Benchmark for Faithful and Consistent Textual Scene Graph
Parsing [66.70054075041487]
画像キャプションをシーングラフに変換する既存のシーングラフは、しばしば2種類のエラーに悩まされる。
まず、生成されたシーングラフはキャプションや対応する画像の真の意味を捉えず、忠実さの欠如をもたらす。
第二に、生成されたシーングラフは一貫性が高く、同じセマンティクスは異なるアノテーションで表される。
論文 参考訳(メタデータ) (2023-05-27T15:38:31Z) - Transform, Contrast and Tell: Coherent Entity-Aware Multi-Image
Captioning [0.65268245109828]
コヒーレントエンティティを意識したマルチイメージキャプションは、ニュース文書に隣接する画像のコヒーレントキャプションを生成することを目的としている。
本稿では,コヒーレンス関係を利用して,コヒーレントな実体認識型マルチイメージキャプションモデルを提案する。
論文 参考訳(メタデータ) (2023-02-04T07:50:31Z) - Diffusion-Based Scene Graph to Image Generation with Masked Contrastive
Pre-Training [112.94542676251133]
画像とのアライメントを直接最適化することで,シーングラフの埋め込みを学習する。
具体的には,シーングラフからグローバル情報とローカル情報の両方を抽出するエンコーダを事前訓練する。
SGDiffと呼ばれる結果の方法は、シーングラフノードと接続を変更することによって生成された画像のセマンティックな操作を可能にする。
論文 参考訳(メタデータ) (2022-11-21T01:11:19Z) - Transforming Image Generation from Scene Graphs [11.443097632746763]
本稿では,デコーダを用いて自動回帰合成を行うシーングラフを用いたトランスフォーマ方式を提案する。
提案アーキテクチャは,1)入力グラフの関係を符号化するグラフ畳み込みネットワーク,2)出力画像を自己回帰的に合成するエンコーダ・デコーダ変換器,3)各生成ステップの入力/出力として使用される表現を生成するオートエンコーダの3つのモジュールから構成される。
論文 参考訳(メタデータ) (2022-07-01T16:59:38Z) - SG2Caps: Revisiting Scene Graphs for Image Captioning [37.58310822924814]
本稿では,シーングラフラベルのみを競合画像キャプション性能に用いるSG2Capsを提案する。
筆者らのフレームワークは,既存のシーングラフのみのキャプションモデルにおいて,画像キャプションの有望な表現としてシーングラフを示す大きなマージン(CIDErスコア110 vs 71)よりも優れていた。
論文 参考訳(メタデータ) (2021-02-09T18:00:53Z) - Are scene graphs good enough to improve Image Captioning? [19.36188161855731]
画像キャプションにおけるシーングラフの利用について検討する。
シーングラフ機能を使用するモデルと、オブジェクト検出機能のみを使用するモデルの間には、大きな違いは見つからない。
予測されたシーングラフの品質は一般的に非常に低いが、高品質なシーングラフを使用すると最大3.3CIDErのゲインが得られる。
論文 参考訳(メタデータ) (2020-09-25T16:09:08Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。