論文の概要: Transforming Visual Scene Graphs to Image Captions
- arxiv url: http://arxiv.org/abs/2305.02177v4
- Date: Mon, 11 Dec 2023 09:05:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 02:44:09.070583
- Title: Transforming Visual Scene Graphs to Image Captions
- Title(参考訳): 視覚シーングラフから画像キャプションへの変換
- Authors: Xu Yang, Jiawei Peng, Zihua Wang, Haiyang Xu, Qinghao Ye, Chenliang
Li, Songfang Huang, Fei Huang, Zhangzikang Li and Yu Zhang
- Abstract要約: 我々は、Scene Graphs (TSG) をより説明的なキャプションに変換することを提案する。
TSGでは、シーングラフの埋め込みのためのグラフニューラルネットワーク(GNN)の設計にマルチヘッドアテンション(MHA)を適用している。
TSGでは、各専門家はMHAに基づいてグラフ埋め込みを識別し、異なる種類の単語を生成する。
- 参考スコア(独自算出の注目度): 69.13204024990672
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We propose to Transform Scene Graphs (TSG) into more descriptive captions. In
TSG, we apply multi-head attention (MHA) to design the Graph Neural Network
(GNN) for embedding scene graphs. After embedding, different graph embeddings
contain diverse specific knowledge for generating the words with different
part-of-speech, e.g., object/attribute embedding is good for generating
nouns/adjectives. Motivated by this, we design a Mixture-of-Expert (MOE)-based
decoder, where each expert is built on MHA, for discriminating the graph
embeddings to generate different kinds of words. Since both the encoder and
decoder are built based on the MHA, as a result, we construct a homogeneous
encoder-decoder unlike the previous heterogeneous ones which usually apply
Fully-Connected-based GNN and LSTM-based decoder. The homogeneous architecture
enables us to unify the training configuration of the whole model instead of
specifying different training strategies for diverse sub-networks as in the
heterogeneous pipeline, which releases the training difficulty. Extensive
experiments on the MS-COCO captioning benchmark validate the effectiveness of
our TSG. The code is in: https://github.com/GaryJiajia/TSG.
- Abstract(参考訳): 我々は,Scene Graphs (TSG) をより説明的なキャプションに変換することを提案する。
tsgでは,シーングラフ埋め込みのためのグラフニューラルネットワーク(gnn)の設計にマルチヘッドアテンション(mha)を適用する。
埋め込み後、異なるグラフ埋め込みは、異なるパーシャル・オブ・スパイチを持つ単語を生成するための様々な特定の知識を含んでいる。
そこで我々は,mha上で各専門家が構築するmixed-of-expert(moe)ベースのデコーダを設計し,グラフ埋め込みを識別することで,異なる種類の単語を生成する。
エンコーダとデコーダはどちらもMHAに基づいて構築されているため、通常はFully-Connected-based GNNとLSTM-based Decoderを応用した異種エンコーダと異なり、同種エンコーダデコーダを構築する。
均質なアーキテクチャによって、ヘテロジニアスパイプラインのようにさまざまなサブネットワークのトレーニング戦略を指定せずに、モデル全体のトレーニング構成を統一することが可能になります。
TSGの有効性をMS-COCOキャプションベンチマークで検証した。
コードは:https://github.com/GaryJiajia/TSG。
関連論文リスト
- Learning Graph Quantized Tokenizers for Transformers [28.79505338383552]
グラフトランスフォーマー(GT)は、さまざまなグラフ学習タスクにおいて、グラフニューラルネットワーク(GNN)よりも優れた、ディープラーニングのリードモデルとして登場した。
GQT (textbfGraph textbfQuantized textbfTokenizer) を導入した。
GQTとトークン変調を組み合わせることで、Transformerエンコーダは18のベンチマークのうち16の最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-10-17T17:38:24Z) - A Pure Transformer Pretraining Framework on Text-attributed Graphs [50.833130854272774]
グラフ構造を先行として扱うことで,特徴中心の事前学習の視点を導入する。
我々のフレームワークであるGraph Sequence Pretraining with Transformer (GSPT)はランダムウォークを通してノードコンテキストをサンプリングする。
GSPTはノード分類とリンク予測の両方に容易に適応でき、様々なデータセットで有望な経験的成功を示す。
論文 参考訳(メタデータ) (2024-06-19T22:30:08Z) - UniG-Encoder: A Universal Feature Encoder for Graph and Hypergraph Node
Classification [6.977634174845066]
グラフおよびハイパーグラフ表現学習のための普遍的特徴エンコーダ(UniG-Encoder)が設計されている。
アーキテクチャは、連結ノードのトポロジ的関係をエッジやハイパーエッジに前方変換することから始まる。
符号化されたノードの埋め込みは、投影行列の変換によって記述された逆変換から導かれる。
論文 参考訳(メタデータ) (2023-08-03T09:32:50Z) - Neural Machine Translation with Dynamic Graph Convolutional Decoder [32.462919670070654]
本稿では,グラフとシーケンス)構造入力から(グラフとシーケンス)出力への変換アーキテクチャを提案する。
我々は5つの広く知られている翻訳ベンチマークで広範な実験を行い、提案手法がベースラインや他の構文認識の変種よりも一貫した改善を実現することを検証した。
論文 参考訳(メタデータ) (2023-05-28T11:58:07Z) - Training Free Graph Neural Networks for Graph Matching [103.45755859119035]
TFGMは、グラフニューラルネットワーク(GNN)ベースのグラフマッチングのパフォーマンスをトレーニングなしで向上するフレームワークである。
TFGMをさまざまなGNNに適用することは、ベースラインよりも有望な改善を示している。
論文 参考訳(メタデータ) (2022-01-14T09:04:46Z) - MGAE: Masked Autoencoders for Self-Supervised Learning on Graphs [55.66953093401889]
Masked Graph Autoencoder (MGAE) フレームワークは、グラフ構造データの効果的な学習を行う。
自己指導型学習から洞察を得て、私たちはランダムに大量のエッジを隠蔽し、トレーニング中に欠落したエッジを再構築しようとします。
論文 参考訳(メタデータ) (2022-01-07T16:48:07Z) - GN-Transformer: Fusing Sequence and Graph Representation for Improved
Code Summarization [0.0]
融合シーケンスとグラフのモダリティに基づいてエンドツーエンドの学習を行う新しい手法であるGN-Transformerを提案する。
提案手法は,2つのコード要約データセットと3つの自動コード要約メトリクスにおいて,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-11-17T02:51:37Z) - Empirical Analysis of Image Caption Generation using Deep Learning [0.0]
我々は,マルチモーダル画像キャプションネットワークの様々なフレーバーを実装し,実験した。
目標は、さまざまな評価指標を使用して、各アプローチのパフォーマンスを分析することである。
論文 参考訳(メタデータ) (2021-05-14T05:38:13Z) - Learning Multi-Granular Hypergraphs for Video-Based Person
Re-Identification [110.52328716130022]
ビデオベースの人物識別(re-ID)はコンピュータビジョンにおいて重要な研究課題である。
MGH(Multi-Granular Hypergraph)という新しいグラフベースのフレームワークを提案する。
MARSの90.0%のトップ-1精度はMGHを用いて達成され、最先端のスキームよりも優れていた。
論文 参考訳(メタデータ) (2021-04-30T11:20:02Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。