論文の概要: Relationship-based Neural Baby Talk
- arxiv url: http://arxiv.org/abs/2103.04846v1
- Date: Mon, 8 Mar 2021 15:51:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-10 14:17:27.656062
- Title: Relationship-based Neural Baby Talk
- Title(参考訳): 関係に基づくニューラルベイビートーク
- Authors: Fan Fu, Tingting Xie, Ioannis Patras, Sepehr Jalali
- Abstract要約: 幾何学的相互作用を探索するtextitpatial relationship、意味的相互作用を抽出するtextitsemantic relationship、隠された情報をキャプチャするtextitimplicit relationshipの3つの主な関係を検討する。
提案したR-NBTモデルは,COCOデータセット上で訓練された最先端モデルよりも3つの画像キャプション生成タスクで優れる。
- 参考スコア(独自算出の注目度): 10.342180619706724
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding interactions between objects in an image is an important
element for generating captions. In this paper, we propose a relationship-based
neural baby talk (R-NBT) model to comprehensively investigate several types of
pairwise object interactions by encoding each image via three different
relationship-based graph attention networks (GATs). We study three main
relationships: \textit{spatial relationships} to explore geometric
interactions, \textit{semantic relationships} to extract semantic interactions,
and \textit{implicit relationships} to capture hidden information that could
not be modelled explicitly as above. We construct three relationship graphs
with the objects in an image as nodes, and the mutual relationships of pairwise
objects as edges. By exploring features of neighbouring regions individually
via GATs, we integrate different types of relationships into visual features of
each node. Experiments on COCO dataset show that our proposed R-NBT model
outperforms state-of-the-art models trained on COCO dataset in three image
caption generation tasks.
- Abstract(参考訳): 画像内のオブジェクト間の相互作用を理解することは、キャプションを生成する重要な要素である。
本稿では,3つの異なる関係に基づくグラフアテンションネットワーク(GAT)を介して,各画像を符号化することにより,複数種類のペアワイズオブジェクトインタラクションを包括的に検討する,関係ベースのニューラルベビートーク(R-NBT)モデルを提案する。
幾何学的相互作用を探索する \textit{spatial relations} 、意味的相互作用を抽出するための \textit{semantic relations} 、上述のように明示的にモデル化できない隠れた情報をキャプチャする \textit{implicit relations} の3つの主要な関係を研究した。
画像中のオブジェクトをノードとする3つの関係グラフと、エッジとしてのペアワイズオブジェクトの相互関係を構築する。
GATを介して各地域の特徴を個別に探索することにより、異なる種類の関係を各ノードの視覚的特徴に統合します。
COCOデータセットの実験では、提案されたR-NBTモデルが3つの画像キャプション生成タスクでCOCOデータセットで訓練された最新モデルを上回ることが示された。
関連論文リスト
- Hire: Hybrid-modal Interaction with Multiple Relational Enhancements for Image-Text Matching [7.7559623054251]
画像テキストマッチング(ITM)はコンピュータビジョンの基本的な問題である。
画像テキストマッチングのためのマルチエンハンスメント(termed textitHire)を用いたハイブリッドモーダル機能を提案する。
特に、明示的なモーダル空間意味グラフに基づく推論ネットワークは、視覚オブジェクトの文脈表現を改善するために設計されている。
論文 参考訳(メタデータ) (2024-06-05T13:10:55Z) - Relation Rectification in Diffusion Model [64.84686527988809]
本稿では,最初に生成できない関係を正確に表現するためにモデルを洗練することを目的とした,リレーション・リクティフィケーション(Relation Rectification)と呼ばれる新しいタスクを紹介する。
異種グラフ畳み込みネットワーク(HGCN)を利用した革新的な解を提案する。
軽量HGCNは、テキストエンコーダによって生成されたテキスト埋め込みを調整し、埋め込み空間におけるテキスト関係の正確な反映を保証する。
論文 参考訳(メタデータ) (2024-03-29T15:54:36Z) - Semantic Scene Graph Generation Based on an Edge Dual Scene Graph and
Message Passing Neural Network [3.9280441311534653]
シーングラフ生成(SGG)は、画像内のオブジェクト間の関係をキャプチャし、構造化グラフベースの表現を生成する。
既存のSGG法は、詳細な関係を正確に予測する能力に制限がある。
本稿では,エッジデュアルシーングラフ生成(EdgeSGG)と呼ばれるマルチオブジェクト関係のモデリング手法を提案する。
論文 参考訳(メタデータ) (2023-11-02T12:36:52Z) - A Masked Image Reconstruction Network for Document-level Relation
Extraction [3.276435438007766]
文書レベルの関係抽出は、複雑な3重関係を抽出するために複数の文に対する推論を必要とする。
マスク付き画像再構成ネットワーク(DRE-MIR)に基づく文書レベルの関係抽出モデルを提案する。
我々は,3つの公開文書レベルの関係抽出データセットについて,そのモデルを評価する。
論文 参考訳(メタデータ) (2022-04-21T02:41:21Z) - Relationformer: A Unified Framework for Image-to-Graph Generation [18.832626244362075]
この研究は、オブジェクトとその関係を共同で予測する一段階トランスフォーマーベースの統合フレームワークであるRelationformerを提案する。
我々は、直接セットベースのオブジェクト予測を活用し、オブジェクト間の相互作用を取り入れて、オブジェクト関係表現を共同で学習する。
複数、多種多様な、複数ドメインのデータセット上で、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-19T00:36:59Z) - Transformer-based Dual Relation Graph for Multi-label Image Recognition [56.12543717723385]
本稿では,トランスフォーマーをベースとしたデュアルリレーショナル学習フレームワークを提案する。
相関の2つの側面、すなわち構造関係グラフと意味関係グラフについて検討する。
提案手法は,2つのポピュラーなマルチラベル認識ベンチマークにおいて,最先端性を実現する。
論文 参考訳(メタデータ) (2021-10-10T07:14:52Z) - Unified Graph Structured Models for Video Understanding [93.72081456202672]
リレーショナル・テンポラル関係を明示的にモデル化するメッセージパッシンググラフニューラルネットワークを提案する。
本手法は,シーン内の関連エンティティ間の関係をより効果的にモデル化できることを示す。
論文 参考訳(メタデータ) (2021-03-29T14:37:35Z) - Tensor Composition Net for Visual Relationship Prediction [115.14829858763399]
画像の視覚的関係を予測するための新しいコンポジションネットワーク(TCN)を提案する。
TCNの鍵となる考え方は、視覚的関係テンソルの低階特性を利用することである。
本稿では,ttcnの画像レベルの視覚関係予測により,画像検索の簡便かつ効率的なメカニズムを示す。
論文 参考訳(メタデータ) (2020-12-10T06:27:20Z) - Attention Guided Semantic Relationship Parsing for Visual Question
Answering [36.84737596725629]
人間は視覚質問回答(VQA)のような視覚言語タスクを実行するのに必要な高レベルな理解を示す意味ラベルとのオブジェクト間関係を説明する
既存のVQAモデルは、モデルがマルチモーダルタスクを解決しようとしている間、単一のドメイン内のオブジェクト間の相互作用を表現することを制約するオブジェクトレベルの視覚的特徴の組み合わせとして関係を表現します。
本稿では、画像中の主観的対象物三重項ごとに意味的特徴ベクトルを生成する汎用意味関係と、重要な関係三重項を識別する相互自己認識機構を提案する。
論文 参考訳(メタデータ) (2020-10-05T00:23:49Z) - ConsNet: Learning Consistency Graph for Zero-Shot Human-Object
Interaction Detection [101.56529337489417]
画像中のHuman, Action, Object>の形のHOIインスタンスを検出・認識することを目的としたHuman-Object Interaction (HOI) Detectionの問題点を考察する。
我々は、オブジェクト、アクション、インタラクション間の多レベルコンパレンシーは、稀な、あるいは以前には見られなかったHOIのセマンティック表現を生成するための強力な手がかりであると主張している。
提案モデルでは,人-対象のペアの視覚的特徴とHOIラベルの単語埋め込みを入力とし,それらを視覚-意味的関節埋め込み空間にマッピングし,類似度を計測して検出結果を得る。
論文 参考訳(メタデータ) (2020-08-14T09:11:18Z) - Expressing Objects just like Words: Recurrent Visual Embedding for
Image-Text Matching [102.62343739435289]
既存の画像テキストマッチングアプローチは、テキストと画像の各独立オブジェクト間の親和性をキャプチャして集約することにより、画像テキストペアの類似性を推測する。
本稿では,リカレントニューラルネットワーク(RNN)を用いて画像と文を対称に処理するDual Path Recurrent Neural Network (DP-RNN)を提案する。
我々のモデルはFlickr30Kデータセットの最先端性能とMS-COCOデータセットの競合性能を達成する。
論文 参考訳(メタデータ) (2020-02-20T00:51:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。