論文の概要: Tensor Composition Net for Visual Relationship Prediction
- arxiv url: http://arxiv.org/abs/2012.05473v1
- Date: Thu, 10 Dec 2020 06:27:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-15 06:24:58.429759
- Title: Tensor Composition Net for Visual Relationship Prediction
- Title(参考訳): 視覚関係予測のためのテンソル構成ネット
- Authors: Yuting Qiang, Yongxin Yang, Yanwen Guo and Timothy M. Hospedales
- Abstract要約: 画像の視覚的関係を予測するための新しいコンポジションネットワーク(TCN)を提案する。
TCNの鍵となる考え方は、視覚的関係テンソルの低階特性を利用することである。
本稿では,ttcnの画像レベルの視覚関係予測により,画像検索の簡便かつ効率的なメカニズムを示す。
- 参考スコア(独自算出の注目度): 115.14829858763399
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel Tensor Composition Network (TCN) to predict visual
relationships in images. Visual Relationships in subject-predicate-object form
provide a more powerful query modality than simple image tags. However Visual
Relationship Prediction (VRP) also provides a more challenging test of image
understanding than conventional image tagging, and is difficult to learn due to
a large label-space and incomplete annotation. The key idea of our TCN is to
exploit the low rank property of the visual relationship tensor, so as to
leverage correlations within and across objects and relationships, and make a
structured prediction of all objects and their relations in an image. To show
the effectiveness of our method, we first empirically compare our model with
multi-label classification alternatives on VRP, and show that our model
outperforms state-of-the-art MLIC methods. We then show that, thanks to our
tensor (de)composition layer, our model can predict visual relationships which
have not been seen in training dataset. We finally show our TCN's image-level
visual relationship prediction provides a simple and efficient mechanism for
relation-based image retrieval.
- Abstract(参考訳): 画像中の視覚的関係を予測するための新しいテンソル合成ネットワーク(TCN)を提案する。
subject-predicate-object形式の視覚的関係は、単純な画像タグよりも強力なクエリモダリティを提供する。
しかし、視覚関係予測(vrp)は従来の画像タグ付けよりも画像理解のより難しいテストを提供しており、大きなラベル空間と不完全なアノテーションのため学習が困難である。
TCNのキーとなる考え方は、視覚的関係テンソルの低階特性を利用して、オブジェクトとリレーション間の相関を利用して、画像内のすべてのオブジェクトとその関係を構造化した予測を行うことである。
提案手法の有効性を示すために,まずVRP上の複数ラベルの分類方法と比較し,そのモデルが最先端のMLIC法より優れていることを示す。
次に、テンソル(de)コンポジション層のおかげで、トレーニングデータセットで見たことのない視覚的な関係を予測できることを示します。
最後に,TNの画像レベルの視覚的関係予測が,関係に基づく画像検索のシンプルかつ効率的なメカニズムを提供することを示す。
関連論文リスト
- Composing Object Relations and Attributes for Image-Text Matching [70.47747937665987]
この研究は、シーングラフを利用して、リレーショナルエッジで相互接続されたオブジェクトや属性のノードでキャプションを表現するデュアルエンコーダ画像テキストマッチングモデルを導入する。
本モデルは,オブジェクト属性とオブジェクトオブジェクトの意味関係を効率的に符号化し,ロバストかつ高速な性能システムを実現する。
論文 参考訳(メタデータ) (2024-06-17T17:56:01Z) - Scene-Graph ViT: End-to-End Open-Vocabulary Visual Relationship Detection [14.22646492640906]
オープン語彙の視覚的関係検出のための単純かつ高効率なデコーダレスアーキテクチャを提案する。
我々のモデルはTransformerベースの画像エンコーダで、オブジェクトをトークンとして表現し、それらの関係を暗黙的にモデル化する。
提案手法は,ビジュアルゲノムおよび大語彙GQAベンチマーク上で,リアルタイムな推論速度で,最先端の関係検出性能を実現する。
論文 参考訳(メタデータ) (2024-03-21T10:15:57Z) - Correlational Image Modeling for Self-Supervised Visual Pre-Training [81.82907503764775]
相関画像モデリング(Relational Image Modeling)は、自己監督型視覚前訓練における、新しくて驚くほど効果的なアプローチである。
3つの重要な設計は、相関画像モデリングを非自明で有意義な自己監督タスクとして実現している。
論文 参考訳(メタデータ) (2023-03-22T15:48:23Z) - Detecting Objects with Context-Likelihood Graphs and Graph Refinement [45.70356990655389]
本研究の目的は,オブジェクトと関係を別々に学習する既存の手法とは対照的に,オブジェクトの関係分布を共同で学習することである。
本稿では,オブジェクト間関係と初期クラス予測から画像のグラフィカルな表現を生成する新しい手法を提案する。
次に,エネルギーに基づくモデリング手法を用いて接合部を学習し,与えられた画像に対して文脈類似グラフを反復的に改良する。
論文 参考訳(メタデータ) (2022-12-23T15:27:21Z) - Relational Embedding for Few-Shot Classification [32.12002195421671]
本稿では,メタラーニング(メタラーニング)の「観察すべきもの」と「出席すべき場所」をリレーショナルな視点で扱うことで,数発分類の問題に対処することを提案する。
我々の手法は自己相関表現(SCR)と相互相関注意(CCA)を通して画像内および画像間のパターンを利用する。
私たちの埋め込みネットワーク(RENet)は2つのリレーショナルモジュールを組み合わせて、エンドツーエンドでリレーショナル埋め込みを学習します。
論文 参考訳(メタデータ) (2021-08-22T08:44:55Z) - Unified Graph Structured Models for Video Understanding [93.72081456202672]
リレーショナル・テンポラル関係を明示的にモデル化するメッセージパッシンググラフニューラルネットワークを提案する。
本手法は,シーン内の関連エンティティ間の関係をより効果的にモデル化できることを示す。
論文 参考訳(メタデータ) (2021-03-29T14:37:35Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z) - Explanation-based Weakly-supervised Learning of Visual Relations with
Graph Networks [7.199745314783952]
本稿では,最小画像レベルの述語ラベルに依存した視覚的関係検出手法を提案する。
グラフニューラルネットワークは、検出されたオブジェクトのグラフ表現から画像中の述語を分類するように訓練され、ペア関係の帰納バイアスを暗黙的に符号化する。
本稿では,3つの多種多様かつ難解なデータセットに対して,最新の完全および弱教師付き手法に匹敵する結果を提示する。
論文 参考訳(メタデータ) (2020-06-16T23:14:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。