論文の概要: Explanation-based Weakly-supervised Learning of Visual Relations with
Graph Networks
- arxiv url: http://arxiv.org/abs/2006.09562v2
- Date: Fri, 17 Jul 2020 21:01:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-20 21:15:06.709282
- Title: Explanation-based Weakly-supervised Learning of Visual Relations with
Graph Networks
- Title(参考訳): 説明に基づくグラフネットワークとの視覚関係の弱教師付き学習
- Authors: Federico Baldassarre, Kevin Smith, Josephine Sullivan, Hossein
Azizpour
- Abstract要約: 本稿では,最小画像レベルの述語ラベルに依存した視覚的関係検出手法を提案する。
グラフニューラルネットワークは、検出されたオブジェクトのグラフ表現から画像中の述語を分類するように訓練され、ペア関係の帰納バイアスを暗黙的に符号化する。
本稿では,3つの多種多様かつ難解なデータセットに対して,最新の完全および弱教師付き手法に匹敵する結果を提示する。
- 参考スコア(独自算出の注目度): 7.199745314783952
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual relationship detection is fundamental for holistic image
understanding. However, the localization and classification of (subject,
predicate, object) triplets remain challenging tasks, due to the combinatorial
explosion of possible relationships, their long-tailed distribution in natural
images, and an expensive annotation process. This paper introduces a novel
weakly-supervised method for visual relationship detection that relies on
minimal image-level predicate labels. A graph neural network is trained to
classify predicates in images from a graph representation of detected objects,
implicitly encoding an inductive bias for pairwise relations. We then frame
relationship detection as the explanation of such a predicate classifier, i.e.
we obtain a complete relation by recovering the subject and object of a
predicted predicate. We present results comparable to recent fully- and
weakly-supervised methods on three diverse and challenging datasets: HICO-DET
for human-object interaction, Visual Relationship Detection for generic
object-to-object relations, and UnRel for unusual triplets; demonstrating
robustness to non-comprehensive annotations and good few-shot generalization.
- Abstract(参考訳): 視覚的関係検出は全体像理解の基礎となる。
しかしながら、(対象、述語、対象)三重項の局所化と分類は、考えられる関係の組合せ的な爆発、自然画像における長い尾の分布、そして高価なアノテーションプロセスにより、依然として困難な課題である。
本稿では,最小画像レベルの述語ラベルに依存した視覚的関係検出手法を提案する。
グラフニューラルネットワークは、検出されたオブジェクトのグラフ表現から画像中の述語を分類するように訓練され、ペア関係の帰納バイアスを暗黙的に符号化する。
このような述語分類器の説明として関係検出をフレーム化し、予測述語の対象と対象を回収することで完全関係を得る。
本研究では,人間-オブジェクト間インタラクションのためのhco-det,汎用オブジェクト-オブジェクト間関係の視覚的関係検出,異常な三重項に対するunrel,非理解的アノテーションに対する頑健性および良好な限定的一般化という,最近の完全かつ弱い教師付き手法に匹敵する結果を示す。
関連論文リスト
- Leveraging Predicate and Triplet Learning for Scene Graph Generation [31.09787444957997]
SGG(Scene Graph Generation)は、エンティティを特定し、関係トリプルを予測することを目的としている。
本稿では,大きめの述語に加えて細粒度三重項キューを利用するためのDRMネットワークを提案する。
提案手法は,Visual Genome, Open Image, GQAデータセット上での最先端性能を確立する。
論文 参考訳(メタデータ) (2024-06-04T07:23:41Z) - Scene-Graph ViT: End-to-End Open-Vocabulary Visual Relationship Detection [14.22646492640906]
オープン語彙の視覚的関係検出のための単純かつ高効率なデコーダレスアーキテクチャを提案する。
我々のモデルはTransformerベースの画像エンコーダで、オブジェクトをトークンとして表現し、それらの関係を暗黙的にモデル化する。
提案手法は,ビジュアルゲノムおよび大語彙GQAベンチマーク上で,リアルタイムな推論速度で,最先端の関係検出性能を実現する。
論文 参考訳(メタデータ) (2024-03-21T10:15:57Z) - Transitivity Recovering Decompositions: Interpretable and Robust
Fine-Grained Relationships [69.04014445666142]
Transitivity Recovering Decompositions (TRD) は、抽象的な創発的関係の解釈可能な等価性を識別するグラフ空間探索アルゴリズムである。
TRDは明らかにノイズの多い見方に対して堅牢であり、実証的な証拠もこの発見を支持している。
論文 参考訳(メタデータ) (2023-10-24T16:48:56Z) - Unified Graph Structured Models for Video Understanding [93.72081456202672]
リレーショナル・テンポラル関係を明示的にモデル化するメッセージパッシンググラフニューラルネットワークを提案する。
本手法は,シーン内の関連エンティティ間の関係をより効果的にモデル化できることを示す。
論文 参考訳(メタデータ) (2021-03-29T14:37:35Z) - Relationship-based Neural Baby Talk [10.342180619706724]
幾何学的相互作用を探索するtextitpatial relationship、意味的相互作用を抽出するtextitsemantic relationship、隠された情報をキャプチャするtextitimplicit relationshipの3つの主な関係を検討する。
提案したR-NBTモデルは,COCOデータセット上で訓練された最先端モデルよりも3つの画像キャプション生成タスクで優れる。
論文 参考訳(メタデータ) (2021-03-08T15:51:24Z) - Tensor Composition Net for Visual Relationship Prediction [115.14829858763399]
画像の視覚的関係を予測するための新しいコンポジションネットワーク(TCN)を提案する。
TCNの鍵となる考え方は、視覚的関係テンソルの低階特性を利用することである。
本稿では,ttcnの画像レベルの視覚関係予測により,画像検索の簡便かつ効率的なメカニズムを示す。
論文 参考訳(メタデータ) (2020-12-10T06:27:20Z) - Learning Relation Prototype from Unlabeled Texts for Long-tail Relation
Extraction [84.64435075778988]
本稿では,ラベルのないテキストから関係プロトタイプを学習するための一般的なアプローチを提案する。
我々は、エンティティ間の暗黙的な要因として関係プロトタイプを学習する。
私たちは、New York TimesとGoogle Distant Supervisionの2つの公開データセットで実験を行います。
論文 参考訳(メタデータ) (2020-11-27T06:21:12Z) - Dual ResGCN for Balanced Scene GraphGeneration [106.7828712878278]
本稿では,オブジェクト残差グラフ畳み込みネットワークと関係残差グラフ畳み込みネットワークからなる新しいモデルであるtextitdual ResGCNを提案する。
2つのネットワークは相互に補完的であり、前者はオブジェクトレベルのコンテキスト情報、すなわちオブジェクト間の接続をキャプチャする。
後者は、関係レベルのコンテキスト情報、すなわち関係間の関係を明示的にキャプチャするように設計されている。
論文 参考訳(メタデータ) (2020-11-09T07:44:17Z) - Addressing Class Imbalance in Scene Graph Parsing by Learning to
Contrast and Score [65.18522219013786]
シーングラフ解析は、画像シーン内のオブジェクトを検出し、それらの関係を認識することを目的としている。
最近の手法は、いくつかの人気のあるベンチマークで高い平均スコアを達成しているが、稀な関係を検出するには失敗している。
本稿では,クラス不均衡問題を解決するために,分類とランキングの新たな統合フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-28T13:57:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。