論文の概要: SCoRD: Subject-Conditional Relation Detection with Text-Augmented Data
- arxiv url: http://arxiv.org/abs/2308.12910v1
- Date: Thu, 24 Aug 2023 16:35:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-25 13:17:18.514002
- Title: SCoRD: Subject-Conditional Relation Detection with Text-Augmented Data
- Title(参考訳): SCoRD:テキスト拡張データによる主観的関係検出
- Authors: Ziyan Yang, Kushal Kafle, Zhe Lin, Scott Cohen, Zhihong Ding, Vicente
Ordonez
- Abstract要約: 本研究では,入力対象に条件を付けたSCoRDを提案する。その目的は,シーン内の他のオブジェクトとのすべての関係を,その位置とともに予測することである。
Open Imagesデータセットに基づいて、トレーニングとテストの分割が分散シフトするように、OIv6-SCoRDベンチマークを挑戦的に提案する。
本研究では,関係オブジェクトペアのトレーニングにおいて,関係オブジェクトとオブジェクトボックスの予測を併用することで,関係オブジェクトとオブジェクトボックスの両方の予測を一般化することを示す。
- 参考スコア(独自算出の注目度): 38.58531826242776
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Subject-Conditional Relation Detection SCoRD, where conditioned on
an input subject, the goal is to predict all its relations to other objects in
a scene along with their locations. Based on the Open Images dataset, we
propose a challenging OIv6-SCoRD benchmark such that the training and testing
splits have a distribution shift in terms of the occurrence statistics of
$\langle$subject, relation, object$\rangle$ triplets. To solve this problem, we
propose an auto-regressive model that given a subject, it predicts its
relations, objects, and object locations by casting this output as a sequence
of tokens. First, we show that previous scene-graph prediction methods fail to
produce as exhaustive an enumeration of relation-object pairs when conditioned
on a subject on this benchmark. Particularly, we obtain a recall@3 of 83.8% for
our relation-object predictions compared to the 49.75% obtained by a recent
scene graph detector. Then, we show improved generalization on both
relation-object and object-box predictions by leveraging during training
relation-object pairs obtained automatically from textual captions and for
which no object-box annotations are available. Particularly, for
$\langle$subject, relation, object$\rangle$ triplets for which no object
locations are available during training, we are able to obtain a recall@3 of
42.59% for relation-object pairs and 32.27% for their box locations.
- Abstract(参考訳): 本研究では,入力対象に条件を付けたSCoRDを提案する。その目的は,シーン内の他のオブジェクトとのすべての関係を,その位置とともに予測することである。
Open Imagesデータセットに基づいて、トレーニングとテストの分割が、$\langle$subject, relation, object$\rangle$三重項の発生統計量で分散シフトするように、挑戦的なOIv6-SCoRDベンチマークを提案する。
そこで本研究では,対象物の関係,オブジェクト,オブジェクトの位置をトークンの列としてキャストすることで,対象物の位置を予測する自動回帰モデルを提案する。
まず,本ベンチマークでは,先行するシーングラフ予測手法では,対象物に対する関係オブジェクト対の列挙が不十分であることを示す。
特に、最近のシーングラフ検出器によって得られた49.75%と比較して、関係対象予測に対するリコール@3は83.8%である。
そして,テキストキャプションから自動的に得られる関係オブジェクトペアをトレーニング中に利用し,オブジェクトボックスアノテーションが利用できないことにより,関係オブジェクトとオブジェクトボックスの予測の一般化が向上することを示す。
特に、トレーニング中にオブジェクトの位置が得られない$\langle$subject, relation, object$\rangle$ tripletsに対して、リコール@3はリレーションオブジェクトペアで42.59%、ボックスロケーションで32.27%を得ることができます。
関連論文リスト
- A Modern Take on Visual Relationship Reasoning for Grasp Planning [10.543168383800532]
本稿では,視覚的リレーショナル推論による把握計画を提案する。
D3GDは、97の異なるカテゴリから最大35のオブジェクトを持つビンピックシーンを含む、新しいテストベッドである。
また、新しいエンドツーエンドのトランスフォーマーベースの依存性グラフ生成モデルであるD3Gを提案する。
論文 参考訳(メタデータ) (2024-09-03T16:30:48Z) - EGTR: Extracting Graph from Transformer for Scene Graph Generation [5.935927309154952]
SGG(Scene Graph Generation)は、オブジェクトを検出し、オブジェクト間の関係を予測するための課題である。
本稿では,DETRデコーダのマルチヘッド自己アテンション層で学習した様々な関係から関係グラフを抽出する軽量一段SGGモデルを提案する。
本稿では,Visual Genome と Open Image V6 データセットに対する提案手法の有効性と有効性を示す。
論文 参考訳(メタデータ) (2024-04-02T16:20:02Z) - Relation Rectification in Diffusion Model [64.84686527988809]
本稿では,最初に生成できない関係を正確に表現するためにモデルを洗練することを目的とした,リレーション・リクティフィケーション(Relation Rectification)と呼ばれる新しいタスクを紹介する。
異種グラフ畳み込みネットワーク(HGCN)を利用した革新的な解を提案する。
軽量HGCNは、テキストエンコーダによって生成されたテキスト埋め込みを調整し、埋め込み空間におけるテキスト関係の正確な反映を保証する。
論文 参考訳(メタデータ) (2024-03-29T15:54:36Z) - Relational Prior Knowledge Graphs for Detection and Instance
Segmentation [24.360473253478112]
本稿では,先行値を用いたオブジェクト機能拡張グラフを提案する。
COCOの実験的評価は、リレーショナル先行で拡張されたシーングラフの利用は、オブジェクト検出とインスタンスセグメンテーションの利点をもたらすことを示している。
論文 参考訳(メタデータ) (2023-10-11T15:15:05Z) - Exposing and Mitigating Spurious Correlations for Cross-Modal Retrieval [89.30660533051514]
クロスモーダル検索は、クエリ画像に最もよくマッチするテキストのデータベースを検索するのに好まれるツールである。
画像テキスト検索モデルは通常、頻繁なオブジェクト共起など、トレーニングデータに刺激的な相関関係を学習する。
ODmAP@kは,モデルのロバスト性を測定するオブジェクトデコリレーション・メトリックであり,トレーニングデータに刺激的な相関関係を示す。
論文 参考訳(メタデータ) (2023-04-06T21:45:46Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - Fusing Local Similarities for Retrieval-based 3D Orientation Estimation
of Unseen Objects [70.49392581592089]
我々は,モノクロ画像から未確認物体の3次元配向を推定する作業に取り組む。
我々は検索ベースの戦略に従い、ネットワークがオブジェクト固有の特徴を学習するのを防ぐ。
また,LineMOD,LineMOD-Occluded,T-LESSのデータセットを用いた実験により,本手法が従来の手法よりもはるかに優れた一般化をもたらすことが示された。
論文 参考訳(メタデータ) (2022-03-16T08:53:00Z) - Relation Regularized Scene Graph Generation [206.76762860019065]
SGG(Scene Graph Generation)は、検出されたオブジェクトの上に構築され、オブジェクトのペアの視覚的関係を予測する。
本稿では,2つのオブジェクト間の関係を予測できる関係正規化ネットワーク(R2-Net)を提案する。
我々のR2-Netはオブジェクトラベルを効果的に洗練し、シーングラフを生成する。
論文 参考訳(メタデータ) (2022-02-22T11:36:49Z) - A shallow neural model for relation prediction [2.2559617939136505]
本稿では,エンティティからの欠落関係を正確に推測する浅層神経モデル(shallom)を提案する。
本実験は、SHALLOMがFB15K-237およびWN18RRデータセットにおける最先端のアプローチを上回っていることを示しています。
論文 参考訳(メタデータ) (2021-01-22T13:10:11Z) - Explanation-based Weakly-supervised Learning of Visual Relations with
Graph Networks [7.199745314783952]
本稿では,最小画像レベルの述語ラベルに依存した視覚的関係検出手法を提案する。
グラフニューラルネットワークは、検出されたオブジェクトのグラフ表現から画像中の述語を分類するように訓練され、ペア関係の帰納バイアスを暗黙的に符号化する。
本稿では,3つの多種多様かつ難解なデータセットに対して,最新の完全および弱教師付き手法に匹敵する結果を提示する。
論文 参考訳(メタデータ) (2020-06-16T23:14:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。