論文の概要: Knowledge-augmented Few-shot Visual Relation Detection
- arxiv url: http://arxiv.org/abs/2303.05342v1
- Date: Thu, 9 Mar 2023 15:38:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-10 14:24:50.586137
- Title: Knowledge-augmented Few-shot Visual Relation Detection
- Title(参考訳): 知識強化Few-shot視覚関係検出
- Authors: Tianyu Yu, Yangning Li, Jiaoyan Chen, Yinghui Li, Hai-Tao Zheng, Xi
Chen, Qingbin Liu, Wenqiang Liu, Dongxiao Huang, Bei Wu, Yexin Wang
- Abstract要約: 視覚的関係検出(VRD)は、画像理解のためのオブジェクト間の関係を検出することを目的としている。
既存のVRD手法の多くは、良好なパフォーマンスを達成するために、各関係の何千ものトレーニングサンプルに依存している。
我々は、テキスト知識と視覚的関係知識の両方を活用する、知識を付加した、数発のVRDフレームワークを考案する。
- 参考スコア(独自算出の注目度): 25.457693302327637
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Relation Detection (VRD) aims to detect relationships between objects
for image understanding. Most existing VRD methods rely on thousands of
training samples of each relationship to achieve satisfactory performance. Some
recent papers tackle this problem by few-shot learning with elaborately
designed pipelines and pre-trained word vectors. However, the performance of
existing few-shot VRD models is severely hampered by the poor generalization
capability, as they struggle to handle the vast semantic diversity of visual
relationships. Nonetheless, humans have the ability to learn new relationships
with just few examples based on their knowledge. Inspired by this, we devise a
knowledge-augmented, few-shot VRD framework leveraging both textual knowledge
and visual relation knowledge to improve the generalization ability of few-shot
VRD. The textual knowledge and visual relation knowledge are acquired from a
pre-trained language model and an automatically constructed visual relation
knowledge graph, respectively. We extensively validate the effectiveness of our
framework. Experiments conducted on three benchmarks from the commonly used
Visual Genome dataset show that our performance surpasses existing
state-of-the-art models with a large improvement.
- Abstract(参考訳): 視覚的関係検出(VRD)は、画像理解のためのオブジェクト間の関係を検出することを目的としている。
既存のVRD手法の多くは、良好なパフォーマンスを達成するために、各関係の何千ものトレーニングサンプルに依存している。
最近の論文では、精巧に設計されたパイプラインと事前学習された単語ベクトルを用いて、わずかなショット学習によってこの問題に対処している。
しかし、既存の数発のVRDモデルの性能は、視覚関係の膨大な意味的多様性を扱うのに苦労するため、一般化能力の貧弱さによって著しく妨げられている。
それでも、人間は知識に基づいてほんのわずかな例で新しい関係を学ぶことができる。
そこで我々は,テキスト知識と視覚関係知識を併用した知識提示・少数ショットvrdフレームワークを考案し,少数ショットvrdの一般化能力を向上させる。
予め訓練された言語モデルと自動構築された視覚関係知識グラフからテキスト知識と視覚関係知識を取得する。
我々はフレームワークの有効性を広範囲に検証した。
一般的に使用されているvisual genomeデータセットの3つのベンチマークで行った実験は、我々のパフォーマンスが既存の最先端モデルよりも大幅に改善されていることを示している。
関連論文リスト
- RelVAE: Generative Pretraining for few-shot Visual Relationship
Detection [2.2230760534775915]
本研究は,注釈付き関係を必要としない数発述語分類のための最初の事前学習手法を提案する。
VG200とVRDのデータセットについて,数発のトレーニング分割を構築し,定量的な実験を行った。
論文 参考訳(メタデータ) (2023-11-27T19:08:08Z) - Visual Commonsense based Heterogeneous Graph Contrastive Learning [79.22206720896664]
視覚的推論タスクをより良く仕上げるための異種グラフコントラスト学習法を提案する。
本手法はプラグイン・アンド・プレイ方式として設計されており,多種多様な代表手法と迅速かつ容易に組み合わせることができる。
論文 参考訳(メタデータ) (2023-11-11T12:01:18Z) - Sample-Efficient Learning of Novel Visual Concepts [7.398195748292981]
最先端のディープラーニングモデルは、数ショットで新しいオブジェクトを認識するのに苦労している。
我々は,記号的知識グラフを最先端認識モデルに組み込むことで,効果的に数発の分類を行うことができることを示す。
論文 参考訳(メタデータ) (2023-06-15T20:24:30Z) - Recognizing Unseen Objects via Multimodal Intensive Knowledge Graph
Propagation [68.13453771001522]
画像の領域と対応するセマンティック埋め込みとをマッチングする多モード集中型ZSLフレームワークを提案する。
我々は、大規模な実世界のデータに基づいて、広範囲な実験を行い、そのモデルを評価する。
論文 参考訳(メタデータ) (2023-06-14T13:07:48Z) - Zero-shot Visual Relation Detection via Composite Visual Cues from Large
Language Models [44.60439935450292]
本稿では,ゼロショット視覚認識のための新しい手法であるRECODEを提案する。
各述語カテゴリを主題、対象、空間構成要素に分解する。
異なる視覚的手がかりは、異なる視点から類似した関係カテゴリの識別可能性を高める。
論文 参考訳(メタデータ) (2023-05-21T14:40:48Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - One-shot Scene Graph Generation [130.57405850346836]
ワンショットシーングラフ生成タスクに対して,複数の構造化知識(関係知識知識)を提案する。
提案手法は既存の最先端手法よりも大きなマージンで優れる。
論文 参考訳(メタデータ) (2022-02-22T11:32:59Z) - Reasoning over Vision and Language: Exploring the Benefits of
Supplemental Knowledge [59.87823082513752]
本稿では,汎用知識基盤(KB)から視覚言語変換器への知識の注入について検討する。
我々は複数のタスクやベンチマークに対する様々なkbの関連性を実証的に研究する。
この技術はモデルに依存しず、最小限の計算オーバーヘッドで任意の視覚言語変換器の適用可能性を拡張することができる。
論文 参考訳(メタデータ) (2021-01-15T08:37:55Z) - Visual Relationship Detection with Visual-Linguistic Knowledge from
Multimodal Representations [103.00383924074585]
視覚的関係検出は、画像内の有能なオブジェクト間の関係を推論することを目的としている。
変換器からの視覚言語表現(RVL-BERT)という新しい手法を提案する。
RVL-BERTは、自己教師付き事前学習を通じて学習した視覚的・言語的常識知識を用いて空間推論を行う。
論文 参考訳(メタデータ) (2020-09-10T16:15:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。