論文の概要: RelVAE: Generative Pretraining for few-shot Visual Relationship
Detection
- arxiv url: http://arxiv.org/abs/2311.16261v1
- Date: Mon, 27 Nov 2023 19:08:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 21:16:16.675220
- Title: RelVAE: Generative Pretraining for few-shot Visual Relationship
Detection
- Title(参考訳): relvae: 数発視覚関係検出のための生成前訓練
- Authors: Sotiris Karapiperis, Markos Diomataris, Vassilis Pitsikalis
- Abstract要約: 本研究は,注釈付き関係を必要としない数発述語分類のための最初の事前学習手法を提案する。
VG200とVRDのデータセットについて,数発のトレーニング分割を構築し,定量的な実験を行った。
- 参考スコア(独自算出の注目度): 2.2230760534775915
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual relations are complex, multimodal concepts that play an important role
in the way humans perceive the world. As a result of their complexity,
high-quality, diverse and large scale datasets for visual relations are still
absent. In an attempt to overcome this data barrier, we choose to focus on the
problem of few-shot Visual Relationship Detection (VRD), a setting that has
been so far neglected by the community. In this work we present the first
pretraining method for few-shot predicate classification that does not require
any annotated relations. We achieve this by introducing a generative model that
is able to capture the variation of semantic, visual and spatial information of
relations inside a latent space and later exploiting its representations in
order to achieve efficient few-shot classification. We construct few-shot
training splits and show quantitative experiments on VG200 and VRD datasets
where our model outperforms the baselines. Lastly we attempt to interpret the
decisions of the model by conducting various qualitative experiments.
- Abstract(参考訳): 視覚関係は複雑で多様で、人間が世界を知覚する上で重要な役割を担っている。
その複雑さの結果、視覚関係のための高品質で多様な大規模データセットはいまだに存在しない。
このデータバリアを克服するために、我々は、これまでコミュニティによって無視されてきた、数発の視覚的関係検出(VRD)の問題に焦点を当てる。
本研究は,注釈付き関係を必要としない数ショット述語分類のための最初の事前学習法を提案する。
本研究では,潜在空間内における関係の意味的,視覚的,空間的情報の変動を捉え,その表現を活用し,効率的な少数ショット分類を実現する生成モデルを導入する。
我々は,VG200とVRDのデータセットにおいて,モデルがベースラインより優れているような数ショットのトレーニング分割を構築し,定量的な実験を行った。
最後に、様々な定性実験を行うことでモデルの判断を解釈しようとする。
関連論文リスト
- Corpus Considerations for Annotator Modeling and Scaling [9.263562546969695]
一般的に使われているユーザトークンモデルは、より複雑なモデルよりも一貫して優れています。
以上の結果から,コーパス統計とアノテータモデリング性能の関係が明らかになった。
論文 参考訳(メタデータ) (2024-04-02T22:27:24Z) - Towards Human-Like Machine Comprehension: Few-Shot Relational Learning in Visually-Rich Documents [16.78371134590167]
Visually-Rich Documents (VRDs) ではキーバリュー関係が一般的である
これらの非テクスト的手がかりは、人間の理解とそのような関係三重項の獲得を大幅に促進する重要な指標となる。
本研究は,VRDにおけるキー-値関係三重項の抽出を目的とした,数発のリレーショナル学習に焦点を当てた。
論文 参考訳(メタデータ) (2024-03-23T08:40:35Z) - Dual-View Data Hallucination with Semantic Relation Guidance for
Few-Shot Image Recognition [52.19737194653999]
本稿では、意味的関係を利用して、画像認識のための二重視点データ幻覚を導出するフレームワークを提案する。
インスタンスビューデータ幻覚モジュールは、新規クラスの各サンプルを幻覚して新しいデータを生成する。
プロトタイプビューデータ幻覚モジュールは、意味認識尺度を利用して、新しいクラスのプロトタイプを推定する。
論文 参考訳(メタデータ) (2024-01-13T12:32:29Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - Knowledge-augmented Few-shot Visual Relation Detection [25.457693302327637]
視覚的関係検出(VRD)は、画像理解のためのオブジェクト間の関係を検出することを目的としている。
既存のVRD手法の多くは、良好なパフォーマンスを達成するために、各関係の何千ものトレーニングサンプルに依存している。
我々は、テキスト知識と視覚的関係知識の両方を活用する、知識を付加した、数発のVRDフレームワークを考案する。
論文 参考訳(メタデータ) (2023-03-09T15:38:40Z) - Revisiting Contrastive Methods for Unsupervised Learning of Visual
Representations [78.12377360145078]
対照的な自己教師型学習は、セグメンテーションやオブジェクト検出といった多くの下流タスクにおいて教師付き事前訓練よりも優れています。
本稿では,データセットのバイアスが既存手法にどのように影響するかを最初に検討する。
現在のコントラストアプローチは、(i)オブジェクト中心対シーン中心、(ii)一様対ロングテール、(iii)一般対ドメイン固有データセットなど、驚くほどうまく機能することを示す。
論文 参考訳(メタデータ) (2021-06-10T17:59:13Z) - Few-shot Visual Reasoning with Meta-analogical Contrastive Learning [141.2562447971]
本稿では,類似推論に頼って,数ショット(または低ショット)の視覚推論問題を解くことを提案する。
両領域の要素間の構造的関係を抽出し、類似学習と可能な限り類似するように強制する。
RAVENデータセット上での本手法の有効性を検証し, トレーニングデータが少ない場合, 最先端の手法より優れることを示す。
論文 参考訳(メタデータ) (2020-07-23T14:00:34Z) - Relation-Guided Representation Learning [53.60351496449232]
本稿では,サンプル関係を明示的にモデル化し,活用する表現学習手法を提案する。
私たちのフレームワークは、サンプル間の関係をよく保存します。
サンプルをサブスペースに埋め込むことにより,本手法が大規模なサンプル外問題に対処可能であることを示す。
論文 参考訳(メタデータ) (2020-07-11T10:57:45Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。