論文の概要: Multi-Label Meta Weighting for Long-Tailed Dynamic Scene Graph
Generation
- arxiv url: http://arxiv.org/abs/2306.10122v1
- Date: Fri, 16 Jun 2023 18:14:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 00:15:07.246953
- Title: Multi-Label Meta Weighting for Long-Tailed Dynamic Scene Graph
Generation
- Title(参考訳): ロングテール動的シーングラフ生成のためのマルチラベルメタ重み付け
- Authors: Shuo Chen, Yingjun Du, Pascal Mettes, Cees G.M. Snoek
- Abstract要約: 対象と対象のペア間の述語認識は、本質的に不均衡であり、複数ラベルである。
最近の最先端の手法は、主に最も頻繁に発生する述語クラスに焦点を当てている。
偏りのある述語分布を扱うために,多言語メタラーニングフレームワークを導入する。
- 参考スコア(独自算出の注目度): 55.429541407920304
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates the problem of scene graph generation in videos with
the aim of capturing semantic relations between subjects and objects in the
form of $\langle$subject, predicate, object$\rangle$ triplets. Recognizing the
predicate between subject and object pairs is imbalanced and multi-label in
nature, ranging from ubiquitous interactions such as spatial relationships (\eg
\emph{in front of}) to rare interactions such as \emph{twisting}. In
widely-used benchmarks such as Action Genome and VidOR, the imbalance ratio
between the most and least frequent predicates reaches 3,218 and 3,408,
respectively, surpassing even benchmarks specifically designed for long-tailed
recognition. Due to the long-tailed distributions and label co-occurrences,
recent state-of-the-art methods predominantly focus on the most frequently
occurring predicate classes, ignoring those in the long tail. In this paper, we
analyze the limitations of current approaches for scene graph generation in
videos and identify a one-to-one correspondence between predicate frequency and
recall performance. To make the step towards unbiased scene graph generation in
videos, we introduce a multi-label meta-learning framework to deal with the
biased predicate distribution. Our meta-learning framework learns a meta-weight
network for each training sample over all possible label losses. We evaluate
our approach on the Action Genome and VidOR benchmarks by building upon two
current state-of-the-art methods for each benchmark. The experiments
demonstrate that the multi-label meta-weight network improves the performance
for predicates in the long tail without compromising performance for head
classes, resulting in better overall performance and favorable
generalizability. Code: \url{https://github.com/shanshuo/ML-MWN}.
- Abstract(参考訳): 本稿では,ビデオにおけるシーングラフ生成の問題点を,対象と対象のセマンティックな関係を$\langle$subject, predicate, object$\rangle$三重項で表現することを目的として検討する。
対象対と対象対の述語を認識することは自然界において不均衡であり、空間的関係 (\eg \emph{in front of}) のようなユビキタスな相互作用から \emph{twisting} のような稀な相互作用まで様々である。
Action GenomeやVidORのような広く使われているベンチマークでは、最も頻繁な述語と最も頻繁な述語の間の不均衡比はそれぞれ3,218と3,408に達し、ロングテール認識用に特別に設計されたベンチマークでさえ上回っている。
長い尾の分布とラベルの共起のため、最近の最先端の手法は主に最も頻繁に発生する述語クラスに焦点を合わせ、長い尾にあるものを無視している。
本稿では,映像中のシーングラフ生成における現在のアプローチの限界を分析し,述語頻度とリコール性能の1対1対応を同定する。
ビデオにおける偏りのないシーングラフ生成への一歩を踏み出すために,偏りのある述語分布を扱うためのマルチラベルメタラーニングフレームワークを提案する。
当社のメタ学習フレームワークは,可能なすべてのラベル損失に対して,トレーニングサンプル毎にメタ重み付きネットワークを学習します。
我々は,各ベンチマークに対して,現在の2つの手法に基づいて,Action Genome と VidOR ベンチマークに対するアプローチを評価する。
実験により,多ラベルメタウェイトネットワークは,ヘッドクラスの性能を損なうことなく,長い尾の述語の性能を向上し,全体的な性能が向上し,一般化性が良好であることが示された。
コード: \url{https://github.com/shanshuo/ML-MWN}。
関連論文リスト
- Unbiased Scene Graph Generation using Predicate Similarities [7.9112365100345965]
シーングラフは、画像に示されるオブジェクト間の関係のグラフィカル表現としてコンピュータビジョンに広く応用されている。
これらの応用は、長い尾の述語分布に起因する偏りのある訓練のため、まだ開発段階に達していない。
同様の述語群に対して,プロセスをいくつかのきめ細かい分類器に分割する新しい分類法を提案する。
Visual Genomeデータセットの広範な実験結果から,提案手法と既存のデバイアス手法を組み合わせることで,SGCls/SGDetタスクに挑戦する尾述語の性能が大幅に向上することが示された。
論文 参考訳(メタデータ) (2022-10-03T13:28:01Z) - FAITH: Few-Shot Graph Classification with Hierarchical Task Graphs [39.576675425158754]
少数ショットグラフ分類はグラフのクラスを予測することを目的としており、各クラスに限定されたラベル付きグラフが与えられる。
本稿では,階層的なタスクグラフを構築することにより,タスク相関をキャプチャする新しい数ショット学習フレームワークFAITHを提案する。
4つの一般的な数ショットグラフ分類データセットの実験は、他の最先端のベースラインよりもFAITHの方が優れていることを示した。
論文 参考訳(メタデータ) (2022-05-05T04:28:32Z) - Cross-Domain Few-Shot Graph Classification [7.23389716633927]
本稿では,非等価な特徴空間を持つ領域間の数ショットグラフ分類の問題について検討する。
本稿では,3つの連続したグラフビュー,1つのコンテキストと2つのトポロジ的ビューを利用するアテンションベースグラフエンコーダを提案する。
提案するエンコーダは,メトリックベースのメタラーニングフレームワークと組み合わせることで,平均メタテストの分類精度が向上することを示す。
論文 参考訳(メタデータ) (2022-01-20T16:16:30Z) - A Graph-Based Neural Model for End-to-End Frame Semantic Parsing [12.43480002133656]
本稿では,フレーム意味解析タスクを協調的に行うために,エンドツーエンドのニューラルモデルを提案する。
本稿では,グラフ構築問題として,フレームセマンティック解析に関するグラフベースの手法を利用する。
フレーム・セマンティック・パーシングのベンチマーク・データセットの実験結果から,本手法の競争力が高いことが示された。
論文 参考訳(メタデータ) (2021-09-25T08:54:33Z) - Semantic Compositional Learning for Low-shot Scene Graph Generation [122.51930904132685]
多くのシーングラフ生成(SGG)モデルは、トレーニングに限定された注釈付き関係トリプルのみを使用する。
本稿では,新たな意味論的構成学習戦略を提案する。
最近の3つのSGGモデルでは、我々の戦略を追加することで、その性能が50%近く向上する。
論文 参考訳(メタデータ) (2021-08-19T10:13:55Z) - Dual ResGCN for Balanced Scene GraphGeneration [106.7828712878278]
本稿では,オブジェクト残差グラフ畳み込みネットワークと関係残差グラフ畳み込みネットワークからなる新しいモデルであるtextitdual ResGCNを提案する。
2つのネットワークは相互に補完的であり、前者はオブジェクトレベルのコンテキスト情報、すなわちオブジェクト間の接続をキャプチャする。
後者は、関係レベルのコンテキスト情報、すなわち関係間の関係を明示的にキャプチャするように設計されている。
論文 参考訳(メタデータ) (2020-11-09T07:44:17Z) - Addressing Class Imbalance in Scene Graph Parsing by Learning to
Contrast and Score [65.18522219013786]
シーングラフ解析は、画像シーン内のオブジェクトを検出し、それらの関係を認識することを目的としている。
最近の手法は、いくつかの人気のあるベンチマークで高い平均スコアを達成しているが、稀な関係を検出するには失敗している。
本稿では,クラス不均衡問題を解決するために,分類とランキングの新たな統合フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-28T13:57:59Z) - Exploring the Hierarchy in Relation Labels for Scene Graph Generation [75.88758055269948]
提案手法は,Recall@50において,複数の最先端ベースラインを大きなマージン(最大33%の相対利得)で改善することができる。
実験により,提案手法により,最先端のベースラインを大きなマージンで改善できることが示された。
論文 参考訳(メタデータ) (2020-09-12T17:36:53Z) - Generalized Few-Shot Video Classification with Video Retrieval and
Feature Generation [132.82884193921535]
従来の手法は,映像特徴学習の重要性を過小評価し,二段階的アプローチを提案する。
この単純なベースラインアプローチは、既存のベンチマークで20ポイント以上の精度で、以前の数ショットビデオ分類方法よりも優れていることを示す。
さらなる改善をもたらす2つの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-07-09T13:05:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。