論文の概要: Triple Correlations-Guided Label Supplementation for Unbiased Video
Scene Graph Generation
- arxiv url: http://arxiv.org/abs/2307.16309v1
- Date: Sun, 30 Jul 2023 19:59:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 16:28:01.670311
- Title: Triple Correlations-Guided Label Supplementation for Unbiased Video
Scene Graph Generation
- Title(参考訳): ビデオシーングラフ生成のための3重相関誘導ラベル補間
- Authors: Wenqing Wang, Kaifeng Gao, Yawei Luo, Tao Jiang, Fei Gao, Jian Shao,
Jianwen Sun, Jun Xiao
- Abstract要約: 映像ベースのシーングラフ生成(VidSGG)は、視覚的実体とその関係を識別することによって動的グラフ内の映像コンテンツを表現することを目的とした手法である。
現在のVidSGG法は、表現の少ない述語では性能が良くない。
そこで,本論文では,真真正のアノテーションに現れるべき不備の述語を補足することで,明示的な解決法を提案する。
- 参考スコア(独自算出の注目度): 27.844658260885744
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video-based scene graph generation (VidSGG) is an approach that aims to
represent video content in a dynamic graph by identifying visual entities and
their relationships. Due to the inherently biased distribution and missing
annotations in the training data, current VidSGG methods have been found to
perform poorly on less-represented predicates. In this paper, we propose an
explicit solution to address this under-explored issue by supplementing missing
predicates that should be appear in the ground-truth annotations. Dubbed Trico,
our method seeks to supplement the missing predicates by exploring three
complementary spatio-temporal correlations. Guided by these correlations, the
missing labels can be effectively supplemented thus achieving an unbiased
predicate predictions. We validate the effectiveness of Trico on the most
widely used VidSGG datasets, i.e., VidVRD and VidOR. Extensive experiments
demonstrate the state-of-the-art performance achieved by Trico, particularly on
those tail predicates.
- Abstract(参考訳): video-based scene graph generation (vidsgg)は、ビジュアルエンティティとその関係を識別することで、動的グラフでビデオコンテンツを表現することを目的としたアプローチである。
トレーニングデータに本質的に偏りのある分布とアノテーションの欠如のため、現在のvidsggメソッドは、表現の少ない述語ではパフォーマンスが低くなることが判明した。
本稿では,この難解な問題に対して,接頭辞に現れるべき述語を補足し,明示的な解決法を提案する。
提案手法はTricoと呼ばれる3つの相補的時空間相関を探索することにより,欠落した述語を補足する。
これらの相関により、欠落ラベルを効果的に補うことができ、偏りのない述語予測が可能となる。
我々は、最も広く使われているvidsggデータセット、すなわちvidvrdとvidorにおけるtricoの有効性を検証する。
広範囲にわたる実験は、特に尾の述語においてトリコが達成した最先端のパフォーマンスを示している。
関連論文リスト
- Ensemble Predicate Decoding for Unbiased Scene Graph Generation [40.01591739856469]
シーングラフ生成(SGG)は、与えられたシナリオの意味情報をキャプチャする包括的なグラフィカル表現を生成することを目的としている。
よりきめ細かい述語を予測する際のモデルの性能は、有意な述語バイアスによって妨げられる。
本稿では,複数のデコーダを用いて非バイアスなシーングラフ生成を実現するEnsemble Predicate Decoding (EPD)を提案する。
論文 参考訳(メタデータ) (2024-08-26T11:24:13Z) - Few-shot Knowledge Graph Relational Reasoning via Subgraph Adaptation [51.47994645529258]
Few-shot Knowledge Graph (KG) Reasoningは、KGにおける稀な関係に対して、目に見えない三つ子(すなわちクエリ三つ子)を予測することを目的としている。
本稿では,種々のサブグラフに文脈化グラフの情報を効果的に適応させる手法であるSAFER(Subgraph Adaptation for Few-shot Reasoning)を提案する。
論文 参考訳(メタデータ) (2024-06-19T21:40:35Z) - Leveraging Predicate and Triplet Learning for Scene Graph Generation [31.09787444957997]
SGG(Scene Graph Generation)は、エンティティを特定し、関係トリプルを予測することを目的としている。
本稿では,大きめの述語に加えて細粒度三重項キューを利用するためのDRMネットワークを提案する。
提案手法は,Visual Genome, Open Image, GQAデータセット上での最先端性能を確立する。
論文 参考訳(メタデータ) (2024-06-04T07:23:41Z) - FloCoDe: Unbiased Dynamic Scene Graph Generation with Temporal Consistency and Correlation Debiasing [14.50214193838818]
FloCoDe: 動的シーングラフに対する不確実性減衰を伴うフロー認識時間と相関バイアス
本稿では,長い尾を持つクラスに対する非バイアス付き関係表現を学習するために,相関バイアスと相関に基づく損失を提案する。
論文 参考訳(メタデータ) (2023-10-24T14:59:51Z) - LLM4SGG: Large Language Models for Weakly Supervised Scene Graph Generation [27.97296273461145]
WSSGG(Weakly Supervised Scene Graph Generation)研究は、最近、完全に教師されたアプローチの代替として現れた。
弱教師付きSGG(LLM4SGG)のための新しいアプローチ、すなわちLarge Language Modelを提案する。
Recall@Kと平均Recall@Kは、最先端のWSSGG法と比較して大幅に改善されている。
論文 参考訳(メタデータ) (2023-10-16T13:49:46Z) - Multi-Label Meta Weighting for Long-Tailed Dynamic Scene Graph
Generation [55.429541407920304]
対象と対象のペア間の述語認識は、本質的に不均衡であり、複数ラベルである。
最近の最先端の手法は、主に最も頻繁に発生する述語クラスに焦点を当てている。
偏りのある述語分布を扱うために,多言語メタラーニングフレームワークを導入する。
論文 参考訳(メタデータ) (2023-06-16T18:14:23Z) - Taking A Closer Look at Visual Relation: Unbiased Video Scene Graph
Generation with Decoupled Label Learning [43.68357108342476]
述語をよく見て、ほとんどの視覚的関係が行動的パターン(sit)と空間的パターンの両方に関係していることを特定します。
本稿では,パターンレベルの観点からの難解な視覚関係予測に対処するために,分離ラベル学習(DLL)パラダイムを提案する。
論文 参考訳(メタデータ) (2023-03-23T12:08:10Z) - Exploiting Auxiliary Caption for Video Grounding [66.77519356911051]
ビデオグラウンディングは、あるクエリ文にマッチする興味のある瞬間を、トリミングされていないビデオから見つけることを目的としている。
以前の作業では、潜在的なイベントとデータセット内のクエリ文の間のコンテキスト情報の提供に失敗する、ビデオアノテーションの疎度ジレンマを無視していた。
具体的には、まず高密度なキャプションを生成し、次に非補助的なキャプション抑制(NACS)によって補助的なキャプションを得る。
補助キャプションにおける潜在的な情報を取得するために,補助キャプション間の意味的関係を計画するキャプションガイド注意(CGA)を提案する。
論文 参考訳(メタデータ) (2023-01-15T02:04:02Z) - Entailment Graph Learning with Textual Entailment and Soft Transitivity [69.91691115264132]
テキスト・エンタテインメント・トランジシティー(EGT2)を用いた2段階のエンタテインメント・グラフを提案する。
EGT2 は CCG パースした述語によって形成されるテンプレート文間のテキスト的含意を認識することにより、局所的含意関係を学習する。
生成した局所グラフに基づいて、EGT2は3つの新しいソフトな推移性制約を用いて、包含構造における論理的推移性を考える。
論文 参考訳(メタデータ) (2022-04-07T08:33:06Z) - Stacked Hybrid-Attention and Group Collaborative Learning for Unbiased
Scene Graph Generation [62.96628432641806]
Scene Graph Generationは、まず与えられた画像内の視覚的コンテンツをエンコードし、次にそれらをコンパクトな要約グラフに解析することを目的としている。
まず,モーダル内改良とモーダル間相互作用を容易にする新しいスタック型ハイブリッド・アテンションネットワークを提案する。
次に、デコーダを最適化するための革新的なグループ協調学習戦略を考案する。
論文 参考訳(メタデータ) (2022-03-18T09:14:13Z) - PCPL: Predicate-Correlation Perception Learning for Unbiased Scene Graph
Generation [58.98802062945709]
本稿では,適切な損失重みを適応的に求めるための新しい述語相関知覚学習手法を提案する。
我々のPCPLフレームワークは、文脈特徴をよりよく抽出するグラフエンコーダモジュールも備えています。
論文 参考訳(メタデータ) (2020-09-02T08:30:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。