論文の概要: Classification-Then-Grounding: Reformulating Video Scene Graphs as
Temporal Bipartite Graphs
- arxiv url: http://arxiv.org/abs/2112.04222v1
- Date: Wed, 8 Dec 2021 10:49:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-09 21:24:29.485549
- Title: Classification-Then-Grounding: Reformulating Video Scene Graphs as
Temporal Bipartite Graphs
- Title(参考訳): ビデオシーングラフの時間的二部グラフ化
- Authors: Kaifeng Gao, Long Chen, Yulei Niu, Jian Shao, Jun Xiao
- Abstract要約: そこで我々は,VidSGGのための新しい分類モデルを提案する。
本枠組みでは,映像シーングラフを時間的二部グラフとして再構成する。
また、新しいBIpartite GraphベースのSGGモデルBIGを提案する。
- 参考スコア(独自算出の注目度): 17.487932315455694
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Today's VidSGG models are all proposal-based methods, i.e., they first
generate numerous paired subject-object snippets as proposals, and then conduct
predicate classification for each proposal. In this paper, we argue that this
prevalent proposal-based framework has three inherent drawbacks: 1) The
ground-truth predicate labels for proposals are partially correct. 2) They
break the high-order relations among different predicate instances of a same
subject-object pair. 3) VidSGG performance is upper-bounded by the quality of
the proposals. To this end, we propose a new classification-then-grounding
framework for VidSGG, which can avoid all the three overlooked drawbacks.
Meanwhile, under this framework, we reformulate the video scene graphs as
temporal bipartite graphs, where the entities and predicates are two types of
nodes with time slots, and the edges denote different semantic roles between
these nodes. This formulation takes full advantage of our new framework.
Accordingly, we further propose a novel BIpartite Graph based SGG model: BIG.
Specifically, BIG consists of two parts: a classification stage and a grounding
stage, where the former aims to classify the categories of all the nodes and
the edges, and the latter tries to localize the temporal location of each
relation instance. Extensive ablations on two VidSGG datasets have attested to
the effectiveness of our framework and BIG.
- Abstract(参考訳): 現代のVidSGGモデルは、すべて提案に基づく手法であり、まず、提案として複数の対象オブジェクトスニペットを生成し、各提案に対して述語分類を行う。
本稿では,この提案に基づくフレームワークに固有の欠点が3つあることを論じる。
1)提案の真正な述語ラベルは部分的に正しい。
2)同一の主観-対象対の異なる述語インスタンス間の高次関係を破る。
3) VidSGG の性能は提案の質に左右される。
この目的のために,我々はvidsggの3つの欠点をすべて回避できる新しい分類・接地フレームワークを提案する。
一方,この枠組みでは,映像シーングラフを時間的二部グラフとして再構成し,エンティティと述語は時間スロットを持つ2種類のノードであり,エッジはそれらのノード間で異なる意味的役割を示す。
この定式化は私たちの新しいフレームワークを最大限に活用します。
そこで我々は,新しいBIpartite GraphベースのSGGモデルBIGを提案する。
具体的には、BIGは分類段階と接地段階の2つの部分から構成され、前者はすべてのノードとエッジのカテゴリを分類することを目的としており、後者は各関係インスタンスの時間的位置をローカライズしようとする。
2つのVidSGGデータセットの大幅な改善により、我々のフレームワークとBIGの有効性が証明された。
関連論文リスト
- SGTR+: End-to-end Scene Graph Generation with Transformer [42.396971149458324]
シーングラフ生成(SGG)は、その構成特性のため、困難な視覚的理解課題である。
これまでのほとんどの作業ではボトムアップ、2段階またはポイントベースの1段階のアプローチを採用していた。
本稿では、上記の問題に対処する新しいSGG法を提案し、そのタスクを二部グラフ構築問題として定式化する。
論文 参考訳(メタデータ) (2024-01-23T15:18:20Z) - Constructing Holistic Spatio-Temporal Scene Graph for Video Semantic
Role Labeling [96.64607294592062]
Video Semantic Label Roleing (VidSRL)は、与えられたビデオから健全なイベントを検出することを目的としている。
近年、VidSRLの手法が提案されているが、2つの重要な欠点を負う可能性がある。
論文 参考訳(メタデータ) (2023-08-09T17:20:14Z) - Multi-Label Meta Weighting for Long-Tailed Dynamic Scene Graph
Generation [55.429541407920304]
対象と対象のペア間の述語認識は、本質的に不均衡であり、複数ラベルである。
最近の最先端の手法は、主に最も頻繁に発生する述語クラスに焦点を当てている。
偏りのある述語分布を扱うために,多言語メタラーニングフレームワークを導入する。
論文 参考訳(メタデータ) (2023-06-16T18:14:23Z) - Visually-Prompted Language Model for Fine-Grained Scene Graph Generation
in an Open World [67.03968403301143]
SGG(Scene Graph Generation)は、視覚理解のための画像中の主観的、述語的、対象的な関係を抽出することを目的としている。
既存の再バランス戦略は、以前のルールを通じてそれを処理しようとするが、まだ事前に定義された条件に制限されている。
そこで我々は,多種多様な粒度の述語を生成するために,視覚的にプロンプトされた言語モデルを学習するクロスモーダルプレディケイトブースティング(CaCao)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-23T13:06:38Z) - Decomposed Prototype Learning for Few-Shot Scene Graph Generation [28.796734816086065]
我々は、シーングラフ生成の新しい有望なタスク(SGG: few-shot SGG (FSSGG))に焦点を当てる。
FSSGGは、モデルが以前の知識を素早く伝達し、いくつかの例で新しい述語を認識することを奨励している。
本稿では,新しいDPL(Decomposed Prototype Learning)を提案する。
論文 参考訳(メタデータ) (2023-03-20T04:54:26Z) - Towards Open-vocabulary Scene Graph Generation with Prompt-based
Finetuning [84.39787427288525]
シーングラフ生成(SGG)は、画像内のオブジェクト間の視覚的関係を検出するための基本的なタスクである。
オープンボキャブラリシーングラフ生成は,モデルが一連のベースオブジェクトクラスでトレーニングされる,斬新で現実的で困難な設定である。
我々のメソッドは、既存のメソッドが処理できない、完全に見えないオブジェクトクラスに対する推論をサポートすることができる。
論文 参考訳(メタデータ) (2022-08-17T09:05:38Z) - Fine-Grained Predicates Learning for Scene Graph Generation [155.48614435437355]
Fine-Grained Predicates Learningは、シーングラフ生成タスクにおいて、識別困難な述語間の差別化を目的としている。
本稿では,SGGモデルによる詳細な述語ペアの探索を支援するPredicate Latticeを提案する。
次に、カテゴリ識別損失とエンティティ識別損失を提案し、どちらも粒度の細かい述語の識別に寄与する。
論文 参考訳(メタデータ) (2022-04-06T06:20:09Z) - Boundary Proposal Network for Two-Stage Natural Language Video
Localization [23.817486773852142]
境界提案ネットワーク(BPNet)は、上記の問題を除去する普遍的な2段階フレームワークである。
最初の段階では、BPNetはアンカーフリーモデルを使用して、その境界を持つ品質候補ビデオセグメントのグループを生成します。
第2段階では、候補と言語クエリの間の多言語相互作用を共同でモデル化するビジュアル言語融合層が提案される。
論文 参考訳(メタデータ) (2021-03-15T03:06:18Z) - Zero-Shot Video Object Segmentation via Attentive Graph Neural Networks [150.5425122989146]
本研究は、ゼロショットビデオオブジェクトセグメンテーション(ZVOS)のための新しい注意グラフニューラルネットワーク(AGNN)を提案する。
AGNNは、フレームをノードとして効率的に表現し、任意のフレームペア間の関係をエッジとして表現するために、完全に連結されたグラフを構築している。
3つのビデオセグメンテーションデータセットの実験結果は、AGNNがそれぞれのケースに新しい最先端を設定していることを示している。
論文 参考訳(メタデータ) (2020-01-19T10:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。