論文の概要: Adaptive Self-training Framework for Fine-grained Scene Graph Generation
- arxiv url: http://arxiv.org/abs/2401.09786v5
- Date: Fri, 2 Aug 2024 01:22:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-05 18:33:20.443256
- Title: Adaptive Self-training Framework for Fine-grained Scene Graph Generation
- Title(参考訳): 微粒なシーングラフ生成のための適応的自己学習フレームワーク
- Authors: Kibum Kim, Kanghoon Yoon, Yeonjun In, Jinyoung Moon, Donghyun Kim, Chanyoung Park,
- Abstract要約: シーングラフ生成(SGG)モデルは、ベンチマークデータセットに関する固有の問題に悩まされている。
SGG (ST-SGG) のための自己学習フレームワークを導入し, 注釈のない三つ子に擬似ラベルを割り当てる。
各種SGGモデルにおけるST-SGGの有効性を検証する。
- 参考スコア(独自算出の注目度): 29.37568710952893
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene graph generation (SGG) models have suffered from inherent problems regarding the benchmark datasets such as the long-tailed predicate distribution and missing annotation problems. In this work, we aim to alleviate the long-tailed problem of SGG by utilizing unannotated triplets. To this end, we introduce a Self-Training framework for SGG (ST-SGG) that assigns pseudo-labels for unannotated triplets based on which the SGG models are trained. While there has been significant progress in self-training for image recognition, designing a self-training framework for the SGG task is more challenging due to its inherent nature such as the semantic ambiguity and the long-tailed distribution of predicate classes. Hence, we propose a novel pseudo-labeling technique for SGG, called Class-specific Adaptive Thresholding with Momentum (CATM), which is a model-agnostic framework that can be applied to any existing SGG models. Furthermore, we devise a graph structure learner (GSL) that is beneficial when adopting our proposed self-training framework to the state-of-the-art message-passing neural network (MPNN)-based SGG models. Our extensive experiments verify the effectiveness of ST-SGG on various SGG models, particularly in enhancing the performance on fine-grained predicate classes.
- Abstract(参考訳): シーングラフ生成(SGG)モデルは、長い尾の述語分布やアノテーションの欠如といったベンチマークデータセットに固有の問題に悩まされている。
本研究では, 注釈のない三つ子を用いて, SGGの長期化問題を緩和することを目的とする。
そこで本研究では,SGGモデルがトレーニングされている無注釈三重項に対して擬似ラベルを割り当てる,SGG(ST-SGG)の自己評価フレームワークを提案する。
画像認識のための自己学習には大きな進歩があったが、意味的あいまいさや述語クラスの長期分布といった固有の性質から、SGGタスクのための自己学習フレームワークを設計することはより困難である。
そこで本研究では,既存のSGGモデルに適用可能なモデルに依存しないフレームワークであるClass-specific Adaptive Thresholding with Momentum (CATM)を提案する。
さらに,提案する自己学習フレームワークをMPNNベースのSGGモデルに導入する際に有用なグラフ構造学習器(GSL)を考案した。
各種SGGモデルにおけるST-SGGの有効性を検証し,特に細粒度述語クラスの性能向上について検討した。
関連論文リスト
- Improving Scene Graph Generation with Relation Words' Debiasing in Vision-Language Models [6.8754535229258975]
シーングラフ生成(SGG)は、視覚シーンの基本的な言語表現を提供する。
テストトリプレットの一部は、トレーニング中に珍しいか、あるいは目に見えず、結果として予測される。
本稿では,事前学習された視覚言語モデル(VLM)を用いたSGGモデルを用いて表現を強化することを提案する。
論文 参考訳(メタデータ) (2024-03-24T15:02:24Z) - Towards Lifelong Scene Graph Generation with Knowledge-ware In-context
Prompt Learning [24.98058940030532]
画像内のオブジェクトのペア間の視覚的関係を予測するためのシーングラフ生成(SGG)。
この研究は、先行関係予測のスイートに固有の落とし穴に対処しようと試みている。
事前訓練された言語モデルにおける文脈内学習の成果に触発されて、我々のアプローチは関係を予測できる能力をモデルに付与する。
論文 参考訳(メタデータ) (2024-01-26T03:43:22Z) - Expanding Scene Graph Boundaries: Fully Open-vocabulary Scene Graph Generation via Visual-Concept Alignment and Retention [69.36723767339001]
SGG(Scene Graph Generation)は、多くのコンピュータビジョンアプリケーションにおいて重要な構造化された表現を提供する。
我々はOvSGTRという名前の統一フレームワークを全体的視点から完全にオープンな語彙SGGに向けて提案する。
関係付きオープン語彙SGGのより困難な設定のために、提案手法は関係対応型事前学習を統合する。
論文 参考訳(メタデータ) (2023-11-18T06:49:17Z) - Towards Open-vocabulary Scene Graph Generation with Prompt-based
Finetuning [84.39787427288525]
シーングラフ生成(SGG)は、画像内のオブジェクト間の視覚的関係を検出するための基本的なタスクである。
オープンボキャブラリシーングラフ生成は,モデルが一連のベースオブジェクトクラスでトレーニングされる,斬新で現実的で困難な設定である。
我々のメソッドは、既存のメソッドが処理できない、完全に見えないオブジェクトクラスに対する推論をサポートすることができる。
論文 参考訳(メタデータ) (2022-08-17T09:05:38Z) - Adaptive Fine-Grained Predicates Learning for Scene Graph Generation [122.4588401267544]
一般的なシーングラフ生成(SGG)モデルは、頭部の述語を予測する傾向があり、再バランス戦略は尾のカテゴリを好む。
本稿では,SGGの難解な述語を識別することを目的とした適応的微粒述語学習(FGPL-A)を提案する。
提案したモデル非依存戦略は,VG-SGGおよびGQA-SGGデータセットのベンチマークモデルの性能を最大175%,Mean Recall@100では76%向上させ,新たな最先端性能を実現する。
論文 参考訳(メタデータ) (2022-07-11T03:37:57Z) - Fine-Grained Scene Graph Generation with Data Transfer [127.17675443137064]
シーングラフ生成(SGG)は、画像中の三つ子(オブジェクト、述語、オブジェクト)を抽出することを目的としている。
最近の研究は、SGGを着実に進歩させ、高レベルの視覚と言語理解に有用なツールを提供している。
そこで本研究では,プレー・アンド・プラグ方式で適用可能で,約1,807の述語クラスを持つ大規模SGGに拡張可能な,内部・外部データ転送(IETrans)手法を提案する。
論文 参考訳(メタデータ) (2022-03-22T12:26:56Z) - Stacked Hybrid-Attention and Group Collaborative Learning for Unbiased
Scene Graph Generation [62.96628432641806]
Scene Graph Generationは、まず与えられた画像内の視覚的コンテンツをエンコードし、次にそれらをコンパクトな要約グラフに解析することを目的としている。
まず,モーダル内改良とモーダル間相互作用を容易にする新しいスタック型ハイブリッド・アテンションネットワークを提案する。
次に、デコーダを最適化するための革新的なグループ協調学習戦略を考案する。
論文 参考訳(メタデータ) (2022-03-18T09:14:13Z) - Hierarchical Memory Learning for Fine-Grained Scene Graph Generation [49.39355372599507]
本稿では,HML(Hierarchical Memory Learning)フレームワークを提案する。
粗い述語と細かな述語を自律的に分割した後、モデルはまず粗い述語で訓練され、次に細かな述語を学ぶ。
論文 参考訳(メタデータ) (2022-03-14T08:01:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。