論文の概要: Towards Unseen Triples: Effective Text-Image-joint Learning for Scene
Graph Generation
- arxiv url: http://arxiv.org/abs/2306.13420v1
- Date: Fri, 23 Jun 2023 10:17:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-26 13:07:21.124358
- Title: Towards Unseen Triples: Effective Text-Image-joint Learning for Scene
Graph Generation
- Title(参考訳): unseen triplesに向けて - シーングラフ生成のための効果的なテキスト-イメージ-ジョイント学習
- Authors: Qianji Di, Wenxi Ma, Zhongang Qi, Tianxiang Hou, Ying Shan, Hanzi Wang
- Abstract要約: SGG(Scene Graph Generation)は、画像内のオブジェクトとその接続を構造的かつ包括的に表現することを目的としている。
既存のSGGモデルは、バイアス付きデータセットによって引き起こされる長い尾の問題を解決するのに苦労することが多い。
テキスト画像結合Scene Graph Generation (TISGG) モデルを提案する。
- 参考スコア(独自算出の注目度): 30.79358827005448
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene Graph Generation (SGG) aims to structurally and comprehensively
represent objects and their connections in images, it can significantly benefit
scene understanding and other related downstream tasks. Existing SGG models
often struggle to solve the long-tailed problem caused by biased datasets.
However, even if these models can fit specific datasets better, it may be hard
for them to resolve the unseen triples which are not included in the training
set. Most methods tend to feed a whole triple and learn the overall features
based on statistical machine learning. Such models have difficulty predicting
unseen triples because the objects and predicates in the training set are
combined differently as novel triples in the test set. In this work, we propose
a Text-Image-joint Scene Graph Generation (TISGG) model to resolve the unseen
triples and improve the generalisation capability of the SGG models. We propose
a Joint Fearture Learning (JFL) module and a Factual Knowledge based Refinement
(FKR) module to learn object and predicate categories separately at the feature
level and align them with corresponding visual features so that the model is no
longer limited to triples matching. Besides, since we observe the long-tailed
problem also affects the generalization ability, we design a novel balanced
learning strategy, including a Charater Guided Sampling (CGS) and an
Informative Re-weighting (IR) module, to provide tailor-made learning methods
for each predicate according to their characters. Extensive experiments show
that our model achieves state-of-the-art performance. In more detail, TISGG
boosts the performances by 11.7% of zR@20(zero-shot recall) on the PredCls
sub-task on the Visual Genome dataset.
- Abstract(参考訳): scene graph generation (sgg) は、画像内のオブジェクトとその接続を構造的にかつ包括的に表現することを目的としている。
既存のSGGモデルは、バイアスデータセットによって引き起こされる長い尾の問題を解決するのに苦労することが多い。
しかし、たとえこれらのモデルが特定のデータセットに適合するとしても、トレーニングセットに含まれない未発見のトリプルを解決するのは難しいかもしれない。
ほとんどの方法はトリプルを供給し、統計的機械学習に基づいて全体的な特徴を学ぶ傾向がある。
このようなモデルは、トレーニングセットのオブジェクトと述語がテストセットの新たなトリプルと異なる組み合わせになっているため、見当たらないトリプルを予測するのが困難である。
本研究では,未認識のトリプルを解消し,sggモデルの一般化能力を向上させるためのtisggモデルを提案する。
本稿では,対象と述語カテゴリを特徴レベルで別々に学習し,それらを対応する視覚特徴と整合させることにより,モデルがもはや3重マッチングに制限されないようにする,jfl(joint fearture learning)モジュールとfkr(factual knowledge basedfine)モジュールを提案する。
また,ロングテール問題も一般化能力に影響を及ぼすため,キャラタ誘導サンプリング(cgs)と情報再重み付け(ir)モジュールを含む新しいバランスのとれた学習戦略をデザインし,各述語に対してその特徴に応じた学習方法を提供する。
大規模な実験により,我々のモデルは最先端の性能を達成できた。
TISGGは、Visual GenomeデータセットのPredClsサブタスクで、zR@20(ゼロショットリコール)の11.7%のパフォーマンスを向上する。
関連論文リスト
- Towards Lifelong Scene Graph Generation with Knowledge-ware In-context
Prompt Learning [24.98058940030532]
画像内のオブジェクトのペア間の視覚的関係を予測するためのシーングラフ生成(SGG)。
この研究は、先行関係予測のスイートに固有の落とし穴に対処しようと試みている。
事前訓練された言語モデルにおける文脈内学習の成果に触発されて、我々のアプローチは関係を予測できる能力をモデルに付与する。
論文 参考訳(メタデータ) (2024-01-26T03:43:22Z) - Local-Global Information Interaction Debiasing for Dynamic Scene Graph
Generation [51.92419880088668]
マルチタスク学習に基づく新しいDynSGGモデルDynSGG-MTLを提案する。
長期的人間の行動は、大域的な制約に適合する複数のシーングラフを生成するためにモデルを監督し、尾の述語を学べないモデルを避ける。
論文 参考訳(メタデータ) (2023-08-10T01:24:25Z) - Towards Open-vocabulary Scene Graph Generation with Prompt-based
Finetuning [84.39787427288525]
シーングラフ生成(SGG)は、画像内のオブジェクト間の視覚的関係を検出するための基本的なタスクである。
オープンボキャブラリシーングラフ生成は,モデルが一連のベースオブジェクトクラスでトレーニングされる,斬新で現実的で困難な設定である。
我々のメソッドは、既存のメソッドが処理できない、完全に見えないオブジェクトクラスに対する推論をサポートすることができる。
論文 参考訳(メタデータ) (2022-08-17T09:05:38Z) - Not All Relations are Equal: Mining Informative Labels for Scene Graph
Generation [48.21846438269506]
シーングラフ生成(SGG)は、オブジェクトのペア間の多様な相互作用をキャプチャすることを目的としている。
既存のSGG法では、トレーニングデータに様々なバイアスがあるため、視覚的およびテキスト的相関に関する複雑な推論が得られない。
本稿では,その情報性に基づいて関係ラベルを利用するSGGトレーニングのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-26T14:34:12Z) - From General to Specific: Informative Scene Graph Generation via Balance
Adjustment [113.04103371481067]
現在のモデルは、情報的なモデルではなく、例えば"on"や"at"といった一般的な述語に留まっている。
本稿では,バランス調整に基づくフレームワークであるBA-SGGを提案する。
提案手法は,視覚ゲノム上の3つのシーングラフ生成サブタスクにおいて,トランスフォーマーモデルよりも14.3%,8.0%,および6.1%高い平均リコール(mR)を実現する。
論文 参考訳(メタデータ) (2021-08-30T11:39:43Z) - Semantic Compositional Learning for Low-shot Scene Graph Generation [122.51930904132685]
多くのシーングラフ生成(SGG)モデルは、トレーニングに限定された注釈付き関係トリプルのみを使用する。
本稿では,新たな意味論的構成学習戦略を提案する。
最近の3つのSGGモデルでは、我々の戦略を追加することで、その性能が50%近く向上する。
論文 参考訳(メタデータ) (2021-08-19T10:13:55Z) - Structured Sparse R-CNN for Direct Scene Graph Generation [16.646937866282922]
本稿では,構造スパースR-CNN(Structured Sparse R-CNN)と呼ばれる,単純な,疎結合で統一された関係検出フレームワークを提案する。
提案手法の鍵となるのは,学習可能な三重項クエリと構造化三重項検出器のセットである。
我々は,ビジュアルゲノムとオープンイメージの2つのベンチマークで実験を行い,本手法が最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-06-21T02:24:20Z) - Mutual Graph Learning for Camouflaged Object Detection [31.422775969808434]
主な課題は、前景の物体と背景の環境との固有の類似性によって、深いモデルによって抽出された特徴が区別できないことである。
我々は,正規格子からグラフ領域への従来の相互学習の考え方を一般化する,新しい相互グラフ学習モデルを設計する。
すべてのタスク間インタラクションをモデリングするために共有関数を使用するほとんどの相互学習アプローチとは対照的に、mglは異なる補完関係を扱うための型付き関数を備えている。
論文 参考訳(メタデータ) (2021-04-03T10:14:39Z) - KGPT: Knowledge-Grounded Pre-Training for Data-to-Text Generation [100.79870384880333]
知識に富んだテキストを生成するための知識基盤事前学習(KGPT)を提案する。
我々は、その効果を評価するために、3つの設定、すなわち、完全教師付き、ゼロショット、少数ショットを採用します。
ゼロショット設定では、WebNLG上で30 ROUGE-L以上を達成するが、他の全てのベースラインは失敗する。
論文 参考訳(メタデータ) (2020-10-05T19:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。