論文の概要: Zero-Shot Scene Graph Generation via Triplet Calibration and Reduction
- arxiv url: http://arxiv.org/abs/2309.03542v1
- Date: Thu, 7 Sep 2023 08:01:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-08 13:58:10.855532
- Title: Zero-Shot Scene Graph Generation via Triplet Calibration and Reduction
- Title(参考訳): トリプルトキャリブレーションと削減によるゼロショットシーングラフ生成
- Authors: Jiankai Li, Yunhong Wang, and Weixin Li
- Abstract要約: SGG(Scene Graph Generation)は、下流の視覚言語タスクにおいて重要な役割を果たす。
既存のSGG法は、通常、目に見えない三重項の組成の一般化に苦しむ。
本稿では,トリプルト・アンド・リダクション(T-CAR)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 33.75009849672146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene Graph Generation (SGG) plays a pivotal role in downstream
vision-language tasks. Existing SGG methods typically suffer from poor
compositional generalizations on unseen triplets. They are generally trained on
incompletely annotated scene graphs that contain dominant triplets and tend to
bias toward these seen triplets during inference. To address this issue, we
propose a Triplet Calibration and Reduction (T-CAR) framework in this paper. In
our framework, a triplet calibration loss is first presented to regularize the
representations of diverse triplets and to simultaneously excavate the unseen
triplets in incompletely annotated training scene graphs. Moreover, the unseen
space of scene graphs is usually several times larger than the seen space since
it contains a huge number of unrealistic compositions. Thus, we propose an
unseen space reduction loss to shift the attention of excavation to reasonable
unseen compositions to facilitate the model training. Finally, we propose a
contextual encoder to improve the compositional generalizations of unseen
triplets by explicitly modeling the relative spatial relations between subjects
and objects. Extensive experiments show that our approach achieves consistent
improvements for zero-shot SGG over state-of-the-art methods. The code is
available at https://github.com/jkli1998/T-CAR.
- Abstract(参考訳): SGG(Scene Graph Generation)は、下流の視覚言語タスクにおいて重要な役割を果たす。
既存のSGG法は、通常、目に見えない三重項の組成の一般化に苦しむ。
これらは一般的に、支配的三重項を含む不完全な注釈付きシーングラフに訓練され、推論中にこれらの三重項に偏りがちである。
本稿では,この問題に対処するために,三重項キャリブレーション・リダクション(t-car)フレームワークを提案する。
本フレームワークでは,まず,多彩な三重項の表現を規則化し,不完全な注釈付き訓練シーングラフで同時に三重項を抽出するために三重項校正損失を提示する。
さらに、シーングラフの見えない空間は、多くの非現実的な構成を含むため、通常、その空間の何倍も大きい。
そこで本研究では, モデルトレーニングを容易にするために, 掘削の注意を合理的な未知の組成にシフトさせるため, 未確認空間縮小損失を提案する。
最後に,対象物と対象物の相対空間関係を明示的にモデル化することにより,目に見えない三重項の構成一般化を改善するための文脈エンコーダを提案する。
実験により, ゼロショットSGGの最先端手法に対する一貫した改善が得られた。
コードはhttps://github.com/jkli1998/T-CARで公開されている。
関連論文リスト
- GPT4SGG: Synthesizing Scene Graphs from Holistic and Region-specific Narratives [69.36723767339001]
我々は,より正確で包括的なシーングラフ信号を得るために,textitGPT4SGという新しいフレームワークを提案する。
textitGPT4SGGは、画像キャプチャーデータに基づいて訓練されたSGGモデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-12-07T14:11:00Z) - Towards Unseen Triples: Effective Text-Image-joint Learning for Scene
Graph Generation [30.79358827005448]
SGG(Scene Graph Generation)は、画像内のオブジェクトとその接続を構造的かつ包括的に表現することを目的としている。
既存のSGGモデルは、バイアス付きデータセットによって引き起こされる長い尾の問題を解決するのに苦労することが多い。
テキスト画像結合Scene Graph Generation (TISGG) モデルを提案する。
論文 参考訳(メタデータ) (2023-06-23T10:17:56Z) - Exploiting Unlabelled Photos for Stronger Fine-Grained SBIR [103.51937218213774]
本稿では,先行技術の11%をオーバーシュートする強力なベースラインを提示することにより,微細なスケッチベース画像検索(FG-SBIR)の文献化を推し進める。
本稿では,写真/スケッチインスタンス間の分離を明示的に実施する標準的な三重項損失の簡単な修正を提案する。
i) スケッチ間でのモダル内トリプルトロスを利用して、同じインスタンスのスケッチを他のインスタンスに近づけます。
論文 参考訳(メタデータ) (2023-03-24T03:34:33Z) - Not All Relations are Equal: Mining Informative Labels for Scene Graph
Generation [48.21846438269506]
シーングラフ生成(SGG)は、オブジェクトのペア間の多様な相互作用をキャプチャすることを目的としている。
既存のSGG法では、トレーニングデータに様々なバイアスがあるため、視覚的およびテキスト的相関に関する複雑な推論が得られない。
本稿では,その情報性に基づいて関係ラベルを利用するSGGトレーニングのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-26T14:34:12Z) - From General to Specific: Informative Scene Graph Generation via Balance
Adjustment [113.04103371481067]
現在のモデルは、情報的なモデルではなく、例えば"on"や"at"といった一般的な述語に留まっている。
本稿では,バランス調整に基づくフレームワークであるBA-SGGを提案する。
提案手法は,視覚ゲノム上の3つのシーングラフ生成サブタスクにおいて,トランスフォーマーモデルよりも14.3%,8.0%,および6.1%高い平均リコール(mR)を実現する。
論文 参考訳(メタデータ) (2021-08-30T11:39:43Z) - Semantic Compositional Learning for Low-shot Scene Graph Generation [122.51930904132685]
多くのシーングラフ生成(SGG)モデルは、トレーニングに限定された注釈付き関係トリプルのみを使用する。
本稿では,新たな意味論的構成学習戦略を提案する。
最近の3つのSGGモデルでは、我々の戦略を追加することで、その性能が50%近く向上する。
論文 参考訳(メタデータ) (2021-08-19T10:13:55Z) - Warp Consistency for Unsupervised Learning of Dense Correspondences [116.56251250853488]
密接な対応を学習する上で重要な課題は、実画像対に対する地道整合の欠如である。
密な対応回帰のための教師なし学習目標であるWarp Consistencyを提案する。
私たちのアプローチは、MegaDepth、RobotCar、TSSなど、いくつかの挑戦的なベンチマークに新しい最先端を設定します。
論文 参考訳(メタデータ) (2021-04-07T17:58:22Z) - Generative Compositional Augmentations for Scene Graph Prediction [27.535630110794855]
シーングラフの形で画像からオブジェクトとその関係を推定することは、視覚と言語を交わす多くのアプリケーションで有用である。
本稿では,この課題において,長い尾データ分布から生じる合成一般化の課題について考察する。
本研究では,条件付き生成逆数ネットワーク(GAN)に基づくモデルの提案と実証研究を行い,乱れたシーングラフの視覚的特徴を生成する。
論文 参考訳(メタデータ) (2020-07-11T12:11:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。