Fugu-MT 論文翻訳(概要): Towards Unseen Triples: Effective Text-Image-joint Learning for Scene Graph Generation

論文の概要: Towards Unseen Triples: Effective Text-Image-joint Learning for Scene Graph Generation

arxiv url: http://arxiv.org/abs/2306.13420v1
Date: Fri, 23 Jun 2023 10:17:56 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-26 13:07:21.124358
Title: Towards Unseen Triples: Effective Text-Image-joint Learning for Scene Graph Generation
Title（参考訳）: unseen triplesに向けて - シーングラフ生成のための効果的なテキスト-イメージ-ジョイント学習
Authors: Qianji Di, Wenxi Ma, Zhongang Qi, Tianxiang Hou, Ying Shan, Hanzi Wang
Abstract要約: SGG(Scene Graph Generation)は、画像内のオブジェクトとその接続を構造的かつ包括的に表現することを目的としている。既存のSGGモデルは、バイアス付きデータセットによって引き起こされる長い尾の問題を解決するのに苦労することが多い。テキスト画像結合Scene Graph Generation (TISGG) モデルを提案する。
参考スコア（独自算出の注目度）: 30.79358827005448
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Scene Graph Generation (SGG) aims to structurally and comprehensively represent objects and their connections in images, it can significantly benefit scene understanding and other related downstream tasks. Existing SGG models often struggle to solve the long-tailed problem caused by biased datasets. However, even if these models can fit specific datasets better, it may be hard for them to resolve the unseen triples which are not included in the training set. Most methods tend to feed a whole triple and learn the overall features based on statistical machine learning. Such models have difficulty predicting unseen triples because the objects and predicates in the training set are combined differently as novel triples in the test set. In this work, we propose a Text-Image-joint Scene Graph Generation (TISGG) model to resolve the unseen triples and improve the generalisation capability of the SGG models. We propose a Joint Fearture Learning (JFL) module and a Factual Knowledge based Refinement (FKR) module to learn object and predicate categories separately at the feature level and align them with corresponding visual features so that the model is no longer limited to triples matching. Besides, since we observe the long-tailed problem also affects the generalization ability, we design a novel balanced learning strategy, including a Charater Guided Sampling (CGS) and an Informative Re-weighting (IR) module, to provide tailor-made learning methods for each predicate according to their characters. Extensive experiments show that our model achieves state-of-the-art performance. In more detail, TISGG boosts the performances by 11.7% of zR@20(zero-shot recall) on the PredCls sub-task on the Visual Genome dataset.
Abstract（参考訳）: scene graph generation (sgg) は、画像内のオブジェクトとその接続を構造的にかつ包括的に表現することを目的としている。既存のSGGモデルは、バイアスデータセットによって引き起こされる長い尾の問題を解決するのに苦労することが多い。しかし、たとえこれらのモデルが特定のデータセットに適合するとしても、トレーニングセットに含まれない未発見のトリプルを解決するのは難しいかもしれない。ほとんどの方法はトリプルを供給し、統計的機械学習に基づいて全体的な特徴を学ぶ傾向がある。このようなモデルは、トレーニングセットのオブジェクトと述語がテストセットの新たなトリプルと異なる組み合わせになっているため、見当たらないトリプルを予測するのが困難である。本研究では,未認識のトリプルを解消し,sggモデルの一般化能力を向上させるためのtisggモデルを提案する。本稿では,対象と述語カテゴリを特徴レベルで別々に学習し,それらを対応する視覚特徴と整合させることにより,モデルがもはや3重マッチングに制限されないようにする,jfl(joint fearture learning)モジュールとfkr(factual knowledge basedfine)モジュールを提案する。また,ロングテール問題も一般化能力に影響を及ぼすため,キャラタ誘導サンプリング(cgs)と情報再重み付け(ir)モジュールを含む新しいバランスのとれた学習戦略をデザインし,各述語に対してその特徴に応じた学習方法を提供する。大規模な実験により,我々のモデルは最先端の性能を達成できた。 TISGGは、Visual GenomeデータセットのPredClsサブタスクで、zR@20(ゼロショットリコール)の11.7%のパフォーマンスを向上する。

関連論文リスト

Compile Scene Graphs with Reinforcement Learning [69.36723767339001]
次世代予測は大規模言語モデル(LLM)の訓練の基本原理である本稿では,マルチモーダルLLM(M-LLM)であるR1-SGGを紹介する。私たちは、Hard Recall、Hard Recall+Relax、Soft Recallの3つのリコールベースのバリエーションを含む、グラフ中心の報酬セットを設計します。
論文参考訳（メタデータ） (2025-04-18T10:46:22Z)
Towards Graph Foundation Models: Learning Generalities Across Graphs via Task-Trees [50.78679002846741]
グラフにおけるクロスタスクの一般性を学習するための新しいアプローチを提案する。グラフ上のタスク空間を整列させるための基本的な学習インスタンスとしてタスクツリーを提案する。その結果,グラフニューラルネットワークが多種多様なタスクツリーで事前訓練された場合,伝達可能な知識を取得することが示唆された。
論文参考訳（メタデータ） (2024-12-21T02:07:43Z)
A Lesson in Splats: Teacher-Guided Diffusion for 3D Gaussian Splats Generation with 2D Supervision [65.33043028101471]
本研究では,ガウスプレートの拡散モデルであるSplatDiffusionを導入し,単一画像から3次元構造を生成する。既存の方法は決定論的フィードフォワード予測に依存しており、2Dデータからの3D推論の本質的な曖昧さを扱う能力を制限する。
論文参考訳（メタデータ） (2024-12-01T00:29:57Z)
Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文参考訳（メタデータ） (2024-06-17T07:43:53Z)
Leveraging Predicate and Triplet Learning for Scene Graph Generation [31.09787444957997]
SGG(Scene Graph Generation)は、エンティティを特定し、関係トリプルを予測することを目的としている。本稿では,大きめの述語に加えて細粒度三重項キューを利用するためのDRMネットワークを提案する。提案手法は,Visual Genome, Open Image, GQAデータセット上での最先端性能を確立する。
論文参考訳（メタデータ） (2024-06-04T07:23:41Z)
Scene Graph Generation Strategy with Co-occurrence Knowledge and Learnable Term Frequency [3.351553095054309]
シーングラフ生成(SGG)は、画像内のオブジェクト間の関係をグラフ構造として表現する。これまでの研究は、SGG生成時の物体の共起を反映しなかった。本稿では、オブジェクト間の共起知識と学習可能な用語の周波数逆文書頻度を反映したCooKを提案する。
論文参考訳（メタデータ） (2024-05-21T09:56:48Z)
S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠であるこれまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文参考訳（メタデータ） (2024-02-22T11:40:49Z)
Local-Global Information Interaction Debiasing for Dynamic Scene Graph Generation [51.92419880088668]
マルチタスク学習に基づく新しいDynSGGモデルDynSGG-MTLを提案する。長期的人間の行動は、大域的な制約に適合する複数のシーングラフを生成するためにモデルを監督し、尾の述語を学べないモデルを避ける。
論文参考訳（メタデータ） (2023-08-10T01:24:25Z)
Not All Relations are Equal: Mining Informative Labels for Scene Graph Generation [48.21846438269506]
シーングラフ生成(SGG)は、オブジェクトのペア間の多様な相互作用をキャプチャすることを目的としている。既存のSGG法では、トレーニングデータに様々なバイアスがあるため、視覚的およびテキスト的相関に関する複雑な推論が得られない。本稿では,その情報性に基づいて関係ラベルを利用するSGGトレーニングのための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2021-11-26T14:34:12Z)
From General to Specific: Informative Scene Graph Generation via Balance Adjustment [113.04103371481067]
現在のモデルは、情報的なモデルではなく、例えば"on"や"at"といった一般的な述語に留まっている。本稿では,バランス調整に基づくフレームワークであるBA-SGGを提案する。提案手法は,視覚ゲノム上の3つのシーングラフ生成サブタスクにおいて,トランスフォーマーモデルよりも14.3%,8.0%,および6.1%高い平均リコール(mR)を実現する。
論文参考訳（メタデータ） (2021-08-30T11:39:43Z)
Semantic Compositional Learning for Low-shot Scene Graph Generation [122.51930904132685]
多くのシーングラフ生成(SGG)モデルは、トレーニングに限定された注釈付き関係トリプルのみを使用する。本稿では,新たな意味論的構成学習戦略を提案する。最近の3つのSGGモデルでは、我々の戦略を追加することで、その性能が50%近く向上する。
論文参考訳（メタデータ） (2021-08-19T10:13:55Z)
KGPT: Knowledge-Grounded Pre-Training for Data-to-Text Generation [100.79870384880333]
知識に富んだテキストを生成するための知識基盤事前学習(KGPT)を提案する。我々は、その効果を評価するために、3つの設定、すなわち、完全教師付き、ゼロショット、少数ショットを採用します。ゼロショット設定では、WebNLG上で30 ROUGE-L以上を達成するが、他の全てのベースラインは失敗する。
論文参考訳（メタデータ） (2020-10-05T19:59:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。