Fugu-MT 論文翻訳(概要): Predicate Debiasing in Vision-Language Models Integration for Scene Graph Generation Enhancement

論文の概要: Predicate Debiasing in Vision-Language Models Integration for Scene Graph Generation Enhancement

arxiv url: http://arxiv.org/abs/2403.16184v2
Date: Wed, 22 Jan 2025 10:30:32 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-23 18:44:13.748307
Title: Predicate Debiasing in Vision-Language Models Integration for Scene Graph Generation Enhancement
Title（参考訳）: シーングラフ生成強化のための視覚言語モデル統合における述語デバイアス
Authors: Yuxuan Wang, Xiaoyuan Liu,
Abstract要約: シーングラフ生成(SGG)は、視覚シーンの基本的な言語表現を提供する。三重項のラベルの一部は、トレーニング中に珍しいか、あるいは目に見えず、不正確な予測をもたらす。本稿では,事前学習した視覚言語モデルを統合し,表現性を高めることを提案する。
参考スコア（独自算出の注目度）: 6.8754535229258975
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Scene Graph Generation (SGG) provides basic language representation of visual scenes, requiring models to grasp complex and diverse semantics between objects. This complexity and diversity in SGG leads to underrepresentation, where parts of triplet labels are rare or even unseen during training, resulting in imprecise predictions. To tackle this, we propose integrating the pretrained Vision-language Models to enhance representation. However, due to the gap between pretraining and SGG, direct inference of pretrained VLMs on SGG leads to severe bias, which stems from the imbalanced predicates distribution in the pretraining language set. To alleviate the bias, we introduce a novel LM Estimation to approximate the unattainable predicates distribution. Finally, we ensemble the debiased VLMs with SGG models to enhance the representation, where we design a certainty-aware indicator to score each sample and dynamically adjust the ensemble weights. Our training-free method effectively addresses the predicates bias in pretrained VLMs, enhances SGG's representation, and significantly improve the performance.
Abstract（参考訳）: シーングラフ生成(SGG)は視覚シーンの基本的な言語表現を提供し、モデルがオブジェクト間の複雑で多様な意味を把握する必要がある。このSGGの複雑さと多様性は、トレーニング中に三重項ラベルの一部が稀または見つからないという過度な表現をもたらし、不正確な予測をもたらす。そこで本研究では,事前学習した視覚言語モデルを統合し,表現性を高めることを提案する。しかしながら、事前学習とSGGのギャップのため、事前学習されたVLMのSGGへの直接的推論は、事前学習言語セットにおける不均衡な述語分布に起因する深刻なバイアスを引き起こす。バイアスを軽減するために,不確定な述語分布を近似する新しいLM推定法を提案する。最後に, 縮退したVLMをSGGモデルでアンサンブルして表現を強化し, 各サンプルをスコアし, アンサンブル重みを動的に調整する確実な指標を設計する。本手法は,事前学習したVLMの述語バイアスに効果的に対処し,SGGの表現を向上し,性能を大幅に改善する。

関連論文リスト

Compile Scene Graphs with Reinforcement Learning [69.36723767339001]
次のトークン予測は,大規模言語モデル(LLM)のトレーニングの基本原則であるシーングラフデータセット上で,教師付き微調整(SFT)により学習したマルチモーダルLLM(M-LLM)であるR1-SGGを紹介する。ノードレベルの報酬、エッジレベルの報酬、フォーマットの整合性報酬を統合したグラフ中心の報酬関数を設計する。
論文参考訳（メタデータ） (2025-04-18T10:46:22Z)
PRISM-0: A Predicate-Rich Scene Graph Generation Framework for Zero-Shot Open-Vocabulary Tasks [51.31903029903904]
SGG(Scene Graphs Generation)では、オブジェクトノードの形式で視覚入力から構造化された表現を抽出し、それらを接続する。 PRISM-0はゼロショットオープン語彙SGGのためのフレームワークで、ボトムアップアプローチで基礎モデルをブートストラップする。 PRIMS-0は、イメージキャプションやSentence-to-Graph Retrievalのような下流タスクを改善する意味のあるグラフを生成する。
論文参考訳（メタデータ） (2025-04-01T14:29:51Z)
Scene Graph Generation with Role-Playing Large Language Models [50.252588437973245]
オープン語彙シーングラフ生成(OVSGG)に対する現在のアプローチは、CLIPのような視覚言語モデルを使用している。シーン固有の記述に基づくOVSGGフレームワークであるSDSGGを提案する。対象と対象の複雑な相互作用を捉えるために,相互視覚アダプタと呼ばれる軽量モジュールを提案する。
論文参考訳（メタデータ） (2024-10-20T11:40:31Z)
Ensemble Predicate Decoding for Unbiased Scene Graph Generation [40.01591739856469]
シーングラフ生成(SGG)は、与えられたシナリオの意味情報をキャプチャする包括的なグラフィカル表現を生成することを目的としている。よりきめ細かい述語を予測する際のモデルの性能は、有意な述語バイアスによって妨げられる。本稿では,複数のデコーダを用いて非バイアスなシーングラフ生成を実現するEnsemble Predicate Decoding (EPD)を提案する。
論文参考訳（メタデータ） (2024-08-26T11:24:13Z)
Semantic Diversity-aware Prototype-based Learning for Unbiased Scene Graph Generation [21.772806350802203]
シーングラフ生成(SGG)データセットでは、各対象物対に1つの述語をアノテートする。既存のSGGモデルは、各ペアについてのみ述語を予測できるように訓練されている。この結果、SGGモデルは述語に存在するかもしれない意味的多様性を見落としてしまう。
論文参考訳（メタデータ） (2024-07-22T05:53:46Z)
Adaptive Self-training Framework for Fine-grained Scene Graph Generation [29.37568710952893]
シーングラフ生成(SGG)モデルは、ベンチマークデータセットに関する固有の問題に悩まされている。 SGG (ST-SGG) のための自己学習フレームワークを導入し, 注釈のない三つ子に擬似ラベルを割り当てる。各種SGGモデルにおけるST-SGGの有効性を検証する。
論文参考訳（メタデータ） (2024-01-18T08:10:34Z)
Informative Scene Graph Generation via Debiasing [124.71164256146342]
シーングラフ生成は、視覚的関係三重項(オブジェクト、述語、オブジェクト)を検出することを目的としているデータのバイアスのため、現在のモデルは一般的な述語を予測する傾向がある。本稿では,DB-SGGを提案する。
論文参考訳（メタデータ） (2023-08-10T02:04:01Z)
Panoptic Scene Graph Generation with Semantics-Prototype Learning [23.759498629378772]
Panoptic Scene Graph Generation (PSG)は、オブジェクトを解析し、それらの関係(述語)を予測し、人間の言語と視覚シーンを結びつける。アノテーションの言語選好と述語間の意味的な重複は、偏りのある述語アノテーションにつながる。そこで我々はADTransという新しいフレームワークを提案し、バイアス付き述語アノテーションを情報化と統一化に適応的に転送する。
論文参考訳（メタデータ） (2023-07-28T14:04:06Z)
Decomposed Prototype Learning for Few-Shot Scene Graph Generation [28.796734816086065]
我々は、シーングラフ生成の新しい有望なタスク(SGG: few-shot SGG (FSSGG))に焦点を当てる。 FSSGGは、モデルが以前の知識を素早く伝達し、いくつかの例で新しい述語を認識することを奨励している。本稿では,新しいDPL(Decomposed Prototype Learning)を提案する。
論文参考訳（メタデータ） (2023-03-20T04:54:26Z)
LANDMARK: Language-guided Representation Enhancement Framework for Scene Graph Generation [34.40862385518366]
シーングラフ生成(SGG)は複雑な視覚的特徴とデータセットの長い問題の両方に悩まされる高度なタスクである。言語ビジョンの対話パターンから述語関連表現を学習するLANDMARK(LANguage-guided representationenhanceMent frAmewoRK)を提案する。このフレームワークはモデルに依存しず、既存のSGGモデルの性能を一貫して改善する。
論文参考訳（メタデータ） (2023-03-02T09:03:11Z)
Towards Open-vocabulary Scene Graph Generation with Prompt-based Finetuning [84.39787427288525]
シーングラフ生成(SGG)は、画像内のオブジェクト間の視覚的関係を検出するための基本的なタスクである。オープンボキャブラリシーングラフ生成は,モデルが一連のベースオブジェクトクラスでトレーニングされる,斬新で現実的で困難な設定である。我々のメソッドは、既存のメソッドが処理できない、完全に見えないオブジェクトクラスに対する推論をサポートすることができる。
論文参考訳（メタデータ） (2022-08-17T09:05:38Z)
CAME: Context-aware Mixture-of-Experts for Unbiased Scene Graph Generation [10.724516317292926]
本稿では,CAME(Context-Aware Mixture-of-Experts)と呼ばれるシンプルな手法を提案する。我々は、Visual Genomeデータセットの3つのタスクについて広範囲に実験を行い、従来の手法よりも優れた性能を示した。
論文参考訳（メタデータ） (2022-08-15T10:39:55Z)
NICEST: Noisy Label Correction and Training for Robust Scene Graph Generation [65.78472854070316]
我々は,SGG:NICESTのための新しいNoIsyラベルCorrEction and Sample Training戦略を提案する。 NICEはまずノイズのあるサンプルを検出し、さらに高品質な述語ラベルを割り当てる。 NICESTは任意のSGGアーキテクチャにシームレスに組み込んで、さまざまな述語カテゴリのパフォーマンスを向上させることができる。
論文参考訳（メタデータ） (2022-07-27T06:25:47Z)
Adaptive Fine-Grained Predicates Learning for Scene Graph Generation [122.4588401267544]
一般的なシーングラフ生成(SGG)モデルは、頭部の述語を予測する傾向があり、再バランス戦略は尾のカテゴリを好む。本稿では,SGGの難解な述語を識別することを目的とした適応的微粒述語学習(FGPL-A)を提案する。提案したモデル非依存戦略は,VG-SGGおよびGQA-SGGデータセットのベンチマークモデルの性能を最大175%,Mean Recall@100では76%向上させ,新たな最先端性能を実現する。
論文参考訳（メタデータ） (2022-07-11T03:37:57Z)
Stacked Hybrid-Attention and Group Collaborative Learning for Unbiased Scene Graph Generation [62.96628432641806]
Scene Graph Generationは、まず与えられた画像内の視覚的コンテンツをエンコードし、次にそれらをコンパクトな要約グラフに解析することを目的としている。まず,モーダル内改良とモーダル間相互作用を容易にする新しいスタック型ハイブリッド・アテンションネットワークを提案する。次に、デコーダを最適化するための革新的なグループ協調学習戦略を考案する。
論文参考訳（メタデータ） (2022-03-18T09:14:13Z)
Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文参考訳（メタデータ） (2021-09-24T07:20:13Z)
From General to Specific: Informative Scene Graph Generation via Balance Adjustment [113.04103371481067]
現在のモデルは、情報的なモデルではなく、例えば"on"や"at"といった一般的な述語に留まっている。本稿では,バランス調整に基づくフレームワークであるBA-SGGを提案する。提案手法は,視覚ゲノム上の3つのシーングラフ生成サブタスクにおいて,トランスフォーマーモデルよりも14.3%,8.0%,および6.1%高い平均リコール(mR)を実現する。
論文参考訳（メタデータ） (2021-08-30T11:39:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。