Fugu-MT 論文翻訳(概要): Improving Scene Graph Generation with Relation Words' Debiasing in Vision-Language Models

論文の概要: Improving Scene Graph Generation with Relation Words' Debiasing in Vision-Language Models

arxiv url: http://arxiv.org/abs/2403.16184v1
Date: Sun, 24 Mar 2024 15:02:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-26 17:06:13.260688
Title: Improving Scene Graph Generation with Relation Words' Debiasing in Vision-Language Models
Title（参考訳）: 視覚言語モデルにおける関係単語のデバイアスによるシーングラフ生成の改善
Authors: Yuxuan Wang, Xiaoyuan Liu,
Abstract要約: シーングラフ生成(SGG)は、視覚シーンの基本的な言語表現を提供する。テストトリプレットの一部は、トレーニング中に珍しいか、あるいは目に見えず、結果として予測される。本稿では,事前学習された視覚言語モデル(VLM)を用いたSGGモデルを用いて表現を強化することを提案する。
参考スコア（独自算出の注目度）: 6.8754535229258975
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Scene Graph Generation (SGG) provides basic language representation of visual scenes, requiring models to grasp complex and diverse semantics between various objects. However, this complexity and diversity in SGG also leads to underrepresentation, where part of test triplets are rare or even unseen during training, resulting in imprecise predictions. To tackle this, we propose using the SGG models with pretrained vision-language models (VLMs) to enhance representation. However, due to the gap between the pretraining and SGG, directly ensembling the pretrained VLMs leads to severe biases across relation words. Thus, we introduce LM Estimation to approximate the words' distribution underlies in the pretraining language sets, and then use the distribution for debiasing. After that, we ensemble VLMs with SGG models to enhance representation. Considering that each model may represent better at different samples, we use a certainty-aware indicator to score each sample and dynamically adjust the ensemble weights. Our method effectively addresses the words biases, enhances SGG's representation, and achieve markable performance enhancements. It is training-free and integrates well with existing SGG models.
Abstract（参考訳）: シーングラフ生成(SGG)は視覚シーンの基本的な言語表現を提供し、モデルが様々なオブジェクト間の複雑で多様な意味を把握する必要がある。しかし、このSGGの複雑さと多様性は、トレーニング中にテスト三重項の一部が稀または見つからないという、過度な表現につながる。そこで本研究では,事前学習された視覚言語モデル(VLM)を用いたSGGモデルを用いて表現の強化を提案する。しかしながら、事前学習とSGGのギャップのため、事前学習されたVLMを直接アンサンブルすることは、関係語間で深刻なバイアスをもたらす。そこで本研究では,事前学習言語セットにおける単語の分布アンダーリーを近似するためにLM推定を導入し,その分布をデバイアスとして利用する。その後、VLMをSGGモデルとアンサンブルして表現を強化する。それぞれのモデルが異なるサンプルでより良く表現できることを考えると,各サンプルをスコアリングし,アンサンブル重みを動的に調整するために,確実な認識指標を用いる。提案手法は,単語のバイアスを効果的に処理し,SGGの表現を向上し,マーク可能な性能向上を実現する。トレーニングフリーで、既存のSGGモデルとうまく統合されている。

関連論文リスト

Compile Scene Graphs with Reinforcement Learning [69.36723767339001]
次のトークン予測は,大規模言語モデル(LLM)のトレーニングの基本原則であるシーングラフデータセット上で,教師付き微調整(SFT)により学習したマルチモーダルLLM(M-LLM)であるR1-SGGを紹介する。ノードレベルの報酬、エッジレベルの報酬、フォーマットの整合性報酬を統合したグラフ中心の報酬関数を設計する。
論文参考訳（メタデータ） (2025-04-18T10:46:22Z)
PRISM-0: A Predicate-Rich Scene Graph Generation Framework for Zero-Shot Open-Vocabulary Tasks [51.31903029903904]
SGG(Scene Graphs Generation)では、オブジェクトノードの形式で視覚入力から構造化された表現を抽出し、それらを接続する。 PRISM-0はゼロショットオープン語彙SGGのためのフレームワークで、ボトムアップアプローチで基礎モデルをブートストラップする。 PRIMS-0は、イメージキャプションやSentence-to-Graph Retrievalのような下流タスクを改善する意味のあるグラフを生成する。
論文参考訳（メタデータ） (2025-04-01T14:29:51Z)
Scene Graph Generation with Role-Playing Large Language Models [50.252588437973245]
オープン語彙シーングラフ生成(OVSGG)に対する現在のアプローチは、CLIPのような視覚言語モデルを使用している。シーン固有の記述に基づくOVSGGフレームワークであるSDSGGを提案する。対象と対象の複雑な相互作用を捉えるために,相互視覚アダプタと呼ばれる軽量モジュールを提案する。
論文参考訳（メタデータ） (2024-10-20T11:40:31Z)
Ensemble Predicate Decoding for Unbiased Scene Graph Generation [40.01591739856469]
シーングラフ生成(SGG)は、与えられたシナリオの意味情報をキャプチャする包括的なグラフィカル表現を生成することを目的としている。よりきめ細かい述語を予測する際のモデルの性能は、有意な述語バイアスによって妨げられる。本稿では,複数のデコーダを用いて非バイアスなシーングラフ生成を実現するEnsemble Predicate Decoding (EPD)を提案する。
論文参考訳（メタデータ） (2024-08-26T11:24:13Z)
Semantic Diversity-aware Prototype-based Learning for Unbiased Scene Graph Generation [21.772806350802203]
シーングラフ生成(SGG)データセットでは、各対象物対に1つの述語をアノテートする。既存のSGGモデルは、各ペアについてのみ述語を予測できるように訓練されている。この結果、SGGモデルは述語に存在するかもしれない意味的多様性を見落としてしまう。
論文参考訳（メタデータ） (2024-07-22T05:53:46Z)
Adaptive Self-training Framework for Fine-grained Scene Graph Generation [29.37568710952893]
シーングラフ生成(SGG)モデルは、ベンチマークデータセットに関する固有の問題に悩まされている。 SGG (ST-SGG) のための自己学習フレームワークを導入し, 注釈のない三つ子に擬似ラベルを割り当てる。各種SGGモデルにおけるST-SGGの有効性を検証する。
論文参考訳（メタデータ） (2024-01-18T08:10:34Z)
Informative Scene Graph Generation via Debiasing [124.71164256146342]
シーングラフ生成は、視覚的関係三重項(オブジェクト、述語、オブジェクト)を検出することを目的としているデータのバイアスのため、現在のモデルは一般的な述語を予測する傾向がある。本稿では,DB-SGGを提案する。
論文参考訳（メタデータ） (2023-08-10T02:04:01Z)
Panoptic Scene Graph Generation with Semantics-Prototype Learning [23.759498629378772]
Panoptic Scene Graph Generation (PSG)は、オブジェクトを解析し、それらの関係(述語)を予測し、人間の言語と視覚シーンを結びつける。アノテーションの言語選好と述語間の意味的な重複は、偏りのある述語アノテーションにつながる。そこで我々はADTransという新しいフレームワークを提案し、バイアス付き述語アノテーションを情報化と統一化に適応的に転送する。
論文参考訳（メタデータ） (2023-07-28T14:04:06Z)
Decomposed Prototype Learning for Few-Shot Scene Graph Generation [28.796734816086065]
我々は、シーングラフ生成の新しい有望なタスク(SGG: few-shot SGG (FSSGG))に焦点を当てる。 FSSGGは、モデルが以前の知識を素早く伝達し、いくつかの例で新しい述語を認識することを奨励している。本稿では,新しいDPL(Decomposed Prototype Learning)を提案する。
論文参考訳（メタデータ） (2023-03-20T04:54:26Z)
LANDMARK: Language-guided Representation Enhancement Framework for Scene Graph Generation [34.40862385518366]
シーングラフ生成(SGG)は複雑な視覚的特徴とデータセットの長い問題の両方に悩まされる高度なタスクである。言語ビジョンの対話パターンから述語関連表現を学習するLANDMARK(LANguage-guided representationenhanceMent frAmewoRK)を提案する。このフレームワークはモデルに依存しず、既存のSGGモデルの性能を一貫して改善する。
論文参考訳（メタデータ） (2023-03-02T09:03:11Z)
Towards Open-vocabulary Scene Graph Generation with Prompt-based Finetuning [84.39787427288525]
シーングラフ生成(SGG)は、画像内のオブジェクト間の視覚的関係を検出するための基本的なタスクである。オープンボキャブラリシーングラフ生成は,モデルが一連のベースオブジェクトクラスでトレーニングされる,斬新で現実的で困難な設定である。我々のメソッドは、既存のメソッドが処理できない、完全に見えないオブジェクトクラスに対する推論をサポートすることができる。
論文参考訳（メタデータ） (2022-08-17T09:05:38Z)
CAME: Context-aware Mixture-of-Experts for Unbiased Scene Graph Generation [10.724516317292926]
本稿では,CAME(Context-Aware Mixture-of-Experts)と呼ばれるシンプルな手法を提案する。我々は、Visual Genomeデータセットの3つのタスクについて広範囲に実験を行い、従来の手法よりも優れた性能を示した。
論文参考訳（メタデータ） (2022-08-15T10:39:55Z)
NICEST: Noisy Label Correction and Training for Robust Scene Graph Generation [65.78472854070316]
我々は,SGG:NICESTのための新しいNoIsyラベルCorrEction and Sample Training戦略を提案する。 NICEはまずノイズのあるサンプルを検出し、さらに高品質な述語ラベルを割り当てる。 NICESTは任意のSGGアーキテクチャにシームレスに組み込んで、さまざまな述語カテゴリのパフォーマンスを向上させることができる。
論文参考訳（メタデータ） (2022-07-27T06:25:47Z)
Adaptive Fine-Grained Predicates Learning for Scene Graph Generation [122.4588401267544]
一般的なシーングラフ生成(SGG)モデルは、頭部の述語を予測する傾向があり、再バランス戦略は尾のカテゴリを好む。本稿では,SGGの難解な述語を識別することを目的とした適応的微粒述語学習(FGPL-A)を提案する。提案したモデル非依存戦略は,VG-SGGおよびGQA-SGGデータセットのベンチマークモデルの性能を最大175%,Mean Recall@100では76%向上させ,新たな最先端性能を実現する。
論文参考訳（メタデータ） (2022-07-11T03:37:57Z)
Stacked Hybrid-Attention and Group Collaborative Learning for Unbiased Scene Graph Generation [62.96628432641806]
Scene Graph Generationは、まず与えられた画像内の視覚的コンテンツをエンコードし、次にそれらをコンパクトな要約グラフに解析することを目的としている。まず,モーダル内改良とモーダル間相互作用を容易にする新しいスタック型ハイブリッド・アテンションネットワークを提案する。次に、デコーダを最適化するための革新的なグループ協調学習戦略を考案する。
論文参考訳（メタデータ） (2022-03-18T09:14:13Z)
Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文参考訳（メタデータ） (2021-09-24T07:20:13Z)
From General to Specific: Informative Scene Graph Generation via Balance Adjustment [113.04103371481067]
現在のモデルは、情報的なモデルではなく、例えば"on"や"at"といった一般的な述語に留まっている。本稿では,バランス調整に基づくフレームワークであるBA-SGGを提案する。提案手法は,視覚ゲノム上の3つのシーングラフ生成サブタスクにおいて,トランスフォーマーモデルよりも14.3%,8.0%,および6.1%高い平均リコール(mR)を実現する。
論文参考訳（メタデータ） (2021-08-30T11:39:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。