Fugu-MT 論文翻訳(概要): LANDMARK: Language-guided Representation Enhancement Framework for Scene Graph Generation

論文の概要: LANDMARK: Language-guided Representation Enhancement Framework for Scene Graph Generation

arxiv url: http://arxiv.org/abs/2303.01080v1
Date: Thu, 2 Mar 2023 09:03:11 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-03 15:25:06.946549
Title: LANDMARK: Language-guided Representation Enhancement Framework for Scene Graph Generation
Title（参考訳）: LANDMARK:シーングラフ生成のための言語誘導表現拡張フレームワーク
Authors: Xiaoguang Chang, Teng Wang, Shaowei Cai and Changyin Sun
Abstract要約: シーングラフ生成(SGG)は複雑な視覚的特徴とデータセットの長い問題の両方に悩まされる高度なタスクである。言語ビジョンの対話パターンから述語関連表現を学習するLANDMARK(LANguage-guided representationenhanceMent frAmewoRK)を提案する。このフレームワークはモデルに依存しず、既存のSGGモデルの性能を一貫して改善する。
参考スコア（独自算出の注目度）: 34.40862385518366
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Scene graph generation (SGG) is a sophisticated task that suffers from both complex visual features and dataset long-tail problem. Recently, various unbiased strategies have been proposed by designing novel loss functions and data balancing strategies. Unfortunately, these unbiased methods fail to emphasize language priors in feature refinement perspective. Inspired by the fact that predicates are highly correlated with semantics hidden in subject-object pair and global context, we propose LANDMARK (LANguage-guiDed representationenhanceMent frAmewoRK) that learns predicate-relevant representations from language-vision interactive patterns, global language context and pair-predicate correlation. Specifically, we first project object labels to three distinctive semantic embeddings for different representation learning. Then, Language Attention Module (LAM) and Experience Estimation Module (EEM) process subject-object word embeddings to attention vector and predicate distribution, respectively. Language Context Module (LCM) encodes global context from each word embed-ding, which avoids isolated learning from local information. Finally, modules outputs are used to update visual representations and SGG model's prediction. All language representations are purely generated from object categories so that no extra knowledge is needed. This framework is model-agnostic and consistently improves performance on existing SGG models. Besides, representation-level unbiased strategies endow LANDMARK the advantage of compatibility with other methods. Code is available at https://github.com/rafa-cxg/PySGG-cxg.
Abstract（参考訳）: シーングラフ生成(sgg)は複雑なビジュアル機能とデータセットのロングテール問題の両方に苦しむ高度なタスクである。近年,新しい損失関数とデータバランス戦略を設計することにより,様々な非バイアス戦略が提案されている。残念なことに、これらの偏見のない手法は、特徴の洗練の観点から言語の先行性を強調できない。述語が主観的対象対とグローバルな文脈に隠された意味と高い相関関係があることに着想を得て,言語-視覚的対話パターン,グローバル言語コンテキスト,ペア述語相関から述語関連表現を学習するLANDMARK(LANguage-guided representationenhanceMent frAmewoRK)を提案する。具体的には、まずオブジェクトラベルを、異なる表現学習のための3つの特徴的なセマンティック埋め込みに投影する。次に、Language Attention Module(LAM)とExperience Estimation Module(EEM)は、それぞれ注目ベクトルと述語分布に対する主観対象語埋め込みを処理します。言語コンテキストモジュール(LCM)は各単語の埋め込みからグローバルコンテキストを符号化する。最後に、モジュール出力を使用して視覚表現とSGGモデルの予測を更新する。すべての言語表現は、余分な知識を必要としないように、純粋にオブジェクトカテゴリから生成される。このフレームワークはモデルに依存しず、既存のSGGモデルの性能を一貫して改善する。さらに、表現レベルの偏りのない戦略は、他のメソッドとの互換性の利点をランドマークに与えます。コードはhttps://github.com/rafa-cxg/pysgg-cxgで入手できる。

関連論文リスト

Open World Scene Graph Generation using Vision Language Models [7.024230124913843]
SGG(Scene-Graph Generation)は、画像中の物体を認識し、その正当な対関係を蒸留する。オープンワールドSGG(Open-World SGG)は、視覚言語モデル(VLM)の事前訓練された知識に直接アクセスする、トレーニング不要で、効率的で、モデルに依存しないフレームワークである。提案手法は,マルチモーダルプロンプト,埋め込みアライメント,および軽量なペアリファインメント戦略を組み合わせることで,未知のオブジェクト語彙や関係集合に対する推論を可能にする。
論文参考訳（メタデータ） (2025-06-09T19:59:05Z)
Semantic-guided Representation Learning for Multi-Label Recognition [13.046479112800608]
マルチラベル認識(MLR)では、画像内の各データインスタンスに複数のラベルを割り当てる。近年のビジョンと言語事前学習法は、ゼロショットMLRタスクの処理において大きな進歩を遂げている。本研究では,セマンティック誘導型表現学習手法(SigRL)を導入し,モデルが効果的な視覚的およびテキスト的表現を学習できるようにする。
論文参考訳（メタデータ） (2025-04-04T08:15:08Z)
PRISM-0: A Predicate-Rich Scene Graph Generation Framework for Zero-Shot Open-Vocabulary Tasks [51.31903029903904]
SGG(Scene Graphs Generation)では、オブジェクトノードの形式で視覚入力から構造化された表現を抽出し、それらを接続する。 PRISM-0はゼロショットオープン語彙SGGのためのフレームワークで、ボトムアップアプローチで基礎モデルをブートストラップする。 PRIMS-0は、イメージキャプションやSentence-to-Graph Retrievalのような下流タスクを改善する意味のあるグラフを生成する。
論文参考訳（メタデータ） (2025-04-01T14:29:51Z)
Bridge the Gap Between Visual and Linguistic Comprehension for Generalized Zero-shot Semantic Segmentation [39.17707407384492]
汎用ゼロショットセマンティックセマンティックセグメンテーション(GZS3)は、目に見えないクラスや見えないクラスのセグメンテーションを実現することを目的としている。本稿では,空間部品 (SPMatch) とチャネル状態 (CSMatch) マッチングモジュールからなるデカップリング型視覚言語マッチング (DeVLMatch) フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-31T07:39:14Z)
Scene Graph Generation with Role-Playing Large Language Models [50.252588437973245]
オープン語彙シーングラフ生成(OVSGG)に対する現在のアプローチは、CLIPのような視覚言語モデルを使用している。シーン固有の記述に基づくOVSGGフレームワークであるSDSGGを提案する。対象と対象の複雑な相互作用を捉えるために,相互視覚アダプタと呼ばれる軽量モジュールを提案する。
論文参考訳（メタデータ） (2024-10-20T11:40:31Z)
Part-aware Unified Representation of Language and Skeleton for Zero-shot Action Recognition [57.97930719585095]
本稿では,PURLS(Part-aware Unified Representation between Language and Skeleton)を紹介する。本手法はスケルトン/言語のバックボーンと3つの大規模データセットを用いて評価する。その結果、PURLSの普遍性と優れた性能を示し、以前のスケルトンベースのソリューションと他のドメインからの標準ベースラインを上回った。
論文参考訳（メタデータ） (2024-06-19T08:22:32Z)
UniGLM: Training One Unified Language Model for Text-Attributed Graphs [31.464021556351685]
統一グラフ言語モデル(Unified Graph Language Model、UniGLM)は、グラフ埋め込みモデルであり、ドメイン内およびドメイン間TAGの両方によく一般化する。 UniGLMには、構造的に類似したノードを特定するための適応的な正のサンプル選択技術と、トレーニングを加速するために考案された遅延コントラストモジュールが含まれている。
論文参考訳（メタデータ） (2024-06-17T19:45:21Z)
Improving Scene Graph Generation with Relation Words' Debiasing in Vision-Language Models [6.8754535229258975]
シーングラフ生成(SGG)は、視覚シーンの基本的な言語表現を提供する。テストトリプレットの一部は、トレーニング中に珍しいか、あるいは目に見えず、結果として予測される。本稿では,事前学習された視覚言語モデル(VLM)を用いたSGGモデルを用いて表現を強化することを提案する。
論文参考訳（メタデータ） (2024-03-24T15:02:24Z)
Grounding Everything: Emerging Localization Properties in Vision-Language Transformers [51.260510447308306]
事前学習された視覚言語(VL)モデルでは、微調整なしでゼロショットのオープン語彙オブジェクトローカライゼーションが可能であることを示す。本稿では,CLIPSurgeryが自己注意経路に導入した価値価値注意の考え方を一般化するグラウンドング・エコノミクス・モジュール(GEM)を提案する。セマンティックセグメンテーションのための様々なベンチマークタスクとデータセットに基づいて提案したGEMフレームワークを評価する。
論文参考訳（メタデータ） (2023-12-01T19:06:12Z)
Visually-Prompted Language Model for Fine-Grained Scene Graph Generation in an Open World [67.03968403301143]
SGG(Scene Graph Generation)は、視覚理解のための画像中の主観的、述語的、対象的な関係を抽出することを目的としている。既存の再バランス戦略は、以前のルールを通じてそれを処理しようとするが、まだ事前に定義された条件に制限されている。そこで我々は,多種多様な粒度の述語を生成するために,視覚的にプロンプトされた言語モデルを学習するクロスモーダルプレディケイトブースティング(CaCao)フレームワークを提案する。
論文参考訳（メタデータ） (2023-03-23T13:06:38Z)
Decomposed Prototype Learning for Few-Shot Scene Graph Generation [28.796734816086065]
我々は、シーングラフ生成の新しい有望なタスク(SGG: few-shot SGG (FSSGG))に焦点を当てる。 FSSGGは、モデルが以前の知識を素早く伝達し、いくつかの例で新しい述語を認識することを奨励している。本稿では,新しいDPL(Decomposed Prototype Learning)を提案する。
論文参考訳（メタデータ） (2023-03-20T04:54:26Z)
Semantics-Aware Dynamic Localization and Refinement for Referring Image Segmentation [102.25240608024063]
画像の参照は、言語表現からのイメージセグメントを参照する。そこで我々は,局所化中心からセグメンテーション言語へ移行するアルゴリズムを開発した。比較すると,本手法はより汎用的で有効である。
論文参考訳（メタデータ） (2023-03-11T08:42:40Z)
Integrating Language Guidance into Vision-based Deep Metric Learning [78.18860829585182]
埋め込み空間として意味的類似性を符号化した距離空間を学習することを提案する。これらの空間は、トレーニング中に見られるもの以外のクラスに転送可能であるべきである。これにより、学習された埋め込み空間は不完全な意味的コンテキストを符号化し、クラス間の意味的関係を誤って表現する。
論文参考訳（メタデータ） (2022-03-16T11:06:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。