論文の概要: LANDMARK: Language-guided Representation Enhancement Framework for Scene
Graph Generation
- arxiv url: http://arxiv.org/abs/2303.01080v1
- Date: Thu, 2 Mar 2023 09:03:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-03 15:25:06.946549
- Title: LANDMARK: Language-guided Representation Enhancement Framework for Scene
Graph Generation
- Title(参考訳): LANDMARK:シーングラフ生成のための言語誘導表現拡張フレームワーク
- Authors: Xiaoguang Chang, Teng Wang, Shaowei Cai and Changyin Sun
- Abstract要約: シーングラフ生成(SGG)は複雑な視覚的特徴とデータセットの長い問題の両方に悩まされる高度なタスクである。
言語ビジョンの対話パターンから述語関連表現を学習するLANDMARK(LANguage-guided representationenhanceMent frAmewoRK)を提案する。
このフレームワークはモデルに依存しず、既存のSGGモデルの性能を一貫して改善する。
- 参考スコア(独自算出の注目度): 34.40862385518366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene graph generation (SGG) is a sophisticated task that suffers from both
complex visual features and dataset long-tail problem. Recently, various
unbiased strategies have been proposed by designing novel loss functions and
data balancing strategies. Unfortunately, these unbiased methods fail to
emphasize language priors in feature refinement perspective. Inspired by the
fact that predicates are highly correlated with semantics hidden in
subject-object pair and global context, we propose LANDMARK (LANguage-guiDed
representationenhanceMent frAmewoRK) that learns predicate-relevant
representations from language-vision interactive patterns, global language
context and pair-predicate correlation. Specifically, we first project object
labels to three distinctive semantic embeddings for different representation
learning. Then, Language Attention Module (LAM) and Experience Estimation
Module (EEM) process subject-object word embeddings to attention vector and
predicate distribution, respectively. Language Context Module (LCM) encodes
global context from each word embed-ding, which avoids isolated learning from
local information. Finally, modules outputs are used to update visual
representations and SGG model's prediction. All language representations are
purely generated from object categories so that no extra knowledge is needed.
This framework is model-agnostic and consistently improves performance on
existing SGG models. Besides, representation-level unbiased strategies endow
LANDMARK the advantage of compatibility with other methods. Code is available
at https://github.com/rafa-cxg/PySGG-cxg.
- Abstract(参考訳): シーングラフ生成(sgg)は複雑なビジュアル機能とデータセットのロングテール問題の両方に苦しむ高度なタスクである。
近年,新しい損失関数とデータバランス戦略を設計することにより,様々な非バイアス戦略が提案されている。
残念なことに、これらの偏見のない手法は、特徴の洗練の観点から言語の先行性を強調できない。
述語が主観的対象対とグローバルな文脈に隠された意味と高い相関関係があることに着想を得て,言語-視覚的対話パターン,グローバル言語コンテキスト,ペア述語相関から述語関連表現を学習するLANDMARK(LANguage-guided representationenhanceMent frAmewoRK)を提案する。
具体的には、まずオブジェクトラベルを、異なる表現学習のための3つの特徴的なセマンティック埋め込みに投影する。
次に、Language Attention Module(LAM)とExperience Estimation Module(EEM)は、それぞれ注目ベクトルと述語分布に対する主観対象語埋め込みを処理します。
言語コンテキストモジュール(LCM)は各単語の埋め込みからグローバルコンテキストを符号化する。
最後に、モジュール出力を使用して視覚表現とSGGモデルの予測を更新する。
すべての言語表現は、余分な知識を必要としないように、純粋にオブジェクトカテゴリから生成される。
このフレームワークはモデルに依存しず、既存のSGGモデルの性能を一貫して改善する。
さらに、表現レベルの偏りのない戦略は、他のメソッドとの互換性の利点をランドマークに与えます。
コードはhttps://github.com/rafa-cxg/pysgg-cxgで入手できる。
関連論文リスト
- Scene Graph Generation with Role-Playing Large Language Models [50.252588437973245]
オープン語彙シーングラフ生成(OVSGG)に対する現在のアプローチは、CLIPのような視覚言語モデルを使用している。
シーン固有の記述に基づくOVSGGフレームワークであるSDSGGを提案する。
対象と対象の複雑な相互作用を捉えるために,相互視覚アダプタと呼ばれる軽量モジュールを提案する。
論文 参考訳(メタデータ) (2024-10-20T11:40:31Z) - Part-aware Unified Representation of Language and Skeleton for Zero-shot Action Recognition [57.97930719585095]
本稿では,PURLS(Part-aware Unified Representation between Language and Skeleton)を紹介する。
本手法はスケルトン/言語のバックボーンと3つの大規模データセットを用いて評価する。
その結果、PURLSの普遍性と優れた性能を示し、以前のスケルトンベースのソリューションと他のドメインからの標準ベースラインを上回った。
論文 参考訳(メタデータ) (2024-06-19T08:22:32Z) - UniGLM: Training One Unified Language Model for Text-Attributed Graphs [31.464021556351685]
統一グラフ言語モデル(Unified Graph Language Model、UniGLM)は、グラフ埋め込みモデルであり、ドメイン内およびドメイン間TAGの両方によく一般化する。
UniGLMには、構造的に類似したノードを特定するための適応的な正のサンプル選択技術と、トレーニングを加速するために考案された遅延コントラストモジュールが含まれている。
論文 参考訳(メタデータ) (2024-06-17T19:45:21Z) - Improving Scene Graph Generation with Relation Words' Debiasing in Vision-Language Models [6.8754535229258975]
シーングラフ生成(SGG)は、視覚シーンの基本的な言語表現を提供する。
テストトリプレットの一部は、トレーニング中に珍しいか、あるいは目に見えず、結果として予測される。
本稿では,事前学習された視覚言語モデル(VLM)を用いたSGGモデルを用いて表現を強化することを提案する。
論文 参考訳(メタデータ) (2024-03-24T15:02:24Z) - Grounding Everything: Emerging Localization Properties in
Vision-Language Transformers [51.260510447308306]
事前学習された視覚言語(VL)モデルでは、微調整なしでゼロショットのオープン語彙オブジェクトローカライゼーションが可能であることを示す。
本稿では,CLIPSurgeryが自己注意経路に導入した価値価値注意の考え方を一般化するグラウンドング・エコノミクス・モジュール(GEM)を提案する。
セマンティックセグメンテーションのための様々なベンチマークタスクとデータセットに基づいて提案したGEMフレームワークを評価する。
論文 参考訳(メタデータ) (2023-12-01T19:06:12Z) - Visually-Prompted Language Model for Fine-Grained Scene Graph Generation
in an Open World [67.03968403301143]
SGG(Scene Graph Generation)は、視覚理解のための画像中の主観的、述語的、対象的な関係を抽出することを目的としている。
既存の再バランス戦略は、以前のルールを通じてそれを処理しようとするが、まだ事前に定義された条件に制限されている。
そこで我々は,多種多様な粒度の述語を生成するために,視覚的にプロンプトされた言語モデルを学習するクロスモーダルプレディケイトブースティング(CaCao)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-23T13:06:38Z) - Decomposed Prototype Learning for Few-Shot Scene Graph Generation [28.796734816086065]
我々は、シーングラフ生成の新しい有望なタスク(SGG: few-shot SGG (FSSGG))に焦点を当てる。
FSSGGは、モデルが以前の知識を素早く伝達し、いくつかの例で新しい述語を認識することを奨励している。
本稿では,新しいDPL(Decomposed Prototype Learning)を提案する。
論文 参考訳(メタデータ) (2023-03-20T04:54:26Z) - Semantics-Aware Dynamic Localization and Refinement for Referring Image
Segmentation [102.25240608024063]
画像の参照は、言語表現からのイメージセグメントを参照する。
そこで我々は,局所化中心からセグメンテーション言語へ移行するアルゴリズムを開発した。
比較すると,本手法はより汎用的で有効である。
論文 参考訳(メタデータ) (2023-03-11T08:42:40Z) - Integrating Language Guidance into Vision-based Deep Metric Learning [78.18860829585182]
埋め込み空間として意味的類似性を符号化した距離空間を学習することを提案する。
これらの空間は、トレーニング中に見られるもの以外のクラスに転送可能であるべきである。
これにより、学習された埋め込み空間は不完全な意味的コンテキストを符号化し、クラス間の意味的関係を誤って表現する。
論文 参考訳(メタデータ) (2022-03-16T11:06:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。