論文の概要: LANDMARK: Language-guided Representation Enhancement Framework for Scene
Graph Generation
- arxiv url: http://arxiv.org/abs/2303.01080v1
- Date: Thu, 2 Mar 2023 09:03:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-03 15:25:06.946549
- Title: LANDMARK: Language-guided Representation Enhancement Framework for Scene
Graph Generation
- Title(参考訳): LANDMARK:シーングラフ生成のための言語誘導表現拡張フレームワーク
- Authors: Xiaoguang Chang, Teng Wang, Shaowei Cai and Changyin Sun
- Abstract要約: シーングラフ生成(SGG)は複雑な視覚的特徴とデータセットの長い問題の両方に悩まされる高度なタスクである。
言語ビジョンの対話パターンから述語関連表現を学習するLANDMARK(LANguage-guided representationenhanceMent frAmewoRK)を提案する。
このフレームワークはモデルに依存しず、既存のSGGモデルの性能を一貫して改善する。
- 参考スコア(独自算出の注目度): 34.40862385518366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene graph generation (SGG) is a sophisticated task that suffers from both
complex visual features and dataset long-tail problem. Recently, various
unbiased strategies have been proposed by designing novel loss functions and
data balancing strategies. Unfortunately, these unbiased methods fail to
emphasize language priors in feature refinement perspective. Inspired by the
fact that predicates are highly correlated with semantics hidden in
subject-object pair and global context, we propose LANDMARK (LANguage-guiDed
representationenhanceMent frAmewoRK) that learns predicate-relevant
representations from language-vision interactive patterns, global language
context and pair-predicate correlation. Specifically, we first project object
labels to three distinctive semantic embeddings for different representation
learning. Then, Language Attention Module (LAM) and Experience Estimation
Module (EEM) process subject-object word embeddings to attention vector and
predicate distribution, respectively. Language Context Module (LCM) encodes
global context from each word embed-ding, which avoids isolated learning from
local information. Finally, modules outputs are used to update visual
representations and SGG model's prediction. All language representations are
purely generated from object categories so that no extra knowledge is needed.
This framework is model-agnostic and consistently improves performance on
existing SGG models. Besides, representation-level unbiased strategies endow
LANDMARK the advantage of compatibility with other methods. Code is available
at https://github.com/rafa-cxg/PySGG-cxg.
- Abstract(参考訳): シーングラフ生成(sgg)は複雑なビジュアル機能とデータセットのロングテール問題の両方に苦しむ高度なタスクである。
近年,新しい損失関数とデータバランス戦略を設計することにより,様々な非バイアス戦略が提案されている。
残念なことに、これらの偏見のない手法は、特徴の洗練の観点から言語の先行性を強調できない。
述語が主観的対象対とグローバルな文脈に隠された意味と高い相関関係があることに着想を得て,言語-視覚的対話パターン,グローバル言語コンテキスト,ペア述語相関から述語関連表現を学習するLANDMARK(LANguage-guided representationenhanceMent frAmewoRK)を提案する。
具体的には、まずオブジェクトラベルを、異なる表現学習のための3つの特徴的なセマンティック埋め込みに投影する。
次に、Language Attention Module(LAM)とExperience Estimation Module(EEM)は、それぞれ注目ベクトルと述語分布に対する主観対象語埋め込みを処理します。
言語コンテキストモジュール(LCM)は各単語の埋め込みからグローバルコンテキストを符号化する。
最後に、モジュール出力を使用して視覚表現とSGGモデルの予測を更新する。
すべての言語表現は、余分な知識を必要としないように、純粋にオブジェクトカテゴリから生成される。
このフレームワークはモデルに依存しず、既存のSGGモデルの性能を一貫して改善する。
さらに、表現レベルの偏りのない戦略は、他のメソッドとの互換性の利点をランドマークに与えます。
コードはhttps://github.com/rafa-cxg/pysgg-cxgで入手できる。
関連論文リスト
- Grounding Everything: Emerging Localization Properties in
Vision-Language Transformers [51.260510447308306]
事前学習された視覚言語(VL)モデルでは、微調整なしでゼロショットのオープン語彙オブジェクトローカライゼーションが可能であることを示す。
本稿では,CLIPSurgeryが自己注意経路に導入した価値価値注意の考え方を一般化するグラウンドング・エコノミクス・モジュール(GEM)を提案する。
セマンティックセグメンテーションのための様々なベンチマークタスクとデータセットに基づいて提案したGEMフレームワークを評価する。
論文 参考訳(メタデータ) (2023-12-01T19:06:12Z) - Visually-Prompted Language Model for Fine-Grained Scene Graph Generation
in an Open World [67.03968403301143]
SGG(Scene Graph Generation)は、視覚理解のための画像中の主観的、述語的、対象的な関係を抽出することを目的としている。
既存の再バランス戦略は、以前のルールを通じてそれを処理しようとするが、まだ事前に定義された条件に制限されている。
そこで我々は,多種多様な粒度の述語を生成するために,視覚的にプロンプトされた言語モデルを学習するクロスモーダルプレディケイトブースティング(CaCao)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-23T13:06:38Z) - Decomposed Prototype Learning for Few-Shot Scene Graph Generation [28.796734816086065]
我々は、シーングラフ生成の新しい有望なタスク(SGG: few-shot SGG (FSSGG))に焦点を当てる。
FSSGGは、モデルが以前の知識を素早く伝達し、いくつかの例で新しい述語を認識することを奨励している。
本稿では,新しいDPL(Decomposed Prototype Learning)を提案する。
論文 参考訳(メタデータ) (2023-03-20T04:54:26Z) - Semantics-Aware Dynamic Localization and Refinement for Referring Image
Segmentation [102.25240608024063]
画像の参照は、言語表現からのイメージセグメントを参照する。
そこで我々は,局所化中心からセグメンテーション言語へ移行するアルゴリズムを開発した。
比較すると,本手法はより汎用的で有効である。
論文 参考訳(メタデータ) (2023-03-11T08:42:40Z) - Bidirectional Representations for Low Resource Spoken Language
Understanding [39.208462511430554]
双方向リッチ符号化における音声符号化のための表現モデルを提案する。
このアプローチでは、表現を学習するために、マスク付き言語モデリングの目的を使用する。
得られたエンコーディングの性能は、複数のデータセットで比較できるモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-11-24T17:05:16Z) - Compositional Generalization in Grounded Language Learning via Induced
Model Sparsity [81.38804205212425]
グリッド環境における単純な言語条件のナビゲーション問題について考察する。
本研究では,オブジェクトの指示文と属性のスパース相関を助長するエージェントを設計し,それらを組み合わせて目的を導出する。
我々のエージェントは、少数のデモンストレーションから学習した場合でも、新しいプロパティの組み合わせを含む目標に対して高いレベルのパフォーマンスを維持している。
論文 参考訳(メタデータ) (2022-07-06T08:46:27Z) - Integrating Language Guidance into Vision-based Deep Metric Learning [78.18860829585182]
埋め込み空間として意味的類似性を符号化した距離空間を学習することを提案する。
これらの空間は、トレーニング中に見られるもの以外のクラスに転送可能であるべきである。
これにより、学習された埋め込み空間は不完全な意味的コンテキストを符号化し、クラス間の意味的関係を誤って表現する。
論文 参考訳(メタデータ) (2022-03-16T11:06:50Z) - Consensus Graph Representation Learning for Better Grounded Image
Captioning [48.208119537050166]
本稿では,接地画像キャプションのためのConsensus Rraph Representation Learning framework(CGRL)を提案する。
Flickr30k Entitiesデータセットにおける対象幻覚(-9% CHAIRi)の顕著な減少とともに,本モデルの有効性を検証した。
論文 参考訳(メタデータ) (2021-12-02T04:17:01Z) - GINet: Graph Interaction Network for Scene Parsing [58.394591509215005]
画像領域に対する文脈推論を促進するために,グラフインタラクションユニット(GIユニット)とセマンティックコンテキストロス(SC-loss)を提案する。
提案されたGINetは、Pascal-ContextやCOCO Stuffなど、一般的なベンチマークにおける最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2020-09-14T02:52:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。