論文の概要: Scene Graph Generation with Role-Playing Large Language Models
- arxiv url: http://arxiv.org/abs/2410.15364v1
- Date: Sun, 20 Oct 2024 11:40:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:16:55.313657
- Title: Scene Graph Generation with Role-Playing Large Language Models
- Title(参考訳): ロールプレイング大言語モデルを用いたシーングラフ生成
- Authors: Guikun Chen, Jin Li, Wenguan Wang,
- Abstract要約: オープン語彙シーングラフ生成(OVSGG)に対する現在のアプローチは、CLIPのような視覚言語モデルを使用している。
シーン固有の記述に基づくOVSGGフレームワークであるSDSGGを提案する。
対象と対象の複雑な相互作用を捉えるために,相互視覚アダプタと呼ばれる軽量モジュールを提案する。
- 参考スコア(独自算出の注目度): 50.252588437973245
- License:
- Abstract: Current approaches for open-vocabulary scene graph generation (OVSGG) use vision-language models such as CLIP and follow a standard zero-shot pipeline -- computing similarity between the query image and the text embeddings for each category (i.e., text classifiers). In this work, we argue that the text classifiers adopted by existing OVSGG methods, i.e., category-/part-level prompts, are scene-agnostic as they remain unchanged across contexts. Using such fixed text classifiers not only struggles to model visual relations with high variance, but also falls short in adapting to distinct contexts. To plug these intrinsic shortcomings, we devise SDSGG, a scene-specific description based OVSGG framework where the weights of text classifiers are adaptively adjusted according to the visual content. In particular, to generate comprehensive and diverse descriptions oriented to the scene, an LLM is asked to play different roles (e.g., biologist and engineer) to analyze and discuss the descriptive features of a given scene from different views. Unlike previous efforts simply treating the generated descriptions as mutually equivalent text classifiers, SDSGG is equipped with an advanced renormalization mechanism to adjust the influence of each text classifier based on its relevance to the presented scene (this is what the term "specific" means). Furthermore, to capture the complicated interplay between subjects and objects, we propose a new lightweight module called mutual visual adapter. It refines CLIP's ability to recognize relations by learning an interaction-aware semantic space. Extensive experiments on prevalent benchmarks show that SDSGG outperforms top-leading methods by a clear margin.
- Abstract(参考訳): オープン語彙シーングラフ生成(OVSGG)の現在のアプローチでは、CLIPのような視覚言語モデルを使用し、標準のゼロショットパイプラインに従う -- クエリイメージと各カテゴリ(テキスト分類器)のテキスト埋め込みとの類似性を計算している。
本研究では,既存のOVSGG手法で採用されているテキスト分類器,すなわちカテゴリ/部分レベルのプロンプトは,文脈によって変化しないため,シーン非依存である,と論じる。
このような固定テキスト分類器を使用すると、高い分散度で視覚関係をモデル化するのに苦労するだけでなく、異なる文脈に適応するのにも不足する。
これらの固有の欠点を補うために、シーン固有の記述に基づくOVSGGフレームワークであるSDSGGを考案し、テキスト分類器の重み付けを視覚内容に応じて適応的に調整する。
特に、シーンに向けられた包括的で多様な記述を生成するために、LLMは異なる役割(例えば、生物学者、技術者)を演じるように求められ、異なる視点からシーンの記述的特徴を分析し、議論する。
生成した記述を相互等価なテキスト分類器として単純に扱う従来の取り組みとは異なり、SDSGGは、提示されたシーンとの関連性に基づいて各テキスト分類器の影響を調整するための高度な再正規化機構を備えている(これが「特定」という言葉の意味である)。
さらに,対象と対象との複雑な相互作用を捉えるために,相互視覚アダプタと呼ばれる軽量モジュールを提案する。
相互作用を意識したセマンティックスペースを学習することで、CLIPが関係を認識する能力を洗練させる。
有意なベンチマーク実験により、SDSGGはトップリード法よりも明確なマージンで優れていることが示された。
関連論文リスト
- InvSeg: Test-Time Prompt Inversion for Semantic Segmentation [33.60580908728705]
InvSegはセマンティックセグメンテーションのためのテストタイムプロンプトインバージョンメソッドである。
コントラストソフトクラスタリングを導入し,マスクを画像の構造情報と整合させる。
InvSegはコンテキストリッチなテキストプロンプトを埋め込み空間で学習し、モダリティ間の正確なセマンティックアライメントを実現する。
論文 参考訳(メタデータ) (2024-10-15T10:20:31Z) - Expanding Scene Graph Boundaries: Fully Open-vocabulary Scene Graph Generation via Visual-Concept Alignment and Retention [69.36723767339001]
SGG(Scene Graph Generation)は、多くのコンピュータビジョンアプリケーションにおいて重要な構造化された表現を提供する。
我々はOvSGTRという名前の統一フレームワークを全体的視点から完全にオープンな語彙SGGに向けて提案する。
関係付きオープン語彙SGGのより困難な設定のために、提案手法は関係対応型事前学習を統合する。
論文 参考訳(メタデータ) (2023-11-18T06:49:17Z) - Hierarchical Open-vocabulary Universal Image Segmentation [48.008887320870244]
Open-vocabulary Image segmentationは、任意のテキスト記述に従ってイメージをセマンティック領域に分割することを目的としている。
我々は,「モノ」と「スタッフ」の双方に対して,分離されたテキストイメージ融合機構と表現学習モジュールを提案する。
HIPIE tackles, HIerarchical, oPen-vocabulary, unIvErsal segmentation task in a unified framework。
論文 参考訳(メタデータ) (2023-07-03T06:02:15Z) - LANDMARK: Language-guided Representation Enhancement Framework for Scene
Graph Generation [34.40862385518366]
シーングラフ生成(SGG)は複雑な視覚的特徴とデータセットの長い問題の両方に悩まされる高度なタスクである。
言語ビジョンの対話パターンから述語関連表現を学習するLANDMARK(LANguage-guided representationenhanceMent frAmewoRK)を提案する。
このフレームワークはモデルに依存しず、既存のSGGモデルの性能を一貫して改善する。
論文 参考訳(メタデータ) (2023-03-02T09:03:11Z) - Betrayed by Captions: Joint Caption Grounding and Generation for Open
Vocabulary Instance Segmentation [80.48979302400868]
オープンな語彙のインスタンスセグメンテーションに注目し、セグメンテーションモデルを拡張して、インスタンスレベルの新しいカテゴリを分類し、セグメンテーションする。
これまでは、画像領域と名詞の字幕間の1対1のマッピングを確立するために、大量の字幕データセットと複雑なパイプラインに頼っていた。
我々は,一致したオブジェクトのみに着目して学習効率を向上させる新しいグラウンドニング損失を取り入れた,共同の textbf Caption Grounding and Generation (CGG) フレームワークを考案した。
論文 参考訳(メタデータ) (2023-01-02T18:52:12Z) - Learning Object-Language Alignments for Open-Vocabulary Object Detection [83.09560814244524]
画像とテキストのペアデータから直接学習する新しいオープン語彙オブジェクト検出フレームワークを提案する。
これにより、画像とテキストのペア上でオープンな語彙オブジェクト検出器を、よりシンプルで効果的な方法で訓練することが可能になります。
論文 参考訳(メタデータ) (2022-11-27T14:47:31Z) - MGIMN: Multi-Grained Interactive Matching Network for Few-shot Text
Classification [9.9875634964736]
テキスト分類は、クラスごとにラベル付きテキストインスタンスがほとんどない、目に見えないクラスに一般化するのに苦労する。
本稿では,メタラーニングに基づくMGIMNを提案する。
論文 参考訳(メタデータ) (2022-04-11T08:58:55Z) - CLIP-Adapter: Better Vision-Language Models with Feature Adapters [79.52844563138493]
即時チューニング以外に、より良い視覚言語モデルを実現するための代替経路があることが示される。
本稿では,CLIP-Adapterを提案する。
様々な視覚的分類タスクの実験および広範囲なアブレーション研究は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2021-10-09T11:39:30Z) - Exploring the Hierarchy in Relation Labels for Scene Graph Generation [75.88758055269948]
提案手法は,Recall@50において,複数の最先端ベースラインを大きなマージン(最大33%の相対利得)で改善することができる。
実験により,提案手法により,最先端のベースラインを大きなマージンで改善できることが示された。
論文 参考訳(メタデータ) (2020-09-12T17:36:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。