論文の概要: VLPrompt: Vision-Language Prompting for Panoptic Scene Graph Generation
- arxiv url: http://arxiv.org/abs/2311.16492v1
- Date: Mon, 27 Nov 2023 17:05:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 20:15:33.740985
- Title: VLPrompt: Vision-Language Prompting for Panoptic Scene Graph Generation
- Title(参考訳): VLPrompt: パノラマシーングラフ生成のためのビジョン言語プロンプト
- Authors: Zijian Zhou, Miaojing Shi, Holger Caesar
- Abstract要約: 本稿では,大規模言語モデル(LLM)から画像と言語情報から視覚情報を取得するビジョン・ランゲージ・プロンプト(VLPrompt)モデルを提案する。
我々の実験によると、VLPromptはデータセットの従来の最先端手法よりも大幅に優れていた。
- 参考スコア(独自算出の注目度): 13.221163846643607
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Panoptic Scene Graph Generation (PSG) aims at achieving a comprehensive image
understanding by simultaneously segmenting objects and predicting relations
among objects. However, the long-tail problem among relations leads to
unsatisfactory results in real-world applications. Prior methods predominantly
rely on vision information or utilize limited language information, such as
object or relation names, thereby overlooking the utility of language
information. Leveraging the recent progress in Large Language Models (LLMs), we
propose to use language information to assist relation prediction, particularly
for rare relations. To this end, we propose the Vision-Language Prompting
(VLPrompt) model, which acquires vision information from images and language
information from LLMs. Then, through a prompter network based on attention
mechanism, it achieves precise relation prediction. Our extensive experiments
show that VLPrompt significantly outperforms previous state-of-the-art methods
on the PSG dataset, proving the effectiveness of incorporating language
information and alleviating the long-tail problem of relations.
- Abstract(参考訳): Panoptic Scene Graph Generation (PSG) は、オブジェクトを同時に分割し、オブジェクト間の関係を予測することで、包括的な画像理解を実現することを目的としている。
しかし、関係性の長い問題は現実の応用において不満足な結果をもたらす。
従来の手法は、主に視覚情報に頼るか、オブジェクトや関係名などの限られた言語情報を利用するため、言語情報の有用性を見越す。
近年のLarge Language Models (LLMs) の進歩を生かして,言語情報を用いて関係予測,特に稀な関係予測を支援することを提案する。
そこで本研究では,LLMから画像と言語情報から視覚情報を取得するビジョン・ランゲージ・プロンプト(VLPrompt)モデルを提案する。
そして、注意機構に基づくプロンプトネットワークを通じて、正確な関係予測を行う。
広範な実験により,vlpromptはpsgデータセットにおける従来の最先端手法を著しく上回っており,言語情報を取り込んだり,関係のロングテール問題を軽減する効果が証明された。
関連論文リスト
- Exploring Large Language Model for Graph Data Understanding in Online
Job Recommendations [63.19448893196642]
本稿では,大規模言語モデルが提供するリッチな文脈情報と意味表現を利用して行動グラフを解析する新しいフレームワークを提案する。
この機能を利用することで、個々のユーザに対してパーソナライズされた、正確なジョブレコメンデーションが可能になる。
論文 参考訳(メタデータ) (2023-07-10T11:29:41Z) - Visually-Situated Natural Language Understanding with Contrastive
Reading Model and Frozen Large Language Models [24.456117679941816]
Contrastive Reading Model (Cream)は、Large Language Models (LLM)の言語画像理解能力を高めるために設計された、新しいニューラルネットワークである。
我々のアプローチは、視覚と言語理解のギャップを埋め、より洗練されたドキュメントインテリジェンスアシスタントの開発の道を開く。
論文 参考訳(メタデータ) (2023-05-24T11:59:13Z) - An Empirical Revisiting of Linguistic Knowledge Fusion in Language
Understanding Tasks [33.765874588342285]
構文的・意味的知識を持つ言語モデルの構築は,多くの言語理解タスクにおいて改善されている。
GLUEベンチマークにおいて,解析されたグラフや木を簡単なタスクに置き換える実験的検討を行った。
このことは、利得は明示的な言語的先行によるものではなく、融合層によってもたらされるより機能的な相互作用によるものであることを明らかにしている。
論文 参考訳(メタデータ) (2022-10-24T07:47:32Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z) - VidLanKD: Improving Language Understanding via Video-Distilled Knowledge
Transfer [76.3906723777229]
言語理解を改善するためのビデオ言語知識蒸留法VidLanKDを提案する。
我々は、ビデオテキストデータセット上でマルチモーダル教師モデルを訓練し、その知識をテキストデータセットを用いて学生言語モデルに伝達する。
我々の実験では、VidLanKDはテキストのみの言語モデルや発声モデルよりも一貫した改善を実現している。
論文 参考訳(メタデータ) (2021-07-06T15:41:32Z) - Language and Visual Entity Relationship Graph for Agent Navigation [54.059606864535304]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従って現実世界の環境をナビゲートする必要がある。
テキストと視覚間のモーダル関係をモデル化するための新しい言語とビジュアルエンティティ関係グラフを提案する。
実験によって、私たちは最先端技術よりも改善できる関係を利用しています。
論文 参考訳(メタデータ) (2020-10-19T08:25:55Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z) - Object Relational Graph with Teacher-Recommended Learning for Video
Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。
具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。
一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文 参考訳(メタデータ) (2020-02-26T15:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。