論文の概要: VLPrompt: Vision-Language Prompting for Panoptic Scene Graph Generation
- arxiv url: http://arxiv.org/abs/2311.16492v2
- Date: Wed, 19 Jun 2024 19:48:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-22 06:08:04.584800
- Title: VLPrompt: Vision-Language Prompting for Panoptic Scene Graph Generation
- Title(参考訳): VLPrompt: パノラマシーングラフ生成のためのビジョン言語プロンプト
- Authors: Zijian Zhou, Miaojing Shi, Holger Caesar,
- Abstract要約: Panoptic Scene Graph Generation (PSG) は、オブジェクトをセグメント化し、オブジェクト間の関係を予測することで、包括的な画像理解を実現することを目的としている。
以前の手法は主に視覚情報に依存するか、オブジェクトや関係名などの限られた言語情報を利用する。
言語情報を用いて関係予測,特に稀な関係の予測を支援することを提案する。
- 参考スコア(独自算出の注目度): 11.76365012394685
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Panoptic Scene Graph Generation (PSG) aims at achieving a comprehensive image understanding by simultaneously segmenting objects and predicting relations among objects. However, the long-tail problem among relations leads to unsatisfactory results in real-world applications. Prior methods predominantly rely on vision information or utilize limited language information, such as object or relation names, thereby overlooking the utility of language information. Leveraging the recent progress in Large Language Models (LLMs), we propose to use language information to assist relation prediction, particularly for rare relations. To this end, we propose the Vision-Language Prompting (VLPrompt) model, which acquires vision information from images and language information from LLMs. Then, through a prompter network based on attention mechanism, it achieves precise relation prediction. Our extensive experiments show that VLPrompt significantly outperforms previous state-of-the-art methods on the PSG dataset, proving the effectiveness of incorporating language information and alleviating the long-tail problem of relations. Code is available at \url{https://github.com/franciszzj/TP-SIS}.
- Abstract(参考訳): Panoptic Scene Graph Generation (PSG) は、オブジェクトを同時に分割し、オブジェクト間の関係を予測することで、包括的な画像理解を実現することを目的としている。
しかし、関係性の長い問題は現実の応用において不満足な結果をもたらす。
従来の手法は、主に視覚情報に頼るか、オブジェクトや関係名などの限られた言語情報を利用するため、言語情報の有用性を見越す。
近年のLarge Language Models (LLMs) の進歩を生かして,言語情報を用いて関係予測,特に稀な関係の予測を支援することを提案する。
そこで本研究では,LLMから画像と言語情報から視覚情報を取得するビジョン・ランゲージ・プロンプト(VLPrompt)モデルを提案する。
そして、注意機構に基づくプロンプトネットワークを通じて、正確な関係予測を行う。
我々の広範な実験により、VLPromptはPSGデータセットの従来の最先端手法よりも優れており、言語情報の導入や関係の長期的問題を緩和する効果が証明されている。
コードは \url{https://github.com/franciszzj/TP-SIS} で入手できる。
関連論文リスト
- Resolving Word Vagueness with Scenario-guided Adapter for Natural Language Inference [24.58277380514406]
自然言語推論(NLI)は自然言語処理において重要な課題である。
本稿では,大規模な事前学習型言語知識と関連する視覚情報とを同時に統合する,革新的なScenaFuseアダプタを提案する。
我々のアプローチは言語と視覚のギャップを埋め、NLIタスクにおける理解と推論能力の改善につながります。
論文 参考訳(メタデータ) (2024-05-21T01:19:52Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z) - VidLanKD: Improving Language Understanding via Video-Distilled Knowledge
Transfer [76.3906723777229]
言語理解を改善するためのビデオ言語知識蒸留法VidLanKDを提案する。
我々は、ビデオテキストデータセット上でマルチモーダル教師モデルを訓練し、その知識をテキストデータセットを用いて学生言語モデルに伝達する。
我々の実験では、VidLanKDはテキストのみの言語モデルや発声モデルよりも一貫した改善を実現している。
論文 参考訳(メタデータ) (2021-07-06T15:41:32Z) - Language and Visual Entity Relationship Graph for Agent Navigation [54.059606864535304]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従って現実世界の環境をナビゲートする必要がある。
テキストと視覚間のモーダル関係をモデル化するための新しい言語とビジュアルエンティティ関係グラフを提案する。
実験によって、私たちは最先端技術よりも改善できる関係を利用しています。
論文 参考訳(メタデータ) (2020-10-19T08:25:55Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z) - Object Relational Graph with Teacher-Recommended Learning for Video
Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。
具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。
一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文 参考訳(メタデータ) (2020-02-26T15:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。