Fugu-MT 論文翻訳(概要): VLPrompt: Vision-Language Prompting for Panoptic Scene Graph Generation

論文の概要: VLPrompt: Vision-Language Prompting for Panoptic Scene Graph Generation

arxiv url: http://arxiv.org/abs/2311.16492v1
Date: Mon, 27 Nov 2023 17:05:25 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-29 20:15:33.740985
Title: VLPrompt: Vision-Language Prompting for Panoptic Scene Graph Generation
Title（参考訳）: VLPrompt: パノラマシーングラフ生成のためのビジョン言語プロンプト
Authors: Zijian Zhou, Miaojing Shi, Holger Caesar
Abstract要約: 本稿では,大規模言語モデル(LLM)から画像と言語情報から視覚情報を取得するビジョン・ランゲージ・プロンプト(VLPrompt)モデルを提案する。我々の実験によると、VLPromptはデータセットの従来の最先端手法よりも大幅に優れていた。
参考スコア（独自算出の注目度）: 13.221163846643607
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Panoptic Scene Graph Generation (PSG) aims at achieving a comprehensive image understanding by simultaneously segmenting objects and predicting relations among objects. However, the long-tail problem among relations leads to unsatisfactory results in real-world applications. Prior methods predominantly rely on vision information or utilize limited language information, such as object or relation names, thereby overlooking the utility of language information. Leveraging the recent progress in Large Language Models (LLMs), we propose to use language information to assist relation prediction, particularly for rare relations. To this end, we propose the Vision-Language Prompting (VLPrompt) model, which acquires vision information from images and language information from LLMs. Then, through a prompter network based on attention mechanism, it achieves precise relation prediction. Our extensive experiments show that VLPrompt significantly outperforms previous state-of-the-art methods on the PSG dataset, proving the effectiveness of incorporating language information and alleviating the long-tail problem of relations.
Abstract（参考訳）: Panoptic Scene Graph Generation (PSG) は、オブジェクトを同時に分割し、オブジェクト間の関係を予測することで、包括的な画像理解を実現することを目的としている。しかし、関係性の長い問題は現実の応用において不満足な結果をもたらす。従来の手法は、主に視覚情報に頼るか、オブジェクトや関係名などの限られた言語情報を利用するため、言語情報の有用性を見越す。近年のLarge Language Models (LLMs) の進歩を生かして,言語情報を用いて関係予測,特に稀な関係予測を支援することを提案する。そこで本研究では,LLMから画像と言語情報から視覚情報を取得するビジョン・ランゲージ・プロンプト(VLPrompt)モデルを提案する。そして、注意機構に基づくプロンプトネットワークを通じて、正確な関係予測を行う。広範な実験により,vlpromptはpsgデータセットにおける従来の最先端手法を著しく上回っており,言語情報を取り込んだり,関係のロングテール問題を軽減する効果が証明された。

関連論文リスト

ReasoningTrack: Chain-of-Thought Reasoning for Long-term Vision-Language Tracking [18.491855733401742]
本稿では,事前学習型視覚言語モデルQwen2.5-VLに基づく推論に基づく視覚言語追跡フレームワークReasoningTrackを提案する。更新された言語記述を埋め込み、それらを視覚機能とともにトラッキングバックボーンネットワークに統合する。さらに,200の動画シーケンスを含むTNLLTと呼ばれる大規模長期視覚言語追跡ベンチマークデータセットを提案する。
論文参考訳（メタデータ） (2025-08-07T10:02:07Z)
Open World Scene Graph Generation using Vision Language Models [7.024230124913843]
SGG(Scene-Graph Generation)は、画像中の物体を認識し、その正当な対関係を蒸留する。オープンワールドSGG(Open-World SGG)は、視覚言語モデル(VLM)の事前訓練された知識に直接アクセスする、トレーニング不要で、効率的で、モデルに依存しないフレームワークである。提案手法は,マルチモーダルプロンプト,埋め込みアライメント,および軽量なペアリファインメント戦略を組み合わせることで,未知のオブジェクト語彙や関係集合に対する推論を可能にする。
論文参考訳（メタデータ） (2025-06-09T19:59:05Z)
Resolving Word Vagueness with Scenario-guided Adapter for Natural Language Inference [24.58277380514406]
自然言語推論(NLI)は自然言語処理において重要な課題である。本稿では,大規模な事前学習型言語知識と関連する視覚情報とを同時に統合する,革新的なScenaFuseアダプタを提案する。我々のアプローチは言語と視覚のギャップを埋め、NLIタスクにおける理解と推論能力の改善につながります。
論文参考訳（メタデータ） (2024-05-21T01:19:52Z)
Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文参考訳（メタデータ） (2023-09-09T03:01:38Z)
DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文参考訳（メタデータ） (2021-12-02T18:59:32Z)
VidLanKD: Improving Language Understanding via Video-Distilled Knowledge Transfer [76.3906723777229]
言語理解を改善するためのビデオ言語知識蒸留法VidLanKDを提案する。我々は、ビデオテキストデータセット上でマルチモーダル教師モデルを訓練し、その知識をテキストデータセットを用いて学生言語モデルに伝達する。我々の実験では、VidLanKDはテキストのみの言語モデルや発声モデルよりも一貫した改善を実現している。
論文参考訳（メタデータ） (2021-07-06T15:41:32Z)
Language and Visual Entity Relationship Graph for Agent Navigation [54.059606864535304]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従って現実世界の環境をナビゲートする必要がある。テキストと視覚間のモーダル関係をモデル化するための新しい言語とビジュアルエンティティ関係グラフを提案する。実験によって、私たちは最先端技術よりも改善できる関係を利用しています。
論文参考訳（メタデータ） (2020-10-19T08:25:55Z)
Vokenization: Improving Language Understanding with Contextualized, Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文参考訳（メタデータ） (2020-10-14T02:11:51Z)
Object Relational Graph with Teacher-Recommended Learning for Video Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文参考訳（メタデータ） (2020-02-26T15:34:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。