論文の概要: LLaVA-VSD: Large Language-and-Vision Assistant for Visual Spatial Description
- arxiv url: http://arxiv.org/abs/2408.04957v1
- Date: Fri, 9 Aug 2024 09:22:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-12 16:07:28.636703
- Title: LLaVA-VSD: Large Language-and-Vision Assistant for Visual Spatial Description
- Title(参考訳): LLaVA-VSD:視覚空間記述のための大規模言語・視覚アシスタント
- Authors: Yizhang Jin, Jian Li, Jiangning Zhang, Jianlong Hu, Zhenye Gan, Xin Tan, Yong Liu, Yabiao Wang, Chengjie Wang, Lizhuang Ma,
- Abstract要約: ビジュアル空間記述は、画像内のオブジェクト間の空間的関係を記述するテキストを生成することを目的としている。
LLaVA-VSDは視覚空間関係の分類、記述、オープンな記述のために設計されている。
- 参考スコア(独自算出の注目度): 73.8302882854492
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Spatial Description (VSD) aims to generate texts that describe the spatial relationships between objects within images. Traditional visual spatial relationship classification (VSRC) methods typically output the spatial relationship between two objects in an image, often neglecting world knowledge and lacking general language capabilities. In this paper, we propose a Large Language-and-Vision Assistant for Visual Spatial Description, named LLaVA-VSD, which is designed for the classification, description, and open-ended description of visual spatial relationships. Specifically, the model first constructs a VSD instruction-following dataset using given figure-caption pairs for the three tasks. It then employs LoRA to fine-tune a Large Language and Vision Assistant for VSD, which has 13 billion parameters and supports high-resolution images. Finally, a large language model (Qwen-2) is used to refine the generated sentences, enhancing their diversity and accuracy. LLaVA-VSD demonstrates excellent multimodal conversational capabilities and can follow open-ended instructions to assist with inquiries about object relationships in images.
- Abstract(参考訳): ビジュアル空間記述(VSD)は、画像内のオブジェクト間の空間的関係を記述するテキストを生成することを目的としている。
従来の視覚的空間関係分類(VSRC)法は、通常、画像内の2つのオブジェクト間の空間関係を出力し、しばしば世界の知識を無視し、一般的な言語能力に欠ける。
本稿では、視覚空間関係の分類、記述、オープンな記述を目的としたLLaVA-VSDという、視覚空間記述のためのLarge Language-and-Vision Assistantを提案する。
具体的には、3つのタスクに対して与えられたフィギュア・キャプションペアを使用して、まずVSD命令追従データセットを構築する。
次にLoRAを使用して、VSD用のLarge Language and Vision Assistantを微調整する。
最後に、大きな言語モデル(Qwen-2)を使用して生成された文を洗練し、その多様性と精度を高める。
LLaVA-VSDは、優れたマルチモーダル対話機能を示し、画像内のオブジェクト関係に関する問い合わせを支援するために、オープンな指示に従うことができる。
関連論文リスト
- g3D-LF: Generalizable 3D-Language Feature Fields for Embodied Tasks [62.74304008688472]
Generalizable 3D-Language Feature Fields (g3D-LF)は、大規模な3D言語データセットで事前訓練された3D表現モデルである。
論文 参考訳(メタデータ) (2024-11-26T01:54:52Z) - Towards Grounded Visual Spatial Reasoning in Multi-Modal Vision Language
Models [3.86170450233149]
画像とテキストとのマッチングを訓練した大規模視覚言語モデル(VLM)では,空間的関係の微妙な理解が欠如していることが示されている。
本稿では,空間的節の認識とランク付けのための,よりきめ細かな構成的アプローチを提案する。
論文 参考訳(メタデータ) (2023-08-18T18:58:54Z) - Multi-modal Large Language Model Enhanced Pseudo 3D Perception Framework
for Visual Commonsense Reasoning [24.29849761674329]
代表作は、まず画像中のオブジェクトを認識し、それからテキスト中のキーワードと関連付ける。
MLLM拡張擬似3次元認識フレームワークは、視覚的コモンセンス推論のために設計されている。
VCRデータセットの実験は、最先端のアプローチよりも提案されたフレームワークの方が優れていることを示している。
論文 参考訳(メタデータ) (2023-01-30T23:43:28Z) - Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。
1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2022-12-27T09:13:19Z) - Visual Spatial Description: Controlled Spatial-Oriented Image-to-Text
Generation [29.6588897383909]
空間意味論に対する画像からテキストへの新たな視点である視覚空間記述(VSD)を提示する。
画像と内部にある2つのオブジェクトが与えられた場合、VSDは2つのオブジェクト間の空間的視点に焦点を当てた1つの記述を作成することを目的としている。
論文 参考訳(メタデータ) (2022-10-20T09:10:17Z) - SOAT: A Scene- and Object-Aware Transformer for Vision-and-Language
Navigation [57.12508968239015]
本研究は,トランスフォーマーを用いた視覚言語ナビゲーション (VLN) エージェントを提案する。
シーン分類ネットワークとオブジェクト検出器の2つの異なるビジュアルエンコーダを使用する。
シーン機能は、オブジェクトレベルの処理をサポートする高レベルなコンテキスト情報を提供する。
論文 参考訳(メタデータ) (2021-10-27T03:29:34Z) - Know What and Know Where: An Object-and-Room Informed Sequential BERT
for Indoor Vision-Language Navigation [120.90387630691816]
VLN(Vision-and-Language Navigation)は、自然言語命令と写真リアリスティックパノラマのセットに基づいて、エージェントが遠隔地へ移動する必要がある。
既存の手法の多くは、各パノラマの命令と離散ビューで単語をエンコーディングの最小単位とする。
視覚知覚と言語指示を同一のきめ細かいレベルで符号化するオブジェクトインフォームド・シーケンシャルBERTを提案する。
論文 参考訳(メタデータ) (2021-04-09T02:44:39Z) - Dense Relational Image Captioning via Multi-task Triple-Stream Networks [95.0476489266988]
視覚的な場面におけるオブジェクト間の情報に関して,キャプションを生成することを目的とした新しいタスクである。
このフレームワークは、多様性と情報の量の両方において有利であり、包括的なイメージ理解につながる。
論文 参考訳(メタデータ) (2020-10-08T09:17:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。