論文の概要: Vision language models have difficulty recognizing virtual objects
- arxiv url: http://arxiv.org/abs/2505.10453v1
- Date: Thu, 15 May 2025 16:11:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 22:29:06.407167
- Title: Vision language models have difficulty recognizing virtual objects
- Title(参考訳): 視覚言語モデルは仮想物体を認識するのに困難である
- Authors: Tyler Tran, Sangeet Khemlani, J. G. Trafton,
- Abstract要約: 視覚言語モデル(VLM)は、多モード入力を処理するために、言語と視覚エンコーダの両方と組み合わせたAIシステムである。
仮想オブジェクトの記述は、これらのAIシステムにおけるテストシーンの理解に役立つと論じる。
- 参考スコア(独自算出の注目度): 0.20482269513546453
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Vision language models (VLMs) are AI systems paired with both language and vision encoders to process multimodal input. They are capable of performing complex semantic tasks such as automatic captioning, but it remains an open question about how well they comprehend the visuospatial properties of scenes depicted in the images they process. We argue that descriptions of virtual objects -- objects that are not visually represented in an image -- can help test scene comprehension in these AI systems. For example, an image that depicts a person standing under a tree can be paired with the following prompt: imagine that a kite is stuck in the tree. VLMs that comprehend the scene should update their representations and reason sensibly about the spatial relations between all three objects. We describe systematic evaluations of state-of-the-art VLMs and show that their ability to process virtual objects is inadequate.
- Abstract(参考訳): 視覚言語モデル(VLM)は、多モード入力を処理するために、言語と視覚エンコーダの両方と組み合わせたAIシステムである。
自動キャプションなどの複雑なセマンティックなタスクを実行できるが、処理する画像に描かれたシーンの空間的特性がどの程度理解されているかは、未解決のままである。
仮想オブジェクト(画像に視覚的に表現されていないオブジェクト)の記述は、これらのAIシステムにおけるシーンの理解をテストするのに役立ちます。
例えば、木の下に立っている人を描いた画像は、次のプロンプトと組み合わせることができる。
シーンを理解したVLMは、表現を更新し、3つのオブジェクト間の空間的関係について合理的に推論するべきである。
本稿では,最先端VLMの体系的評価について述べるとともに,仮想オブジェクトの処理能力が不十分であることを示す。
関連論文リスト
- Help Me Identify: Is an LLM+VQA System All We Need to Identify Visual Concepts? [62.984473889987605]
本稿では,大規模言語モデルとVQA(Visual Question Answering)システムを活用した,視覚概念学習のためのゼロショットフレームワークを提案する。
VQAシステムに問い合わせ画像とともにこれらの質問を行い、回答を集約し、テスト画像中のオブジェクトの有無を判定する。
実験では,既存のゼロショット視覚分類法や少数ショット概念学習手法と同等の性能を示した。
論文 参考訳(メタデータ) (2024-10-17T15:16:10Z) - ClawMachine: Learning to Fetch Visual Tokens for Referential Comprehension [71.03445074045092]
我々はClawMachineを提案し、視覚トークンのグループのトークン集合を用いて各エンティティに明示的に通知する新しい方法論を提案する。
追加構文を用いることなく視覚的参照タスクのプロンプトと応答を統一する手法を提案する。
ClawMachineは、高い効率でシーンレベルおよび参照理解タスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-17T08:39:16Z) - Understanding Figurative Meaning through Explainable Visual Entailment [24.831452159672857]
本稿では,概念的意味理解問題を説明可能な視覚的含意タスクとしてフレーミングする新しいタスクを提案する。
我々は、6,027の画像、キャプション、ラベル、説明例を含む付随するデータセットV-FLUTEを構築した。
VLMはリテラルから比喩的意味への一般化に苦慮している。
論文 参考訳(メタデータ) (2024-05-02T17:07:25Z) - Lyrics: Boosting Fine-grained Language-Vision Alignment and Comprehension via Semantic-aware Visual Objects [11.117055725415446]
LVLM(Large Vision Language Models)は、様々な視覚言語対話シナリオにおいて、印象的なゼロショット機能を示す。
きめ細かい視覚オブジェクト検出がないことは、画像の詳細を理解するのを妨げ、不可分な視覚幻覚や事実的誤りを引き起こす。
リリックス(Lyrics)は、視覚言語アライメントを微粒なクロスモーダル協調からブートストラップする、新しいマルチモーダル事前学習および微調整パラダイムである。
論文 参考訳(メタデータ) (2023-12-08T09:02:45Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - DeViL: Decoding Vision features into Language [53.88202366696955]
ポストホックな説明法は、ディープニューラルネットワークの意思決定プロセスを抽象化するためにしばしば批判されてきた。
この研究では、ビジョンバックボーンの異なるレイヤが学んだことについて、自然言語で記述したいと考えています。
我々は、トランスフォーマーネットワークをトレーニングし、任意の視覚層の個々の画像特徴を、分離した既製の言語モデルが自然言語に復号するプロンプトに変換する。
論文 参考訳(メタデータ) (2023-09-04T13:59:55Z) - Paparazzi: A Deep Dive into the Capabilities of Language and Vision
Models for Grounding Viewpoint Descriptions [4.026600887656479]
現状の言語とビジョンモデルであるCLIPが、3Dオブジェクトの視点記述を基盤として利用できるかどうかを考察する。
本稿では,3次元物体の周囲に回転するカメラを用いて異なる視点から画像を生成する評価フレームワークを提案する。
事前訓練されたCLIPモデルは、ほとんどの標準ビューでは性能が良くないことがわかった。
論文 参考訳(メタデータ) (2023-02-13T15:18:27Z) - Understanding Cross-modal Interactions in V&L Models that Generate Scene
Descriptions [3.7957452405531256]
本稿では,現在最先端の視覚・言語モデルであるVinVLによる映像のシーンレベルでのキャプションの可能性について検討する。
映像中のオブジェクトレベルの概念を識別する能力を失うことなく、少量のキュレートされたデータでシーン記述を生成することができることを示す。
本研究は,これらの結果と,シーン知覚に関する計算・認知科学研究の知見との類似性について論じる。
論文 参考訳(メタデータ) (2022-11-09T15:33:51Z) - ImaginaryNet: Learning Object Detectors without Real Images and
Annotations [66.30908705345973]
本稿では,事前学習された言語モデルとテキスト・ツー・イメージモデルを組み合わせた画像合成フレームワークを提案する。
合成画像とクラスラベルを使用することで、弱い教師付きオブジェクト検出を利用してImaginary-Supervised Object Detectionを実現できる。
実験により、ImaginaryNetは、実際のデータに基づいてトレーニングされた同じバックボーンの弱い監督を受けたものと比較して、ISODで約70%の性能が得られることが示された。
論文 参考訳(メタデータ) (2022-10-13T10:25:22Z) - Language Grounding with 3D Objects [60.67796160959387]
本稿では,3Dオブジェクトに関する視覚的・非視覚的言語を対象とする新たな推論タスクを提案する。
オブジェクトを識別するためのCLIPベースのモデルをいくつか紹介する。
言語接地モデルにビュー推定を追加することで、SNAREとロボットプラットフォーム上で言語で参照されるオブジェクトを識別する場合の精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-07-26T23:35:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。