論文の概要: PIN: Positional Insert Unlocks Object Localisation Abilities in VLMs
- arxiv url: http://arxiv.org/abs/2402.08657v1
- Date: Tue, 13 Feb 2024 18:39:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 14:02:29.829289
- Title: PIN: Positional Insert Unlocks Object Localisation Abilities in VLMs
- Title(参考訳): PIN: 位置インサートがVLMのオブジェクトローカライゼーション能力をアンロック
- Authors: Michael Dorkenwald, Nimrod Barazani, Cees G. M. Snoek, Yuki M. Asano
- Abstract要約: VLM(Vision-Language Models)は、大きな言語モデルと視覚システムを統合することで、大きな可能性を秘めている。
これらのモデルは、主にキャプションを含むマルチモーダルデータに対するトレーニングのため、オブジェクトローカライゼーションの基本的なコンピュータビジョンタスクにおいて課題に直面している。
本稿では,空間的プロンプトであるPIN(Input-Agnostic Positional Insert)を導入する。
我々のPINモジュールは、新しい出力ヘッドを必要とせずに、合成データに対する単純な次トーケン予測タスクで訓練されている。
- 参考スコア(独自算出の注目度): 55.8550939439138
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Vision-Language Models (VLMs), such as Flamingo and GPT-4V, have shown
immense potential by integrating large language models with vision systems.
Nevertheless, these models face challenges in the fundamental computer vision
task of object localisation, due to their training on multimodal data
containing mostly captions without explicit spatial grounding. While it is
possible to construct custom, supervised training pipelines with bounding box
annotations that integrate with VLMs, these result in specialized and
hard-to-scale models. In this paper, we aim to explore the limits of
caption-based VLMs and instead propose to tackle the challenge in a simpler
manner by i) keeping the weights of a caption-based VLM frozen and ii) not
using any supervised detection data. To this end, we introduce an
input-agnostic Positional Insert (PIN), a learnable spatial prompt, containing
a minimal set of parameters that are slid inside the frozen VLM, unlocking
object localisation capabilities. Our PIN module is trained with a simple
next-token prediction task on synthetic data without requiring the introduction
of new output heads. Our experiments demonstrate strong zero-shot localisation
performances on a variety of images, including Pascal VOC, COCO, LVIS, and
diverse images like paintings or cartoons.
- Abstract(参考訳): Flamingo や GPT-4V のような視覚言語モデル (VLM) は、大きな言語モデルと視覚システムを統合することで大きな可能性を示している。
にもかかわらず、これらのモデルは、空間的接地を明示しないキャプションを含むマルチモーダルデータに対する訓練のため、オブジェクトローカライゼーションの基本的なコンピュータビジョンタスクにおいて課題に直面している。
VLMと統合するバウンディングボックスアノテーションで、カスタムで教師付きトレーニングパイプラインを構築することができるが、これらは専門的でスケールの難しいモデルをもたらす。
本稿では,字幕ベースのVLMの限界を探究し,より簡単な方法で課題に取り組むことを提案する。
一 字幕ベースのVLMの重量を凍結して保つこと。
二 監視された検出データを使用しないこと。
この目的のために,入力非依存な位置挿入(pin)と学習可能な空間プロンプトを導入し,凍結したvlm内をスライダーするパラメータセットを最小化し,オブジェクトローカライズ機能をアンロックする。
我々のPINモジュールは、新しい出力ヘッドを必要とせずに、合成データに対する単純な次点予測タスクで訓練されている。
実験では,Pascal VOC,COCO,LVIS,絵画や漫画などの多彩な画像に対して,ゼロショットのローカライゼーション性能を示す。
関連論文リスト
- Image-based Geo-localization for Robotics: Are Black-box Vision-Language Models there yet? [25.419763184667985]
VLM(Vision-Language Model)は、画像ジオローカライゼーションを含むロボットアプリケーションにエキサイティングな機会を提供する。
近年の研究では、VLMをジオローカライゼーションのための埋め込み抽出器として利用することに焦点を当てている。
本稿では,最先端のVLMをスタンドアローン・ゼロショット・ジオローカライズシステムとしての可能性について検討する。
論文 参考訳(メタデータ) (2025-01-28T13:46:01Z) - HoVLE: Unleashing the Power of Monolithic Vision-Language Models with Holistic Vision-Language Embedding [91.0552157725366]
本稿では,HoVLEという新しい高性能モノリシックVLMを提案する。
視覚的入力とテキスト入力を共有空間に変換し、LLMはテキストと同じ方法で画像を処理できる。
実験の結果,HoVLEは様々なベンチマークにおいて,主要な構成モデルに近い性能が得られることがわかった。
論文 参考訳(メタデータ) (2024-12-20T18:59:59Z) - Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
VLM(Vision-Language Models)は、様々な視覚タスクにまたがる顕著な能力を示す。
現在のVLMには基本的な認知能力がなく、コンテキストを考慮し、シーン内のオブジェクトをローカライズすることを学ぶ。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - Learning to Ground VLMs without Forgetting [54.033346088090674]
我々は、既存の画像や言語理解スキルを忘れずに、事前訓練されたビジュアル言語モデルに視覚的接地能力を持たせるフレームワークであるLynXを紹介する。
モデルを効果的に訓練するために、私たちはSCouTと呼ばれる高品質な合成データセットを生成します。
我々はLynXを複数のオブジェクト検出および視覚的グラウンド化データセット上で評価し、オブジェクト検出、ゼロショットローカライゼーション、グラウンドド推論において強い性能を示す。
論文 参考訳(メタデータ) (2024-10-14T13:35:47Z) - Response Wide Shut: Surprising Observations in Basic Vision Language Model Capabilities [30.176918208200604]
VLM(Vision-Language Models)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。
これらのモデルは高い能力を持つが、いくつかの基本的な視覚的理解スキルが欠けていることが示されている。
本稿では,基本的な視覚課題におけるSoTA VLMの限界を理解することを目的とする。
論文 参考訳(メタデータ) (2024-08-13T08:26:32Z) - Large Language Models Understand Layout [6.732578061359833]
大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクにおいて異常な能力を示す。
テキスト理解能力以外にも,空間マーカーで表されるテキストレイアウトをLLMで処理できることが示されている。
レイアウト理解能力は,視覚的質問応答(VQA)システム構築に有用であることを示す。
論文 参考訳(メタデータ) (2024-07-08T09:03:12Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々は、Draw-and-Understandプロジェクト、新しいモデル、マルチドメインデータセット、ビジュアルプロンプトのための挑戦的なベンチマークを紹介する。
具体的には、視覚エンコーダ、視覚プロンプトエンコーダ、LLMを接続する、エンド・ツー・エンドのマルチモーダル大規模言語モデル(MLLM)を提案する。
MLLMの視覚的プロンプト研究を進めるために,MDVP-DataとMDVP-Benchを紹介する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z) - Griffon: Spelling out All Object Locations at Any Granularity with Large Language Models [30.20915403608803]
Griffonは、大規模な視覚言語モデルのための言語プロンプトローカライゼーションデータセットである。
十分に設計されたパイプラインを通じて、エンドツーエンドでトレーニングされる。
精細なRefCOCOシリーズとFlickr30K Entitiesで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-11-24T15:35:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。