論文の概要: PIN: Positional Insert Unlocks Object Localisation Abilities in VLMs
- arxiv url: http://arxiv.org/abs/2402.08657v1
- Date: Tue, 13 Feb 2024 18:39:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 14:02:29.829289
- Title: PIN: Positional Insert Unlocks Object Localisation Abilities in VLMs
- Title(参考訳): PIN: 位置インサートがVLMのオブジェクトローカライゼーション能力をアンロック
- Authors: Michael Dorkenwald, Nimrod Barazani, Cees G. M. Snoek, Yuki M. Asano
- Abstract要約: VLM(Vision-Language Models)は、大きな言語モデルと視覚システムを統合することで、大きな可能性を秘めている。
これらのモデルは、主にキャプションを含むマルチモーダルデータに対するトレーニングのため、オブジェクトローカライゼーションの基本的なコンピュータビジョンタスクにおいて課題に直面している。
本稿では,空間的プロンプトであるPIN(Input-Agnostic Positional Insert)を導入する。
我々のPINモジュールは、新しい出力ヘッドを必要とせずに、合成データに対する単純な次トーケン予測タスクで訓練されている。
- 参考スコア(独自算出の注目度): 55.8550939439138
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Vision-Language Models (VLMs), such as Flamingo and GPT-4V, have shown
immense potential by integrating large language models with vision systems.
Nevertheless, these models face challenges in the fundamental computer vision
task of object localisation, due to their training on multimodal data
containing mostly captions without explicit spatial grounding. While it is
possible to construct custom, supervised training pipelines with bounding box
annotations that integrate with VLMs, these result in specialized and
hard-to-scale models. In this paper, we aim to explore the limits of
caption-based VLMs and instead propose to tackle the challenge in a simpler
manner by i) keeping the weights of a caption-based VLM frozen and ii) not
using any supervised detection data. To this end, we introduce an
input-agnostic Positional Insert (PIN), a learnable spatial prompt, containing
a minimal set of parameters that are slid inside the frozen VLM, unlocking
object localisation capabilities. Our PIN module is trained with a simple
next-token prediction task on synthetic data without requiring the introduction
of new output heads. Our experiments demonstrate strong zero-shot localisation
performances on a variety of images, including Pascal VOC, COCO, LVIS, and
diverse images like paintings or cartoons.
- Abstract(参考訳): Flamingo や GPT-4V のような視覚言語モデル (VLM) は、大きな言語モデルと視覚システムを統合することで大きな可能性を示している。
にもかかわらず、これらのモデルは、空間的接地を明示しないキャプションを含むマルチモーダルデータに対する訓練のため、オブジェクトローカライゼーションの基本的なコンピュータビジョンタスクにおいて課題に直面している。
VLMと統合するバウンディングボックスアノテーションで、カスタムで教師付きトレーニングパイプラインを構築することができるが、これらは専門的でスケールの難しいモデルをもたらす。
本稿では,字幕ベースのVLMの限界を探究し,より簡単な方法で課題に取り組むことを提案する。
一 字幕ベースのVLMの重量を凍結して保つこと。
二 監視された検出データを使用しないこと。
この目的のために,入力非依存な位置挿入(pin)と学習可能な空間プロンプトを導入し,凍結したvlm内をスライダーするパラメータセットを最小化し,オブジェクトローカライズ機能をアンロックする。
我々のPINモジュールは、新しい出力ヘッドを必要とせずに、合成データに対する単純な次点予測タスクで訓練されている。
実験では,Pascal VOC,COCO,LVIS,絵画や漫画などの多彩な画像に対して,ゼロショットのローカライゼーション性能を示す。
関連論文リスト
- Slot-VLM: SlowFast Slots for Video-Language Modeling [39.474247695753725]
ビデオ言語モデル(VLM)は,大規模言語モデル(LLM)の進歩によって実現される
本研究では,意味的に分解されたビデオトークンを生成するための新しいフレームワークであるSlot-VLMを紹介する。
Slot-VLMの有効性を実験的に検証し,ビデオ質問応答における最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-20T15:30:09Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - Griffon: Spelling out All Object Locations at Any Granularity with Large
Language Models [32.01009756533755]
現在のLVLM(Large Vision Language Models)は、主に1つの既存のオブジェクトに制約されている。
本稿では,LVLMの能力を完全に解き放つために,新しい言語プロンプト型ローカライゼーションデータセットを提案する。
$textbfGriffon$は、粒度の細かいRefCOCOシリーズで最先端のパフォーマンスを達成する。
また、検出ベンチマークのMSCOCOにおいて、エキスパートモデルであるFaster RCNNの機能にもアプローチする。
論文 参考訳(メタデータ) (2023-11-24T15:35:07Z) - Learning Discriminative Features for Crowd Counting [1.3597551064547502]
群集カウントのための学習識別機能フレームワークを提案する。
このフレームワークは、マスク付き特徴予測モジュールと、教師付き画素レベルのコントラスト学習モジュールとから構成される。
提案したモジュールは、クラウドカウントやオブジェクト検出など、様々なコンピュータビジョンタスクにおいて有用である。
論文 参考訳(メタデータ) (2023-11-08T07:54:20Z) - Adapting Pre-trained Language Models to Vision-Language Tasks via
Dynamic Visual Prompting [83.21164539349273]
事前学習型言語モデル (PLM) はマルチメディア研究においてその役割を担っている。
本稿では,視覚言語推論タスクのスタンドアロンモデルとしてのPLMの探索に焦点をあてる。
ダイナミックビジュアル・プロンプティング(DVP)と呼ばれるPLMのための新しいトランスファー学習手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T07:19:28Z) - GeoVLN: Learning Geometry-Enhanced Visual Representation with Slot
Attention for Vision-and-Language Navigation [52.65506307440127]
我々は,ロバストなビジュアル・アンド・ランゲージナビゲーションのためのスロットアテンションに基づく幾何学的視覚表現を学習するGeoVLNを提案する。
我々はV&L BERTを用いて言語情報と視覚情報の両方を組み込んだクロスモーダル表現を学習する。
論文 参考訳(メタデータ) (2023-05-26T17:15:22Z) - Incorporating Structured Representations into Pretrained Vision &
Language Models Using Scene Graphs [79.64891686479213]
シーングラフ(SG)から学習する場合、視覚と言語モデル(VLM)を改善することができることを示す。
視覚面では、SG情報を予測するために訓練されたイメージトランスフォーマーに特別な「SG成分」を組み込む一方、テキスト側では、SGを使ってきめ細かなキャプションを生成する。
提案手法は,ZS能力を軽度に低下させるだけで,複数のデータセット上でのVLMの性能を向上する。
論文 参考訳(メタデータ) (2023-05-10T17:52:26Z) - PEVL: Position-enhanced Pre-training and Prompt Tuning for
Vision-language Models [127.17675443137064]
PEVLを導入し、明示的なオブジェクト位置モデリングによる視覚言語モデルの事前学習と迅速なチューニングを促進する。
PEVLは、統一言語モデリングフレームワークにおいて、離散化されたオブジェクトの位置と言語を再構成する。
PEVLは,表現理解や句の接頭など,位置感性のあるタスクに対して,最先端のパフォーマンスを実現することができることを示す。
論文 参考訳(メタデータ) (2022-05-23T10:17:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。