論文の概要: Lost in Space: Probing Fine-grained Spatial Understanding in Vision and Language Resamplers
- arxiv url: http://arxiv.org/abs/2404.13594v1
- Date: Sun, 21 Apr 2024 09:23:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 18:21:27.320462
- Title: Lost in Space: Probing Fine-grained Spatial Understanding in Vision and Language Resamplers
- Title(参考訳): 宇宙で失う:視覚と言語リサンプラーにおけるきめ細かい空間的理解
- Authors: Georgios Pantazopoulos, Alessandro Suglia, Oliver Lemon, Arash Eshghi,
- Abstract要約: 凍結した大言語モデル(LLM)とビジュアルエンコーダを組み合わせる効果的な方法は、ビジュアルプロンプトを生成するリサンプラーモジュールを含む。
我々は,リサンプラーが生成する視覚的プロンプトが空間情報をエンコードする範囲を計測する。
このことは、リサンプラーによって達成される圧縮は、原則として必要な空間情報をエンコードできることを示しているが、この能力を促進するためには、事前訓練段階でより多くのオブジェクト指向の目的が必要であることを示している。
- 参考スコア(独自算出の注目度): 45.880028719614494
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An effective method for combining frozen large language models (LLM) and visual encoders involves a resampler module that creates a `visual prompt' which is provided to the LLM, along with the textual prompt. While this approach has enabled impressive performance across many coarse-grained tasks like image captioning and visual question answering, more fine-grained tasks that require spatial understanding have not been thoroughly examined. In this paper, we use \textit{diagnostic classifiers} to measure the extent to which the visual prompt produced by the resampler encodes spatial information. Our results show that this information is largely absent from the resampler output when kept frozen during training of the classifiers. However, when the resampler and classifier are trained jointly, we observe a significant performance boost. This shows that the compression achieved by the resamplers can in principle encode the requisite spatial information, but that more object-aware objectives are needed at the pretraining stage to facilitate this capability
- Abstract(参考訳): 凍結した大言語モデル(LLM)とビジュアルエンコーダを組み合わせる効果的な方法は、テキストプロンプトとともにLLMに提供される'視覚プロンプト'を生成するリサンプラーモジュールを含む。
このアプローチは、画像キャプションや視覚的質問応答など、多くの粗いタスクにおいて印象的なパフォーマンスを実現しているが、空間的理解を必要とするよりきめ細かなタスクは、十分に検討されていない。
本稿では,リサンプラーが生成する視覚的プロンプトが空間情報をエンコードする範囲を測定するために,textit{diagnostic classifiers} を用いる。
以上の結果から,分類器の訓練中に凍結状態が保たれた場合,この情報は再サンプリング器の出力にはほとんど欠落していることが明らかとなった。
しかし,リサンプラーと分類器が共同で訓練されると,性能が著しく向上することがわかった。
これは、リサンプラーによって達成される圧縮は、原則として所要の空間情報を符号化できることを示しているが、この能力を促進するためには、事前訓練段階でより多くのオブジェクト指向の目的が必要であることを示している。
関連論文リスト
- Retrieval Replace Reduction: An effective visual token reduction method via semantic match [32.33892531885448]
textbfTRSM (textbfToken textbfReduction via textbfSemantic textbfMatch)を導入し,MLLMの性能を損なうことなく視覚トークンの数を効果的に削減する。
TRSMは、人間がマルチモーダルタスクを処理する方法に触発され、あるモダリティから意味情報を活用して、関連するセマンティクスを別のモダリティにマッチさせ、視覚トークンの数を減らす。
実験結果に基づいて,視覚的トークンを20%圧縮し,多様な視覚的質問応答タスクと推論タスクに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2024-10-09T07:13:22Z) - LLaVolta: Efficient Multi-modal Models via Stage-wise Visual Context Compression [23.966237939194514]
本稿では,視覚トークンに関する冗長性の解析と,大規模多言語モデルにおける効率的なトレーニングについて述べる。
最初の実験では、単に平均プーリングによってテスト段階で最大70%の視覚トークンを除去することは、視覚的質問応答精度の最小3%の低下にしか至らないことが示された。
トレーニング中の視覚トークンの数を削減し、パフォーマンスを犠牲にすることなく、トレーニング効率を向上させる。
論文 参考訳(メタデータ) (2024-06-28T17:57:14Z) - Where Visual Speech Meets Language: VSP-LLM Framework for Efficient and Context-Aware Visual Speech Processing [56.71450690166821]
LLM(VSP-LLM)を組み込んだビジュアル音声処理という新しいフレームワークを提案する。
VSP-LLMは、視覚音声認識と翻訳のマルチタスクを実行するように設計されている。
ラベル付きデータのたった30時間で訓練されたVSP-LLMは、唇の動きをより効果的に翻訳できることを示す。
論文 参考訳(メタデータ) (2024-02-23T07:21:32Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - SLICER: Learning universal audio representations using low-resource
self-supervised pre-training [53.06337011259031]
ラベルなし音声データに事前学習エンコーダを組み込むための自己指導型学習手法を提案する。
我々の主な目的は、多種多様な音声および非音声タスクにまたがる一般化が可能な音声表現を学習することである。
論文 参考訳(メタデータ) (2022-11-02T23:45:33Z) - Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary
Object Detection [87.39089806069707]
オープン語彙検出(VTP-OVD)のための微粒なビジュアルテキストプロンプト駆動型自己学習パラダイムを提案する。
適応段階では、学習可能なテキストプロンプトを用いて細粒度アライメントを可能とし、補助的なピクセルワイズ予測タスクを解決する。
実験の結果,COCO の未確認クラスでは,31.5% mAP など,オープン語彙オブジェクト検出の最先端性能が得られた。
論文 参考訳(メタデータ) (2022-11-02T03:38:02Z) - PromptDet: Expand Your Detector Vocabulary with Uncurated Images [47.600059694034]
この作業の目的は、ゼロマニュアルアノテーションを使用して、新しい/見えないカテゴリに向けてオブジェクト検出器を拡張するスケーラブルなパイプラインを確立することである。
本稿では,事前学習された視覚言語モデルのテキストエンコーダから生成された分類器を用いて,各ボックスの提案を分類する2段階のオープン語彙オブジェクト検出器を提案する。
より広い範囲のオブジェクトを検出するための学習手順をスケールアップするために、利用可能なオンラインリソースを活用し、プロンプトを反復的に更新し、その後、ノイズの多い未修正画像の大規模なコーパス上に生成された擬似ラベルを用いて、提案した検出器を自己学習する。
論文 参考訳(メタデータ) (2022-03-30T17:50:21Z) - OpenGAN: Open Set Generative Adversarial Networks [16.02382549750862]
本稿では,開集合 GAN アーキテクチャ (OpenGAN) を提案する。
与えられたソースイメージにセマンティックに類似したサンプルを生成することができます。
GANトレーニング分布外のクラスにおいて,OpenGANサンプルを用いてトレーニングデータを増強することにより,性能を著しく向上できることを示す。
論文 参考訳(メタデータ) (2020-03-18T07:24:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。