論文の概要: QueryAdapter: Rapid Adaptation of Vision-Language Models in Response to Natural Language Queries
- arxiv url: http://arxiv.org/abs/2502.18735v1
- Date: Wed, 26 Feb 2025 01:07:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 14:56:37.522125
- Title: QueryAdapter: Rapid Adaptation of Vision-Language Models in Response to Natural Language Queries
- Title(参考訳): QueryAdapter: 自然言語クエリに対する視覚言語モデルの迅速な適応
- Authors: Nicolas Harvey Chapman, Feras Dayoub, Will Browne, Christopher Lehnert,
- Abstract要約: 本稿では,学習済みのVLMを自然言語クエリに迅速に適応する新しいフレームワークを提案する。
VLMの機能をクエリに関連するセマンティッククラスと整合させるために、前回のデプロイメントで収集された不正なデータを使用します。
また、実際のデータを適応するために使用する場合、クエリと無関係なオブジェクトをどのように扱うべきかについても検討する。
- 参考スコア(独自算出の注目度): 2.306164598536725
- License:
- Abstract: A domain shift exists between the large-scale, internet data used to train a Vision-Language Model (VLM) and the raw image streams collected by a robot. Existing adaptation strategies require the definition of a closed-set of classes, which is impractical for a robot that must respond to diverse natural language queries. In response, we present QueryAdapter; a novel framework for rapidly adapting a pre-trained VLM in response to a natural language query. QueryAdapter leverages unlabelled data collected during previous deployments to align VLM features with semantic classes related to the query. By optimising learnable prompt tokens and actively selecting objects for training, an adapted model can be produced in a matter of minutes. We also explore how objects unrelated to the query should be dealt with when using real-world data for adaptation. In turn, we propose the use of object captions as negative class labels, helping to produce better calibrated confidence scores during adaptation. Extensive experiments on ScanNet++ demonstrate that QueryAdapter significantly enhances object retrieval performance compared to state-of-the-art unsupervised VLM adapters and 3D scene graph methods. Furthermore, the approach exhibits robust generalization to abstract affordance queries and other datasets, such as Ego4D.
- Abstract(参考訳): VLM(Vision-Language Model)のトレーニングに使用される大規模なインターネットデータと、ロボットが収集した生画像ストリームとの間には、ドメインシフトが存在する。
既存の適応戦略では、クラスをクローズドに定義する必要があるが、これは様々な自然言語クエリに対応しなければならないロボットにとって現実的ではない。
本稿では,自然言語クエリに応答して,事前学習されたVLMを迅速に適応する新しいフレームワークであるQueryAdapterを提案する。
QueryAdapterは、以前のデプロイメント中に収集された不正なデータを活用して、VLM機能をクエリに関連するセマンティッククラスと整合させる。
学習可能なプロンプトトークンを最適化し、トレーニング対象を積極的に選択することにより、適応されたモデルを数分で作成することができる。
また、実際のデータを適応するために使用する場合、クエリと無関係なオブジェクトをどのように扱うべきかについても検討する。
そこで我々は,オブジェクトキャプションを負のクラスラベルとして用いることを提案する。
ScanNet++の大規模な実験により、QueryAdapterは最先端の教師なしVLMアダプタや3Dシーングラフ手法と比較して、オブジェクト検索性能を大幅に向上することが示された。
さらに、このアプローチは、抽象的な空きクエリや、Ego4Dのような他のデータセットに対する堅牢な一般化を示す。
関連論文リスト
- Dynamic Adapter with Semantics Disentangling for Cross-lingual Cross-modal Retrieval [21.982906171156888]
言語間のクロスモーダル検索は、視覚と低リソース言語(ターゲット言語)を人間ラベルのターゲット言語データを用いることなく調整することを目的としている。
入力キャプションの特性に基づいてパラメータを動的に生成するDASD(Dynamic Adapter with Semantics Disentangling)を提案する。
論文 参考訳(メタデータ) (2024-12-18T05:19:09Z) - Large Vision-Language Models for Remote Sensing Visual Question Answering [0.0]
リモートセンシング視覚質問回答(RSVQA)は、複雑な衛星画像の自然言語質問への答えを解釈する難しいタスクである。
伝統的なアプローチは、しばしば別々の視覚特徴抽出器と言語処理モデルに依存しており、計算集約的で、オープンエンドの質問を扱う能力に制限がある。
RSVQAプロセスの合理化にLVLM(Large Vision-Language Model)を用いた新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-16T18:32:38Z) - Aggregate-and-Adapt Natural Language Prompts for Downstream Generalization of CLIP [24.22470408549266]
Aggregate-and-Adapted Prompt Embedding (AAPE) としての即時埋め込み
AAPEは、視覚言語理解タスクを含む、さまざまな下流データ分散とタスクに一般化できることが示されている。
また、AAPEは非標準およびOOD例の処理に特に有用であることを示す。
論文 参考訳(メタデータ) (2024-10-31T07:41:13Z) - SocialGPT: Prompting LLMs for Social Relation Reasoning via Greedy Segment Optimization [70.11167263638562]
社会的関係推論は、友人、配偶者、同僚などの関係カテゴリを画像から識別することを目的としている。
まず、VFM(Vision Foundation Models)の知覚能力と、モジュラーフレームワーク内でのLLM(Large Language Models)の推論能力を組み合わせた、シンプルだが巧妙な名前のフレームワークを提示する。
論文 参考訳(メタデータ) (2024-10-28T18:10:26Z) - GQE: Generalized Query Expansion for Enhanced Text-Video Retrieval [56.610806615527885]
本稿では,テキストとビデオ間の固有情報不均衡に対処するため,新しいデータ中心型アプローチであるGeneralized Query Expansion (GQE)を提案する。
ビデオをショートクリップにアダプティブに分割し、ゼロショットキャプションを採用することで、GQEはトレーニングデータセットを総合的なシーン記述で強化する。
GQEは、MSR-VTT、MSVD、SMDC、VATEXなど、いくつかのベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-08-14T01:24:09Z) - Improving Retrieval-augmented Text-to-SQL with AST-based Ranking and Schema Pruning [10.731045939849125]
本稿では,テキストからセマンティックへの解析に注目する。
商用データベースのスキーマのサイズとビジネスインテリジェンスソリューションのデプロイ可能性に関する課題から,入力データベース情報を動的に取得する $textASTReS$ を提案する。
論文 参考訳(メタデータ) (2024-07-03T15:55:14Z) - UQE: A Query Engine for Unstructured Databases [71.49289088592842]
構造化されていないデータ分析を可能にするために,大規模言語モデルの可能性を検討する。
本稿では,非構造化データ収集からの洞察を直接問合せ,抽出するUniversal Query Engine (UQE)を提案する。
論文 参考訳(メタデータ) (2024-06-23T06:58:55Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - VLT: Vision-Language Transformer and Query Generation for Referring
Segmentation [31.051579752237746]
マルチモーダル情報間のディープインタラクションを容易にするために,セグメンテーションを参照するためのフレームワークを提案する。
我々は,同じ対象対象に対して異なる表現の特徴を狭めるために,マスク付きコントラスト学習を導入する。
提案手法は軽量で,5つのデータセットに対して一貫した,最先端の参照セグメンテーション結果を実現する。
論文 参考訳(メタデータ) (2022-10-28T03:36:07Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - Query Resolution for Conversational Search with Limited Supervision [63.131221660019776]
本稿では,双方向トランスフォーマに基づくニューラルクエリ解決モデルQuReTeCを提案する。
我々はQuReTeCが最先端モデルより優れており、また、QuReTeCのトレーニングに必要な人為的なデータ量を大幅に削減するために、我々の遠隔監視手法が有効であることを示す。
論文 参考訳(メタデータ) (2020-05-24T11:37:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。