Fugu-MT 論文翻訳(概要): EZ-HOI: VLM Adaptation via Guided Prompt Learning for Zero-Shot HOI Detection

論文の概要: EZ-HOI: VLM Adaptation via Guided Prompt Learning for Zero-Shot HOI Detection

arxiv url: http://arxiv.org/abs/2410.23904v1
Date: Thu, 31 Oct 2024 13:06:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:42.823103
Title: EZ-HOI: VLM Adaptation via Guided Prompt Learning for Zero-Shot HOI Detection
Title（参考訳）: EZ-HOI:ゼロショットHOI検出のためのガイドプロンプト学習によるVLM適応
Authors: Qinqian Lei, Bo Wang, Robby T. Tan,
Abstract要約: 本稿では,効率的なゼロショットHOI検出(EZ-HOI)のための新しい学習フレームワークを提案する。まず、学習可能なプロンプトに対してLarge Language Model(LLM)とVLMガイダンスを導入し、詳細なHOI記述と視覚的セマンティクスを統合して、VLMをHOIタスクに適用する。我々は,既存の手法と比較して,トレーニング可能なパラメータの10.35%から33.95%しか持たない,さまざまなゼロショット設定における最先端性能を実現していることを示す。
参考スコア（独自算出の注目度）: 21.091101582856183
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Detecting Human-Object Interactions (HOI) in zero-shot settings, where models must handle unseen classes, poses significant challenges. Existing methods that rely on aligning visual encoders with large Vision-Language Models (VLMs) to tap into the extensive knowledge of VLMs, require large, computationally expensive models and encounter training difficulties. Adapting VLMs with prompt learning offers an alternative to direct alignment. However, fine-tuning on task-specific datasets often leads to overfitting to seen classes and suboptimal performance on unseen classes, due to the absence of unseen class labels. To address these challenges, we introduce a novel prompt learning-based framework for Efficient Zero-Shot HOI detection (EZ-HOI). First, we introduce Large Language Model (LLM) and VLM guidance for learnable prompts, integrating detailed HOI descriptions and visual semantics to adapt VLMs to HOI tasks. However, because training datasets contain seen-class labels alone, fine-tuning VLMs on such datasets tends to optimize learnable prompts for seen classes instead of unseen ones. Therefore, we design prompt learning for unseen classes using information from related seen classes, with LLMs utilized to highlight the differences between unseen and related seen classes. Quantitative evaluations on benchmark datasets demonstrate that our EZ-HOI achieves state-of-the-art performance across various zero-shot settings with only 10.35% to 33.95% of the trainable parameters compared to existing methods. Code is available at https://github.com/ChelsieLei/EZ-HOI.
Abstract（参考訳）: ゼロショット設定でヒューマンオブジェクトインタラクション(HOI)を検出する。ヴィジュアルエンコーダと大きなヴィジュアル・ランゲージ・モデル(VLM)を連携させてVLMの広範な知識を取り入れる既存の手法では、大規模で計算コストのかかるモデルと遭遇訓練の困難が要求される。迅速な学習によるVLMの適応は、直接アライメントの代替となる。しかし、タスク固有のデータセットの微調整は、目に見えないクラスラベルがないため、目に見えないクラスに過度に適合し、未確認のクラスに最適なパフォーマンスをもたらすことが多い。これらの課題に対処するために,Zero-Shot HOI検出(EZ-HOI)のための新しい学習フレームワークを提案する。まず、学習可能なプロンプトに対してLarge Language Model(LLM)とVLMガイダンスを導入し、詳細なHOI記述と視覚的セマンティクスを統合して、VLMをHOIタスクに適用する。しかしながら、トレーニングデータセットは、一見クラスラベルのみを含むため、このようなデータセット上の微調整VLMは、目に見えないものではなく、目に見えないクラスの学習可能なプロンプトを最適化する傾向がある。そこで,本研究では,LLMを用いて,見知らぬ授業とそれに関連する授業の差異を明らかにすることで,見知らぬ授業の素早い学習を設計する。ベンチマークデータセットの定量的評価により、EZ-HOIは、既存の手法と比較してトレーニング可能なパラメータの10.35%から33.95%しか持たない、さまざまなゼロショット設定における最先端のパフォーマンスを実現していることが示された。コードはhttps://github.com/ChelsieLei/EZ-HOIで入手できる。

関連論文リスト

Continual Learning for VLMs: A Survey and Taxonomy Beyond Forgetting [70.83781268763215]
視覚言語モデル(VLM)は、大規模事前学習を活用することで、多様なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。 VLMは、クロスモーダル機能ドリフト、共有アーキテクチャによるパラメータ干渉、ゼロショット機能侵食など、ユニークな課題に直面している。本調査は、生涯の視覚言語システムを開発する研究者にとって、包括的かつ診断的な基準となることを目的としている。
論文参考訳（メタデータ） (2025-08-06T09:03:10Z)
Prompt Tuning Vision Language Models with Margin Regularizer for Few-Shot Learning under Distribution Shifts [13.21626568246313]
視覚言語基礎モデルが、分布やクラスが全く異なるデータセットに適応できるかどうかを解析する。本稿では,少数のサンプルに対して,このような大規模VLMを直接適用するための新しいプロンプトチューニング手法であるPromptMarginを提案する。 PromptMarginは、このタスクのテキストと視覚的なプロンプトを効果的に調整し、2つのメインモジュールを持っている。
論文参考訳（メタデータ） (2025-05-21T13:26:56Z)
SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models [74.40683913645731]
Zero-shot Multi-label Recognition (MLR) with Vision-Language Models (VLMs) は、トレーニングデータ、モデルチューニング、アーキテクチャの変更なしに重要な課題に直面している。我々の研究は、VLMをブラックボックスとして扱い、トレーニングデータや地上の真実を使わずにスコアを活用する新しいソリューションを提案する。これらのプロンプトスコアの分析により、VLMバイアスとAND'/OR信号の曖昧さが明らかになり、特に、最高スコアは2番目に高いスコアに比べて驚くほど低い。
論文参考訳（メタデータ） (2025-02-24T07:15:05Z)
Active Prompt Learning with Vision-Language Model Priors [9.173468790066956]
視覚言語モデルの事前学習画像とテキストエンコーダを利用するクラス誘導クラスタリングを提案する。適応型クラスワイドしきい値に基づく予算削減型選択クエリを提案する。
論文参考訳（メタデータ） (2024-11-23T02:34:33Z)
Membership Inference Attacks against Large Vision-Language Models [40.996912464828696]
大規模視覚言語モデル(VLLM)は、様々なアプリケーションシナリオにわたるマルチモーダルタスクを処理するための有望な能力を示す。彼らの出現は、プライベート写真や医療記録などの機密情報を含む可能性があることを考えると、重要なデータセキュリティ上の懸念も引き起こす。 VLLMで不適切な使用データを検出することは、致命的かつ未解決な問題である。
論文参考訳（メタデータ） (2024-11-05T08:35:08Z)
Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2024-10-31T06:55:24Z)
Making Large Vision Language Models to be Good Few-shot Learners [11.204701216476815]
FSC(Few-shot Classification)は、コンピュータビジョンにおける基本的な課題である。 LVLMは、サポートデータから有用な情報を効果的に抽出するのではなく、特定の応答形式を学習するリスクを負う。本稿では,FSCにおけるLVLMの性能について検討し,学習不足や重度の位置バイアスの有無などの重要な問題を明らかにする。
論文参考訳（メタデータ） (2024-08-21T03:01:11Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
Why are Visually-Grounded Language Models Bad at Image Classification? [39.76294811955341]
GPT-4VやLLaVAといった視覚的言語モデル(VLM)を用いて画像分類タスクを再検討する。既存のプロプライエタリかつパブリックなVLMは、ImageNetのような標準画像分類ベンチマークにおいてCLIPを著しく上回っていることがわかった。画像分類のための重要な情報は、VLMの潜在空間に符号化されるが、十分なトレーニングデータで効果的に復号化できる。
論文参考訳（メタデータ） (2024-05-28T17:57:06Z)
VILA: On Pre-training for Visual Language Models [74.08039416548209]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文参考訳（メタデータ） (2023-12-12T18:58:18Z)
Distribution-Aware Prompt Tuning for Vision-Language Models [20.02599087680773]
プロンプトチューニングの鍵は、モデルパラメータを固定した学習可能なベクトルを介して、2つのモード間の特徴空間アライメントである。この観測に触発されて、視覚言語モデルのための分布認識プロンプトチューニング(DAPT)を提案する。 11のベンチマークデータセットに対する実験により,本手法が一般化可能性を大幅に向上することが示された。
論文参考訳（メタデータ） (2023-09-06T23:49:11Z)
Learning without Forgetting for Vision-Language Models [65.49600786387106]
CIL(Class-Incremental Learning)あるいは継続的学習(Continuous Learning)は、現実世界において望ましい能力である。 VLM(Vision-Language Models)の最近の進歩は、一般化可能な表現を学習する上で有望な能力を示している。本稿では,VLM を忘れずに学習できる ProjectiOn Fusion (PROOF) を提案する。
論文参考訳（メタデータ） (2023-05-30T17:59:32Z)
SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。 SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。 13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文参考訳（メタデータ） (2022-11-28T14:58:15Z)
Task Residual for Tuning Vision-Language Models [69.22958802711017]
タスク残差調整(TaskRes)と呼ばれる視覚言語モデル(VLM)のための新しい効率的なチューニング手法を提案する。 TaskResは、トレーニング済みモデルの事前知識とターゲットタスクに関する新たな知識を明示的に分離する。提案されたTaskResは単純だが有効であり、11のベンチマークデータセットで以前のメソッドよりも大幅に上回っている。
論文参考訳（メタデータ） (2022-11-18T15:09:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。