論文の概要: FocusCLIP: Multimodal Subject-Level Guidance for Zero-Shot Transfer in Human-Centric Tasks
- arxiv url: http://arxiv.org/abs/2403.06904v2
- Date: Mon, 25 Mar 2024 08:45:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 00:56:02.640228
- Title: FocusCLIP: Multimodal Subject-Level Guidance for Zero-Shot Transfer in Human-Centric Tasks
- Title(参考訳): FocusCLIP:人間中心タスクにおけるゼロショット転送のためのマルチモーダルな主観的誘導
- Authors: Muhammad Saif Ullah Khan, Muhammad Ferjad Naeem, Federico Tombari, Luc Van Gool, Didier Stricker, Muhammad Zeshan Afzal,
- Abstract要約: FocusCLIPは、人中心タスクにおけるゼロショット転送を改善するために、主題レベルのガイダンスをCLIPフレームワークに統合する。
人間中心のタスクでは、FocusCLIPはMPII Human Poseデータセットの画像でトレーニングされる。
- 参考スコア(独自算出の注目度): 89.1896982106731
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose FocusCLIP, integrating subject-level guidance--a specialized mechanism for target-specific supervision--into the CLIP framework for improved zero-shot transfer on human-centric tasks. Our novel contributions enhance CLIP on both the vision and text sides. On the vision side, we incorporate ROI heatmaps emulating human visual attention mechanisms to emphasize subject-relevant image regions. On the text side, we introduce human pose descriptions to provide rich contextual information. For human-centric tasks, FocusCLIP is trained with images from the MPII Human Pose dataset. The proposed approach surpassed CLIP by an average of 8.61% across five previously unseen datasets covering three human-centric tasks. FocusCLIP achieved an average accuracy of 33.65% compared to 25.04% by CLIP. We observed a 3.98% improvement in activity recognition, a 14.78% improvement in age classification, and a 7.06% improvement in emotion recognition. Moreover, using our proposed single-shot LLM prompting strategy, we release a high-quality MPII Pose Descriptions dataset to encourage further research in multimodal learning for human-centric tasks. Furthermore, we also demonstrate the effectiveness of our subject-level supervision on non-human-centric tasks. FocusCLIP shows a 2.47% improvement over CLIP in zero-shot bird classification using the CUB dataset. Our findings emphasize the potential of integrating subject-level guidance with general pretraining methods for enhanced downstream performance.
- Abstract(参考訳): 主観レベルのガイダンスを統合したFocusCLIPを提案する。これは、人間中心タスクにおけるゼロショット転送を改善するためのCLIPフレームワークに組み込まれた、ターゲット固有の監視のための特殊なメカニズムである。
私たちの新しいコントリビューションは、視覚とテキストの両面においてCLIPを強化します。
視力面では、人間の視覚的注意機構を模したROIヒートマップを取り入れ、被写体関連画像領域を強調する。
テキスト側では、リッチな文脈情報を提供するために、人間のポーズ記述を導入する。
人間中心のタスクでは、FocusCLIPはMPII Human Poseデータセットの画像でトレーニングされる。
提案されたアプローチは、人間中心の3つのタスクをカバーする5つの未確認データセットに対して、平均8.61%のCLIPを上回った。
FocusCLIP の平均精度は 33.65% であり、CLIP では 25.04% であった。
我々は、活動認識の3.98%、年齢分類の14.78%、感情認識の7.06%の改善を観察した。
さらに,提案したシングルショットLCMプロンプト戦略を用いて,人間中心タスクにおけるマルチモーダル学習のさらなる研究を促進するために,高品質なMPII Pose Descriptionsデータセットをリリースする。
また,非人間中心の課題に対する主観レベルの監督の効果も示す。
FocusCLIPはCLIPよりも2.47%改善している。
本研究は,ダウンストリーム性能向上のための一般事前学習手法と主観的指導を統合する可能性を強調した。
関連論文リスト
- FALIP: Visual Prompt as Foveal Attention Boosts CLIP Zero-Shot Performance [7.041364616661048]
Foveal-Attention CLIP (FALIP) は、多頭部自己注意モジュールに葉の注意マスクを挿入することにより、CLIPの注意を調節する。
FALIPは、表現理解、画像分類、3Dポイントクラウド認識などのタスクにおいて、CLIPゼロショットのパフォーマンスを効果的に向上する。
論文 参考訳(メタデータ) (2024-07-08T03:23:13Z) - SCLIP: Rethinking Self-Attention for Dense Vision-Language Inference [11.453253140479166]
セマンティックセグメンテーションにおけるコントラッシブ言語イメージ事前学習の可能性を高める。
自己注意を再考することで、CLIPは密集した予測タスクに適応できることがわかった。
従来のCLIPビジョンエンコーダの自己保持ブロックをCSAモジュールで置き換える。
論文 参考訳(メタデータ) (2023-12-04T03:18:46Z) - HAP: Structure-Aware Masked Image Modeling for Human-Centric Perception [97.55089867970874]
本稿では,この課題に対する事前学習手法として,マスク付き画像モデリング(MIM)を導入する。
この知見に触発され、人間の前部である直感的な人体構造を事前学習に組み込む。
これにより、モデルが事前トレーニング中に身体構造情報に集中し、さまざまな人間中心の知覚タスクに実質的な利益をもたらす。
論文 参考訳(メタデータ) (2023-10-31T17:56:11Z) - CLIP meets Model Zoo Experts: Pseudo-Supervision for Visual Enhancement [65.47237619200442]
Contrastive Language Image Pretraining (CLIP)は、視覚言語モデルを訓練するための標準手法である。
モデル動物園からのタスク固有の視覚モデルを用いてCLIPトレーニングを強化し、視覚的表現を改善する。
この単純なセットアップは、異なるビジョンタスク間で最大16.3%の大幅な改善を示している。
論文 参考訳(メタデータ) (2023-10-21T20:20:13Z) - CLAIR: Evaluating Image Captions with Large Language Models [69.46906537973518]
本稿では,機械生成画像のキャプション評価手法であるCLAIRを提案する。
本評価では, CLAIRは, 従来の指標と比較して, キャプション品質の人的判断と強い相関性を示した。
Clairは、言語モデルが割り当てられたスコアの背後にある根底にある推論を識別できるようにすることで、ノイズに解釈可能な結果を提供する。
論文 参考訳(メタデータ) (2023-10-19T17:59:01Z) - Boosting Visual-Language Models by Exploiting Hard Samples [126.35125029639168]
HELIPは、既存のCLIPモデルの性能を高めるための費用対効果戦略である。
我々の方法では、既存のモデルのトレーニングパイプラインと懸命に統合できます。
包括的なベンチマークでは、HELIPはパフォーマンス向上のために既存のモデルを継続的に強化する。
論文 参考訳(メタデータ) (2023-05-09T07:00:17Z) - Learning Customized Visual Models with Retrieval-Augmented Knowledge [104.05456849611895]
我々は、ターゲットドメイン用にカスタマイズされたビジュアルモデルを構築するための、関連するWeb知識を取得するためのフレームワークであるREACTを提案する。
我々は、Webスケールデータベースから最も関連性の高い画像テキストペアを外部知識として検索し、元の重みをすべて凍結しながら、新しいモジュール化されたブロックをトレーニングするだけで、モデルをカスタマイズすることを提案する。
REACTの有効性は、ゼロ、少数、フルショット設定を含む分類、検索、検出、セグメンテーションタスクに関する広範な実験を通じて実証される。
論文 参考訳(メタデータ) (2023-01-17T18:59:06Z) - CALIP: Zero-Shot Enhancement of CLIP with Parameter-free Attention [31.84299688413136]
コントラスト言語-画像事前学習は、大きな伝達性を持つ視覚表現を学習することが示されている。
既存の作業では、CLIPに新たな学習可能なモジュールを提案し、数ショットのトレーニングセットでそれらを微調整する。
本稿では,パラメータフリーアテンションモジュールを通じてCLIPのゼロショット性能を向上させるために,フリーランチ拡張手法であるCALIPを導入する。
論文 参考訳(メタデータ) (2022-09-28T15:22:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。