論文の概要: FocusCLIP: Multimodal Subject-Level Guidance for Zero-Shot Transfer in
Human-Centric Tasks
- arxiv url: http://arxiv.org/abs/2403.06904v1
- Date: Mon, 11 Mar 2024 16:56:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 18:05:58.556193
- Title: FocusCLIP: Multimodal Subject-Level Guidance for Zero-Shot Transfer in
Human-Centric Tasks
- Title(参考訳): FocusCLIP:人間中心タスクにおけるゼロショット転送のためのマルチモーダルな主観的誘導
- Authors: Muhammad Saif Ullah Khan, Muhammad Ferjad Naeem, Federico Tombari, Luc
Van Gool, Didier Stricker and Muhammad Zeshan Afzal
- Abstract要約: FocusCLIPは、人中心タスクにおけるゼロショット転送を改善するために、主題レベルのガイダンスをCLIPフレームワークに統合する。
人間中心のタスクでは、FocusCLIPはMPII Human Poseデータセットの画像でトレーニングされる。
- 参考スコア(独自算出の注目度): 94.50681532280227
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose FocusCLIP, integrating subject-level guidance--a specialized
mechanism for target-specific supervision--into the CLIP framework for improved
zero-shot transfer on human-centric tasks. Our novel contributions enhance CLIP
on both the vision and text sides. On the vision side, we incorporate ROI
heatmaps emulating human visual attention mechanisms to emphasize
subject-relevant image regions. On the text side, we introduce human pose
descriptions to provide rich contextual information. For human-centric tasks,
FocusCLIP is trained with images from the MPII Human Pose dataset. The proposed
approach surpassed CLIP by an average of 8.61% across five previously unseen
datasets covering three human-centric tasks. FocusCLIP achieved an average
accuracy of 33.65% compared to 25.04% by CLIP. We observed a 3.98% improvement
in activity recognition, a 14.78% improvement in age classification, and a
7.06% improvement in emotion recognition. Moreover, using our proposed
single-shot LLM prompting strategy, we release a high-quality MPII Pose
Descriptions dataset to encourage further research in multimodal learning for
human-centric tasks. Furthermore, we also demonstrate the effectiveness of our
subject-level supervision on non-human-centric tasks. FocusCLIP shows a 2.47%
improvement over CLIP in zero-shot bird classification using the CUB dataset.
Our findings emphasize the potential of integrating subject-level guidance with
general pretraining methods for enhanced downstream performance.
- Abstract(参考訳): 主観レベルのガイダンスを統合したFocusCLIPを提案する。これは、人間中心タスクにおけるゼロショット転送を改善するためのCLIPフレームワークに組み込まれた、ターゲット固有の監視のための特殊なメカニズムである。
私たちの新しいコントリビューションは、視覚とテキストの両面でCLIPを強化します。
視覚面では,人間の視覚注意機構を模倣したroiヒートマップを取り入れ,被写体関連画像領域を強調する。
テキスト側では、人間のポーズ記述を導入し、豊かな文脈情報を提供する。
人間中心のタスクでは、FocusCLIPはMPII Human Poseデータセットの画像でトレーニングされる。
提案手法は、3つの人間中心のタスクをカバーする5つのデータセットで平均8.61%のクリップを上回った。
FocusCLIPの平均精度は33.65%、CLIPは25.04%だった。
我々は、活動認識の3.98%、年齢分類の14.78%、感情認識の7.06%の改善を観察した。
さらに,提案する単発llmプロンプト戦略を用いて,高品質mpiiポーズ記述データセットをリリースし,人間中心タスクにおけるマルチモーダル学習のさらなる研究を促す。
さらに,人間中心でないタスクに対する課題レベルの監督の有効性を示す。
FocusCLIPはCLIPよりも2.47%改善している。
本研究は,ダウンストリーム性能向上のための一般事前学習手法と主観的指導を統合する可能性を強調した。
関連論文リスト
- OCT-SelfNet: A Self-Supervised Framework with Multi-Modal Datasets for
Generalized and Robust Retinal Disease Detection [2.3349787245442966]
本研究は、眼疾患を検出するための自己教師付き堅牢な機械学習フレームワークであるOCT-SelfNetに貢献する。
本手法は,自己指導型事前学習と教師型微調整を組み合わせた2段階学習手法を用いてこの問題に対処する。
AUC-PR測定では,提案手法は42%を超え,ベースラインに比べて10%以上の性能向上を示した。
論文 参考訳(メタデータ) (2024-01-22T20:17:14Z) - SCLIP: Rethinking Self-Attention for Dense Vision-Language Inference [12.872308743619403]
セマンティックセグメンテーションにおけるコントラッシブ言語イメージ事前学習の可能性を高める。
自己注意を再考することで、CLIPは密集した予測タスクに適応できることがわかった。
従来のCLIPビジョンエンコーダの自己保持ブロックをCSAモジュールで置き換える。
論文 参考訳(メタデータ) (2023-12-04T03:18:46Z) - HAP: Structure-Aware Masked Image Modeling for Human-Centric Perception [97.55089867970874]
本稿では,この課題に対する事前学習手法として,マスク付き画像モデリング(MIM)を導入する。
この知見に触発され、人間の前部である直感的な人体構造を事前学習に組み込む。
これにより、モデルが事前トレーニング中に身体構造情報に集中し、さまざまな人間中心の知覚タスクに実質的な利益をもたらす。
論文 参考訳(メタデータ) (2023-10-31T17:56:11Z) - CLIP-based Synergistic Knowledge Transfer for Text-based Person
Retrieval [66.93563107820687]
個人検索(TPR)のためのCLIPベースのSynergistic Knowledge Transfer(CSKT)アプローチを提案する。
入力側でCLIPの知識を探索するために、まず、テキスト・ツー・イメージと画像・ツー・テキストの双方向プロンプトと結合プロンプトによって構築された双方向プロンプト転送(BPT)モジュールを提案する。
CSKTは、トレーニングパラメータがモデル全体の7.4%を占めるだけで、3つのベンチマークデータセットで最先端のアプローチを上回っている。
論文 参考訳(メタデータ) (2023-09-18T05:38:49Z) - Exploiting CLIP for Zero-shot HOI Detection Requires Knowledge
Distillation at Multiple Levels [52.50670006414656]
大規模事前学習型視覚言語モデルであるCLIPを,多段階の知識蒸留に利用した。
私たちのモデルをトレーニングするために、CLIPを使用して、グローバルイメージとローカルユニオン領域の両方のHOIスコアを生成する。
このモデルは、完全な教師付きおよび弱い教師付き手法に匹敵する強力な性能を達成する。
論文 参考訳(メタデータ) (2023-09-10T16:27:54Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - CALIP: Zero-Shot Enhancement of CLIP with Parameter-free Attention [31.84299688413136]
コントラスト言語-画像事前学習は、大きな伝達性を持つ視覚表現を学習することが示されている。
既存の作業では、CLIPに新たな学習可能なモジュールを提案し、数ショットのトレーニングセットでそれらを微調整する。
本稿では,パラメータフリーアテンションモジュールを通じてCLIPのゼロショット性能を向上させるために,フリーランチ拡張手法であるCALIPを導入する。
論文 参考訳(メタデータ) (2022-09-28T15:22:11Z) - CLIP-TD: CLIP Targeted Distillation for Vision-Language Tasks [85.37552507367175]
対照的に、CLIP (Contrastive Language-image Pretraining) は、視覚と言語モダリティを統合埋め込み空間にリンクする。
本稿では,CLIP-TD (CLIP Targeted Distillation) という手法を提案する。
論文 参考訳(メタデータ) (2022-01-15T01:54:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。