論文の概要: Leveraging Vision-Language Pre-training for Human Activity Recognition in Still Images
- arxiv url: http://arxiv.org/abs/2506.13458v1
- Date: Mon, 16 Jun 2025 13:15:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:48.489855
- Title: Leveraging Vision-Language Pre-training for Human Activity Recognition in Still Images
- Title(参考訳): 静止画像における人間の行動認識のための視覚言語事前学習の活用
- Authors: Cristina Mahanta, Gagan Bhatia,
- Abstract要約: 285枚のMSCOCO画像から、歩いたり走ったり、座ったり、立っていたりすると、CNNのスクラッチ精度は41%だった。
微調整のマルチモーダルCLIPは、これを76%に引き上げ、対照的に視覚言語による事前トレーニングは、現実世界のデプロイメントにおける静止画像のアクション認識を決定的に改善することを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recognising human activity in a single photo enables indexing, safety and assistive applications, yet lacks motion cues. Using 285 MSCOCO images labelled as walking, running, sitting, and standing, scratch CNNs scored 41% accuracy. Fine-tuning multimodal CLIP raised this to 76%, demonstrating that contrastive vision-language pre-training decisively improves still-image action recognition in real-world deployments.
- Abstract(参考訳): 1枚の写真で人間の活動を認識することで、索引付け、安全、補助的なアプリケーションが可能になるが、動きの手がかりが欠けている。
285枚のMSCOCO画像から、歩いたり走ったり、座ったり、立っていたりすると、CNNのスクラッチ精度は41%だった。
微調整のマルチモーダルCLIPは、これを76%に引き上げ、対照的に視覚言語による事前トレーニングは、現実世界のデプロイメントにおける静止画像のアクション認識を決定的に改善することを示した。
関連論文リスト
- Efficient Medical Vision-Language Alignment Through Adapting Masked Vision Models [29.571937393873444]
クロスモーダル・コントラッシブ・ラーニング (CLIP) 法は, 準最適視覚表現能力に悩まされる。
トレーニング可能なパラメータの約8%しか利用できない効率的な視覚言語アライメント手法であるALTA(Align Through Adapting)を提案する。
ALTAは、マスク付きレコードモデリングから事前学習された視覚モデルを適用することにより、検索やゼロショット分類などの視覚言語マッチングタスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2025-06-10T17:02:27Z) - Real-Time Blind Defocus Deblurring for Earth Observation: The IMAGIN-e Mission Approach [55.2480439325792]
この研究は、ISSのIMAGIN-eミッションの地球観測画像の機械的デフォーカスに対処する。
提案手法は,Sentinel-2データを用いてデフォーカスカーネルを推定し,GANフレームワーク内で復元モデルをトレーニングする。
このアプローチは現在、IMAGIN-eミッションで展開されており、運用宇宙環境における実用性を実証している。
論文 参考訳(メタデータ) (2025-05-28T08:52:38Z) - UNIT: Unifying Image and Text Recognition in One Vision Encoder [51.140564856352825]
UNITは、単一のモデル内で画像とテキストの認識を統一することを目的とした、新しいトレーニングフレームワークである。
文書関連タスクにおいて,UNITが既存の手法を著しく上回ることを示す。
注目すべきなのは、UNITはオリジナルのビジョンエンコーダアーキテクチャを保持しており、推論とデプロイメントの点で費用がかからないことだ。
論文 参考訳(メタデータ) (2024-09-06T08:02:43Z) - mc-BEiT: Multi-choice Discretization for Image BERT Pre-training [52.04866462439979]
Image BERT pre-training with masked image modeling (MIM)は、自己教師付き表現学習に対処する一般的な実践である。
改良されたBERTスタイルの画像事前学習手法であるmc-BEiTを導入する。
論文 参考訳(メタデータ) (2022-03-29T09:08:18Z) - MVP: Multimodality-guided Visual Pre-training [215.11351064601303]
マスク付き画像モデリング(MIM)は,視覚前訓練において有望な方向となっている。
本稿では、他のモダリティからのガイダンスを導入し、このような付加的な知識が視覚前訓練に顕著な効果をもたらすことを検証する。
提案手法はMultimodality-guided Visual Pre-training (MVP) と名付けられ,トークン化ツールをCLIPのビジョンブランチに置き換える。
論文 参考訳(メタデータ) (2022-03-10T06:11:20Z) - Attend and Guide (AG-Net): A Keypoints-driven Attention-based Deep
Network for Image Recognition [13.230646408771868]
本稿では,新しいアテンション機構を用いて,きめ細かい変化をリンクする意味のある特徴を学習するエンド・ツー・エンドCNNモデルを提案する。
意味領域(SR)とその空間分布を識別することで画像内の空間構造をキャプチャし、画像の微妙な変化をモデル化する鍵であることが証明された。
このフレームワークは6つの多様なベンチマークデータセットで評価される。
論文 参考訳(メタデータ) (2021-10-23T09:43:36Z) - VOLO: Vision Outlooker for Visual Recognition [148.12522298731807]
視覚変換器 (ViT) はイメージネット分類において自己注意に基づくモデルの可能性を示している。
我々は、新しい展望の展望を導入し、VoLO(Vision Outlooker)と呼ばれる、シンプルで一般的なアーキテクチャを提示する。
グローバルな依存性モデリングを粗いレベルで重視する自己注意とは異なり、展望はより詳細な機能やコンテキストをトークンに効率的にエンコードする。
実験の結果、私たちのVOLOはImageNet-1K分類で87.1%のトップ1の精度を達成しており、これはこの競合ベンチマークで87%以上の精度で最初のモデルである。
論文 参考訳(メタデータ) (2021-06-24T15:46:54Z) - Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks [207.52609682812147]
そこで我々は,Oscar (Object-Semantics Aligned Pre-training) という新しい学習手法を提案する。
画像で検出されたオブジェクトタグをアンカーポイントとして使用することで、アライメントの学習を大幅に容易にする。
我々は、650万のテキストイメージ対のパブリックコーパスでオスカーモデルを事前訓練し、下流のタスクで微調整する。
論文 参考訳(メタデータ) (2020-04-13T19:18:10Z) - Ensembles of Deep Neural Networks for Action Recognition in Still Images [3.7900158137749336]
本稿では,大量のラベル付き行動認識データセットの欠如に対処するための伝達学習手法を提案する。
フレームワークには8つのトレーニング済みのCNNも使用して、Stanford 40データセットのパフォーマンスを調査しています。
我々の手法の最良の設定は、スタンフォード40データセットで93.17$%の精度を達成することができる。
論文 参考訳(メタデータ) (2020-03-22T13:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。