論文の概要: Advancing Vision-based Human Action Recognition: Exploring Vision-Language CLIP Model for Generalisation in Domain-Independent Tasks
- arxiv url: http://arxiv.org/abs/2507.18675v2
- Date: Wed, 30 Jul 2025 20:14:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 13:02:07.669128
- Title: Advancing Vision-based Human Action Recognition: Exploring Vision-Language CLIP Model for Generalisation in Domain-Independent Tasks
- Title(参考訳): ビジョンに基づく人間行動認識の促進:ドメインに依存しないタスクの一般化のためのビジョン言語CLIPモデルの検討
- Authors: Utkarsh Shandilya, Marsha Mariya Kappan, Sanyam Jain, Vijeta Sharma,
- Abstract要約: ヒトの行動認識は、患者の行動監視、転倒検出、手術ロボットの監督、手続き的スキルアセスメントなど、医療や医療において重要な役割を担っている。
近年の視覚言語モデル、特にトランスフォーマーベースのCLIPモデルは、ビデオデータからアクション認識を一般化する有望な機能を提供する。
- 参考スコア(独自算出の注目度): 1.0889037375410424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human action recognition plays a critical role in healthcare and medicine, supporting applications such as patient behavior monitoring, fall detection, surgical robot supervision, and procedural skill assessment. While traditional models like CNNs and RNNs have achieved moderate success, they often struggle to generalize across diverse and complex actions. Recent advancements in vision-language models, especially the transformer-based CLIP model, offer promising capabilities for generalizing action recognition from video data. In this work, we evaluate CLIP on the UCF-101 dataset and systematically analyze its performance under three masking strategies: (1) percentage-based and shape-based black masking at 10%, 30%, and 50%, (2) feature-specific masking to suppress bias-inducing elements, and (3) isolation masking that retains only class-specific regions. Our results reveal that CLIP exhibits inconsistent behavior and frequent misclassifications, particularly when essential visual cues are obscured. To overcome these limitations, we propose incorporating class-specific noise, learned via a custom loss function, to reinforce attention to class-defining features. This enhancement improves classification accuracy and model confidence while reducing bias. We conclude with a discussion on the challenges of applying such models in clinical domains and outline directions for future work to improve generalizability across domain-independent healthcare scenarios.
- Abstract(参考訳): ヒトの行動認識は、患者の行動監視、転倒検出、手術ロボットの監督、手続き的スキルアセスメントなど、医療や医療において重要な役割を担っている。
CNNやRNNのような伝統的なモデルは適度な成功を収めているが、多種多様な複雑なアクションを一般化するのに苦労することが多い。
近年の視覚言語モデル、特にトランスフォーマーベースのCLIPモデルは、ビデオデータからアクション認識を一般化する有望な機能を提供する。
本研究は,UCF-101データセット上でCLIPを評価し,(1)パーセンテージと形状に基づく黒マスクの10%,30%,50%,(2)バイアス誘発要素の抑制のための特徴特異的マスク,(3)クラス固有の領域のみを保持する分離マスクの3つのマスキング戦略により,その性能を体系的に分析する。
以上の結果から,CLIPは不整合行動と頻繁な誤分類を呈し,特に本態的な視覚的手がかりが不明であった。
これらの制約を克服するため、クラス定義機能に注意を向けるため、カスタム損失関数を用いて学習したクラス固有ノイズを取り入れることを提案する。
この強化は、バイアスを低減しながら分類精度とモデルの信頼性を向上させる。
臨床領域にそのようなモデルを適用することの課題について論じ、ドメインに依存しない医療シナリオにおける一般化性を改善するための今後の取り組みの方向性を概説する。
関連論文リスト
- Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。
我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-12T09:03:30Z) - Generalizable Representation Learning for fMRI-based Neurological Disorder Identification [0.0]
正常な特徴から臨床的特徴への一般化を改善するために,新しい表現学習戦略を導入する。
我々は、制御データセットの自己教師付き学習を活用して、特定の教師付きタスクに限定されない固有の特徴に焦点を当てる。
その結果,多種多様な臨床関連課題における表現学習戦略の優位性を示した。
論文 参考訳(メタデータ) (2024-12-16T22:07:35Z) - Fairness Evolution in Continual Learning for Medical Imaging [47.52603262576663]
本研究では、ドメイン固有の公平度指標を用いてタスク間でバイアスがどのように進化し、異なるCL戦略がこの進化にどのように影響するかを検討する。
以上の結果から,擬似ラベルと擬似ラベルの学習は最適分類性能を実現するが,擬似ラベルの偏りは小さいことが示唆された。
論文 参考訳(メタデータ) (2024-04-10T09:48:52Z) - Emotic Masked Autoencoder with Attention Fusion for Facial Expression Recognition [1.4374467687356276]
本稿では,MAE-Face self-supervised learning (SSL) 法と多視点融合注意機構を組み合わせた表現分類手法を提案する。
我々は、重要な顔の特徴を強調表示して、そのような機能がモデルのガイドとして機能するかどうかを判断することを目的とした、実装が容易でトレーニングなしのフレームワークを提案する。
Aff-wild2データセットにおけるモデル性能の改善により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-03-19T16:21:47Z) - Automated Detection of Myopic Maculopathy in MMAC 2023: Achievements in
Classification, Segmentation, and Spherical Equivalent Prediction [6.993091116816899]
筋萎縮性黄斑変性は、病理性近視症患者の視力喪失の主要な原因である。
早期発見と即時治療は、筋萎縮性黄斑症による視力障害の予防に不可欠である。
これがMMAC(Myopic Maculopathy Analysis Challenge)の焦点であった。
論文 参考訳(メタデータ) (2024-01-08T00:26:21Z) - Dissecting Self-Supervised Learning Methods for Surgical Computer Vision [51.370873913181605]
一般のコンピュータビジョンコミュニティでは,自己監視学習(SSL)手法が普及し始めている。
医学や手術など、より複雑で影響力のある領域におけるSSLメソッドの有効性は、限定的かつ未調査のままである。
外科的文脈理解,位相認識,ツール存在検出の2つの基本的なタスクに対して,これらの手法の性能をColec80データセット上で広範囲に解析する。
論文 参考訳(メタデータ) (2022-07-01T14:17:11Z) - On the Robustness of Pretraining and Self-Supervision for a Deep
Learning-based Analysis of Diabetic Retinopathy [70.71457102672545]
糖尿病網膜症における訓練方法の違いによる影響を比較検討した。
本稿では,定量的性能,学習した特徴表現の統計,解釈可能性,画像歪みに対する頑健性など,さまざまな側面について検討する。
以上の結果から,ImageNet事前学習モデルでは,画像歪みに対する性能,一般化,堅牢性が著しく向上していることが示唆された。
論文 参考訳(メタデータ) (2021-06-25T08:32:45Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。