Fugu-MT 論文翻訳(概要): Advancing Vision-based Human Action Recognition: Exploring Vision-Language CLIP Model for Generalisation in Domain-Independent Tasks

論文の概要: Advancing Vision-based Human Action Recognition: Exploring Vision-Language CLIP Model for Generalisation in Domain-Independent Tasks

arxiv url: http://arxiv.org/abs/2507.18675v2
Date: Wed, 30 Jul 2025 20:14:41 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-01 13:02:07.669128
Title: Advancing Vision-based Human Action Recognition: Exploring Vision-Language CLIP Model for Generalisation in Domain-Independent Tasks
Title（参考訳）: ビジョンに基づく人間行動認識の促進:ドメインに依存しないタスクの一般化のためのビジョン言語CLIPモデルの検討
Authors: Utkarsh Shandilya, Marsha Mariya Kappan, Sanyam Jain, Vijeta Sharma,
Abstract要約: ヒトの行動認識は、患者の行動監視、転倒検出、手術ロボットの監督、手続き的スキルアセスメントなど、医療や医療において重要な役割を担っている。近年の視覚言語モデル、特にトランスフォーマーベースのCLIPモデルは、ビデオデータからアクション認識を一般化する有望な機能を提供する。
参考スコア（独自算出の注目度）: 1.0889037375410424
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Human action recognition plays a critical role in healthcare and medicine, supporting applications such as patient behavior monitoring, fall detection, surgical robot supervision, and procedural skill assessment. While traditional models like CNNs and RNNs have achieved moderate success, they often struggle to generalize across diverse and complex actions. Recent advancements in vision-language models, especially the transformer-based CLIP model, offer promising capabilities for generalizing action recognition from video data. In this work, we evaluate CLIP on the UCF-101 dataset and systematically analyze its performance under three masking strategies: (1) percentage-based and shape-based black masking at 10%, 30%, and 50%, (2) feature-specific masking to suppress bias-inducing elements, and (3) isolation masking that retains only class-specific regions. Our results reveal that CLIP exhibits inconsistent behavior and frequent misclassifications, particularly when essential visual cues are obscured. To overcome these limitations, we propose incorporating class-specific noise, learned via a custom loss function, to reinforce attention to class-defining features. This enhancement improves classification accuracy and model confidence while reducing bias. We conclude with a discussion on the challenges of applying such models in clinical domains and outline directions for future work to improve generalizability across domain-independent healthcare scenarios.
Abstract（参考訳）: ヒトの行動認識は、患者の行動監視、転倒検出、手術ロボットの監督、手続き的スキルアセスメントなど、医療や医療において重要な役割を担っている。 CNNやRNNのような伝統的なモデルは適度な成功を収めているが、多種多様な複雑なアクションを一般化するのに苦労することが多い。近年の視覚言語モデル、特にトランスフォーマーベースのCLIPモデルは、ビデオデータからアクション認識を一般化する有望な機能を提供する。本研究は,UCF-101データセット上でCLIPを評価し,(1)パーセンテージと形状に基づく黒マスクの10%,30%,50%,(2)バイアス誘発要素の抑制のための特徴特異的マスク,(3)クラス固有の領域のみを保持する分離マスクの3つのマスキング戦略により,その性能を体系的に分析する。以上の結果から,CLIPは不整合行動と頻繁な誤分類を呈し,特に本態的な視覚的手がかりが不明であった。これらの制約を克服するため、クラス定義機能に注意を向けるため、カスタム損失関数を用いて学習したクラス固有ノイズを取り入れることを提案する。この強化は、バイアスを低減しながら分類精度とモデルの信頼性を向上させる。臨床領域にそのようなモデルを適用することの課題について論じ、ドメインに依存しない医療シナリオにおける一般化性を改善するための今後の取り組みの方向性を概説する。

関連論文リスト

CauCLIP: Bridging the Sim-to-Real Gap in Surgical Video Understanding via Causality-Inspired Vision-Language Modeling [15.329483562973536]
目的のドメインデータにアクセスすることなく,外科的位相認識のためのドメイン不変表現を学習する因果性インスパイアされた視覚言語フレームワークを提案する。提案手法は,意味的構造を保ちながらドメイン固有の属性を摂動させるための周波数ベースの拡張戦略と,非因果バイアスを緩和し,因果的外科的特徴を補強する因果的抑制損失を統合する。
論文参考訳（メタデータ） (2026-02-06T11:23:17Z)
Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文参考訳（メタデータ） (2025-07-12T09:03:30Z)
Airway Skill Assessment with Spatiotemporal Attention Mechanisms Using Human Gaze [2.125763116614213]
航空管理技術は救急医療において重要であり、通常主観的評価によって評価される。本稿では,気道技能,特に気管内挿管(ETI)を評価するための機械学習アプローチを提案する。提案システムは,ヒトの視線によって誘導される注意機構を利用して,成功・失敗のETI手順の認識を高める。
論文参考訳（メタデータ） (2025-06-24T04:40:58Z)
Evaluating Vision Language Models (VLMs) for Radiology: A Comprehensive Analysis [4.803310914375717]
本研究では,3つの視覚言語基盤モデル(RAD-DINO,CheXagent,BiomedCLIP)を,放射線学タスクの微細な画像特徴を捉える能力について評価した。胸部X線写真上, 気胸, 心肥大に対する分類, セグメンテーション, 回帰作業で評価した。
論文参考訳（メタデータ） (2025-04-22T17:20:34Z)
Human Cognitive Benchmarks Reveal Foundational Visual Gaps in MLLMs [65.93003087656754]
VisFactorは、よく確立された認知心理学評価から20の視覚中心のサブテストをデジタル化するベンチマークである。 GPT、Gemini、Claude、LLaMA、Qwen、SEEDファミリーから20のフロンティアマルチモーダル言語モデル(MLLM)を評価する。最高のパフォーマンスモデルは100点中25.19点のスコアしか得られず、精神的な回転、空間的関係推論、図形の識別といったタスクに一貫して失敗する。
論文参考訳（メタデータ） (2025-02-23T04:21:32Z)
Generalizable Representation Learning for fMRI-based Neurological Disorder Identification [0.0]
正常な特徴から臨床的特徴への一般化を改善するために,新しい表現学習戦略を導入する。我々は、制御データセットの自己教師付き学習を活用して、特定の教師付きタスクに限定されない固有の特徴に焦点を当てる。その結果,多種多様な臨床関連課題における表現学習戦略の優位性を示した。
論文参考訳（メタデータ） (2024-12-16T22:07:35Z)
Fairness Evolution in Continual Learning for Medical Imaging [47.52603262576663]
本研究では、ドメイン固有の公平度指標を用いてタスク間でバイアスがどのように進化し、異なるCL戦略がこの進化にどのように影響するかを検討する。以上の結果から,擬似ラベルと擬似ラベルの学習は最適分類性能を実現するが,擬似ラベルの偏りは小さいことが示唆された。
論文参考訳（メタデータ） (2024-04-10T09:48:52Z)
Emotic Masked Autoencoder with Attention Fusion for Facial Expression Recognition [1.4374467687356276]
本稿では,MAE-Face self-supervised learning (SSL) 法と多視点融合注意機構を組み合わせた表現分類手法を提案する。我々は、重要な顔の特徴を強調表示して、そのような機能がモデルのガイドとして機能するかどうかを判断することを目的とした、実装が容易でトレーニングなしのフレームワークを提案する。 Aff-wild2データセットにおけるモデル性能の改善により,本手法の有効性が検証された。
論文参考訳（メタデータ） (2024-03-19T16:21:47Z)
Automated Detection of Myopic Maculopathy in MMAC 2023: Achievements in Classification, Segmentation, and Spherical Equivalent Prediction [6.993091116816899]
筋萎縮性黄斑変性は、病理性近視症患者の視力喪失の主要な原因である。早期発見と即時治療は、筋萎縮性黄斑症による視力障害の予防に不可欠である。これがMMAC(Myopic Maculopathy Analysis Challenge)の焦点であった。
論文参考訳（メタデータ） (2024-01-08T00:26:21Z)
Dissecting Self-Supervised Learning Methods for Surgical Computer Vision [51.370873913181605]
一般のコンピュータビジョンコミュニティでは,自己監視学習(SSL)手法が普及し始めている。医学や手術など、より複雑で影響力のある領域におけるSSLメソッドの有効性は、限定的かつ未調査のままである。外科的文脈理解,位相認識,ツール存在検出の2つの基本的なタスクに対して,これらの手法の性能をColec80データセット上で広範囲に解析する。
論文参考訳（メタデータ） (2022-07-01T14:17:11Z)
What Do You See in this Patient? Behavioral Testing of Clinical NLP Models [69.09570726777817]
本稿では,入力の変化に関する臨床結果モデルの振る舞いを評価する拡張可能なテストフレームワークを提案する。私たちは、同じデータを微調整しても、モデル行動は劇的に変化し、最高のパフォーマンスのモデルが常に最も医学的に可能なパターンを学習していないことを示しています。
論文参考訳（メタデータ） (2021-11-30T15:52:04Z)
On the Robustness of Pretraining and Self-Supervision for a Deep Learning-based Analysis of Diabetic Retinopathy [70.71457102672545]
糖尿病網膜症における訓練方法の違いによる影響を比較検討した。本稿では,定量的性能,学習した特徴表現の統計,解釈可能性,画像歪みに対する頑健性など,さまざまな側面について検討する。以上の結果から,ImageNet事前学習モデルでは,画像歪みに対する性能,一般化,堅牢性が著しく向上していることが示唆された。
論文参考訳（メタデータ） (2021-06-25T08:32:45Z)
Adversarial Feature Augmentation and Normalization for Visual Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文参考訳（メタデータ） (2021-03-22T20:36:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。