論文の概要: Can Local Vision-Language Models improve Activity Recognition over Vision Transformers? -- Case Study on Newborn Resuscitation
- arxiv url: http://arxiv.org/abs/2602.12002v1
- Date: Thu, 12 Feb 2026 14:31:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.867528
- Title: Can Local Vision-Language Models improve Activity Recognition over Vision Transformers? -- Case Study on Newborn Resuscitation
- Title(参考訳): 局所視覚言語モデルは視覚変換器による活動認識を改善することができるか? -新生児の蘇生を事例として-
- Authors: Enrico Guerriero, Kjersti Engan, Øyvind Meinich-Bache,
- Abstract要約: 本研究は、新生児蘇生ビデオからの行動認識を改善するための生成AI(GenAI)手法の可能性について検討する。
我々は、ローランド適応(LoRA)を含むいくつかのゼロショットVLM戦略と分類ヘッドを用いた微調整VLMの評価を行った。
実験の結果,小さな(局所的な)VLMは幻覚に苦しむが,LoRAで微調整するとF1スコアが0.91となり,TimeSformerの0.70を上回った。
- 参考スコア(独自算出の注目度): 0.4460583138505672
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate documentation of newborn resuscitation is essential for quality improvement and adherence to clinical guidelines, yet remains underutilized in practice. Previous work using 3D-CNNs and Vision Transformers (ViT) has shown promising results in detecting key activities from newborn resuscitation videos, but also highlighted the challenges in recognizing such fine-grained activities. This work investigates the potential of generative AI (GenAI) methods to improve activity recognition from such videos. Specifically, we explore the use of local vision-language models (VLMs), combined with large language models (LLMs), and compare them to a supervised TimeSFormer baseline. Using a simulated dataset comprising 13.26 hours of newborn resuscitation videos, we evaluate several zero-shot VLM-based strategies and fine-tuned VLMs with classification heads, including Low-Rank Adaptation (LoRA). Our results suggest that small (local) VLMs struggle with hallucinations, but when fine-tuned with LoRA, the results reach F1 score at 0.91, surpassing the TimeSformer results of 0.70.
- Abstract(参考訳): 新生児蘇生の正確なドキュメンテーションは、品質改善と臨床ガイドラインの遵守に不可欠であるが、実際は未使用のままである。
3D-CNNとビジョントランスフォーマー(ViT)を用いた以前の研究は、新生児の蘇生ビデオから重要な活動を検出する上で有望な結果を示しているが、そのような細かい活動を認識する上での課題も強調している。
本研究では,このような映像からの行動認識を改善するための生成AI(GenAI)手法の可能性について検討する。
具体的には,局所視覚言語モデル (VLM) と大規模言語モデル (LLM) の併用について検討し,それらを教師付き TimeSFormer ベースラインと比較する。
生後13.26時間の再生ビデオからなるシミュレーションデータセットを用いて、ゼロショットVLMベースの戦略と、ローランド適応(LoRA)を含む分類ヘッドを用いた微調整VLMの評価を行った。
実験の結果,小さな(局所的な)VLMは幻覚に苦しむが,LoRAで微調整するとF1スコアが0.91となり,TimeSformerの0.70を上回った。
関連論文リスト
- BabyVLM-V2: Toward Developmentally Grounded Pretraining and Benchmarking of Vision Foundation Models [69.84938298826121]
本稿では,幼児に触発された視覚言語モデリングのための開発基盤となるBabyVLM-V2を紹介する。
プレトレーニングセットは、縦型乳幼児中心の聴覚コーパスのキュレーションを最小化しつつ、カバー範囲を最大化する。
DevCV Toolboxは、先日リリースされたNIH Baby Toolboxのビジョン関連のすべての指標を、10のマルチモーダルタスクのベンチマークスイートに適合させる。
論文 参考訳(メタデータ) (2025-12-11T18:57:05Z) - Unified Vision-Language-Action Model [86.68814779303429]
我々は、視覚、言語、行動信号を離散トークンシーケンスとして自動回帰モデル化する、統一的でネイティブなマルチモーダルVLAモデルUniVLAを提案する。
提案手法は, CALVIN, LIBERO, Simplenv-Bridge など, 広く使用されているシミュレーションベンチマークにまたがって, 最新の結果を設定する。
さらに、現実世界のALOHA操作と自律運転に適用可能であることを実証する。
論文 参考訳(メタデータ) (2025-06-24T17:59:57Z) - BabyVLM: Data-Efficient Pretraining of VLMs Inspired by Infant Learning [33.64851748019174]
ヒトの幼児は、最小限の入力から視覚的推論スキルを急速に発達させる。
最近の取り組みは、SAYCamのような幼児にインスパイアされたデータセットを活用している。
包括的ドメイン評価ベンチマークと合成トレーニングデータセットからなる新しいフレームワークであるBabyVLMを提案する。
論文 参考訳(メタデータ) (2025-04-13T04:17:12Z) - Scaling Inference-Time Search with Vision Value Model for Improved Visual Comprehension [95.63899307791665]
視覚価値モデル(VisVM)は、VLM推論時間探索をガイドして、より良い視覚的理解で応答を生成する。
本稿では、VLM推論時間探索をガイドし、視覚的理解を向上した応答を生成するVisVMを提案する。
論文 参考訳(メタデータ) (2024-12-04T20:35:07Z) - Vision Language Models are In-Context Value Learners [89.29486557646624]
本稿では、視覚言語モデル(VLM)に埋め込まれた世界的知識を活用してタスクの進捗を予測する普遍的価値関数推定器である生成価値学習(GVL)を提案する。
ロボットやタスク固有のトレーニングがなければ、GVLは300以上の異なる現実世界のタスクに対して、ゼロショットと数ショットの効果的な値をインコンテキストで予測することができる。
論文 参考訳(メタデータ) (2024-11-07T09:17:50Z) - Bootstrapping Vision-language Models for Self-supervised Remote Physiological Measurement [26.480515954528848]
本稿では,一般的な視覚言語モデルとリモート生理計測タスクをうまく統合する新しいフレームワークを提案する。
フレームワークを最適化する一連の生成的かつコントラスト的な学習メカニズムを開発した。
本手法は,視覚・テキストモダリティにおける周波数関連知識の消化・調整にVLMを初めて適用した手法である。
論文 参考訳(メタデータ) (2024-07-11T13:45:50Z) - Dynamic Gaussian Splatting from Markerless Motion Capture can
Reconstruct Infants Movements [2.44755919161855]
本研究は,多様な臨床集団に適用可能な高度な運動分析ツールの道を開くものである。
マーカーレスモーションキャプチャーデータに対する動的ガウススプラッティングの適用について検討した。
以上の結果から,この手法が乳幼児の情景を表現し,乳幼児の動きを追跡できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-30T11:09:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。