論文の概要: Reducing Annotation Burden in Physical Activity Research Using Vision-Language Models
- arxiv url: http://arxiv.org/abs/2505.03374v1
- Date: Tue, 06 May 2025 09:49:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:11.316109
- Title: Reducing Annotation Burden in Physical Activity Research Using Vision-Language Models
- Title(参考訳): 視覚言語モデルを用いた身体活動研究における注釈バーデンの削減
- Authors: Abram Schonfeldt, Benjamin Maylor, Xiaofang Chen, Ronald Clark, Aiden Doherty,
- Abstract要約: 2つの自由生活検証実験において、3つの視覚言語モデルと2つの識別モデルの性能を比較した。
単一の画像から鎮静行動を予測する際に,最高のオープンソース視覚言語モデル (VLM) と微調整識別モデル (DM) が同等の性能を示した。
- 参考スコア(独自算出の注目度): 10.996794674728639
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Introduction: Data from wearable devices collected in free-living settings, and labelled with physical activity behaviours compatible with health research, are essential for both validating existing wearable-based measurement approaches and developing novel machine learning approaches. One common way of obtaining these labels relies on laborious annotation of sequences of images captured by cameras worn by participants through the course of a day. Methods: We compare the performance of three vision language models and two discriminative models on two free-living validation studies with 161 and 111 participants, collected in Oxfordshire, United Kingdom and Sichuan, China, respectively, using the Autographer (OMG Life, defunct) wearable camera. Results: We found that the best open-source vision-language model (VLM) and fine-tuned discriminative model (DM) achieved comparable performance when predicting sedentary behaviour from single images on unseen participants in the Oxfordshire study; median F1-scores: VLM = 0.89 (0.84, 0.92), DM = 0.91 (0.86, 0.95). Performance declined for light (VLM = 0.60 (0.56,0.67), DM = 0.70 (0.63, 0.79)), and moderate-to-vigorous intensity physical activity (VLM = 0.66 (0.53, 0.85); DM = 0.72 (0.58, 0.84)). When applied to the external Sichuan study, performance fell across all intensity categories, with median Cohen's kappa-scores falling from 0.54 (0.49, 0.64) to 0.26 (0.15, 0.37) for the VLM, and from 0.67 (0.60, 0.74) to 0.19 (0.10, 0.30) for the DM. Conclusion: Freely available computer vision models could help annotate sedentary behaviour, typically the most prevalent activity of daily living, from wearable camera images within similar populations to seen data, reducing the annotation burden.
- Abstract(参考訳): 導入: ウェアラブルデバイスから収集されたデータは、健康研究と互換性のある身体活動行動とラベル付けされ、既存のウェアラブルベースの測定アプローチを検証することと、新しい機械学習アプローチを開発することの両方に不可欠である。
これらのラベルを取得する一般的な方法の1つは、参加者が1日中身に着けているカメラによって撮影された画像のシーケンスの厳密なアノテーションに依存している。
方法: 英国オックスフォードシャーと中国四川で収集された2つの自由生活型検証研究における3つの視覚言語モデルと2つの識別モデルの性能を比較し, オートモグラフィー (OMG Life, defunct) ウェアラブルカメラを用いて, それぞれ161名と111名の被験者を比較した。
結果: オックスフォードシャーの研究では, 最高のオープンソース視覚言語モデル (VLM) と微調整識別モデル (DM) が, 未確認の参加者の単一画像から鎮静行動を予測する際に, 同等の性能を示した。
光(VLM = 0.60 (0.56,0.67), DM = 0.70 (0.63, 0.79)) と中程度の強度の物理活性(VLM = 0.66 (0.53, 0.85), DM = 0.72 (0.58, 0.84)) で性能が低下した。
コーエンのカッパスコアは、VLMでは0.54 (0.49, 0.64) から0.26 (0.15, 0.37) に、DMでは0.67 (0.60, 0.74) から0.19 (0.10, 0.30) に低下した。
結論: 無料のコンピュータビジョンモデルは、同じ人口内にあるウェアラブルカメラ画像から見るデータまで、一般的な日常生活の最も一般的な活動である、鎮静行動のアノテートに役立ち、アノテーションの負担を軽減します。
関連論文リスト
- Deep Learning for Classification of Inflammatory Bowel Disease Activity in Whole Slide Images of Colonic Histopathology [3.311734750818073]
ヘマトキシリンおよびエオシン含有スライド画像中の活性度を分類する深層学習モデルを開発した。
2018年と2019年にダートマス・ヒッチコック医療センターで治療を受けた636例のうち,2,077例のWSIを使用した。
論文 参考訳(メタデータ) (2024-10-25T17:00:31Z) - Integrating Deep Learning with Fundus and Optical Coherence Tomography for Cardiovascular Disease Prediction [47.7045293755736]
心血管疾患(CVD)のリスクのある患者の早期発見は、効果的な予防ケア、医療負担の軽減、患者の生活の質の向上に不可欠である。
本研究は、網膜光コヒーレンス断層撮影(OCT)と眼底写真との併用による、将来の心疾患の特定の可能性を示すものである。
そこで我々は,MCVAE(Multi- Channel Variational Autoencoder)に基づく新たなバイナリ分類ネットワークを提案し,患者の眼底画像とOCT画像の潜伏埋め込みを学習し,個人を将来CVDを発症する可能性のあるものとそうでないものとの2つのグループに分類する。
論文 参考訳(メタデータ) (2024-10-18T12:37:51Z) - Comprehensive Multimodal Deep Learning Survival Prediction Enabled by a Transformer Architecture: A Multicenter Study in Glioblastoma [4.578027879885667]
本研究は,変圧器を用いた深層学習モデルにMR画像,臨床および分子病理学的データを統合することにより,グリオーマの生存率予測を改善することを目的とする。
このモデルは、自己教師付き学習技術を用いて、高次元MRI入力を効果的に符号化し、クロスアテンションを用いた非画像データと統合する。
論文 参考訳(メタデータ) (2024-05-21T17:44:48Z) - Using YOLO v7 to Detect Kidney in Magnetic Resonance Imaging [1.1567496318601842]
医用画像ライブラリを用いた半教師ありアプローチによる腎臓検出のための高性能モデルを開発した。
モデルの一般化性を評価するには、さらなる外部検証が必要である。
論文 参考訳(メタデータ) (2024-02-08T16:54:20Z) - Uncertainty-inspired Open Set Learning for Retinal Anomaly
Identification [71.06194656633447]
9つの網膜条件の基底像をトレーニングし,不確実性に着想を得たオープンセット(UIOS)モデルを構築した。
しきい値戦略を持つUIOSモデルはF1スコア99.55%、97.01%、91.91%を達成した。
UIOSは、高い不確実性スコアを正しく予測し、非ターゲットの網膜疾患、低品質の眼底画像、および非基本画像のデータセットを手動でチェックする必要があることを示唆した。
論文 参考訳(メタデータ) (2023-04-08T10:47:41Z) - Contrastive learning-based pretraining improves representation and
transferability of diabetic retinopathy classification models [1.9882302955470608]
自己教師付きコントラスト学習に基づく事前学習により、小さなラベル付きデータセットを持つ堅牢で一般化されたディープラーニングモデルの開発が可能になる。
本研究の目的は,CLによるプレトレーニングが糖尿病網膜症 (DR) の診断成績に及ぼす影響を評価することである。
論文 参考訳(メタデータ) (2022-08-24T14:07:45Z) - Semi-supervised learning for generalizable intracranial hemorrhage
detection and segmentation [0.0]
本研究は頭蓋内出血の検出・分節化のための半教師付き学習モデルの開発と評価である。
最初の「教師」ディープラーニングモデルは、2010年から2017年にかけて米国のある機関から収集された457ピクセルの頭部CTスキャンに基づいて訓練された。
2つ目の"学生"モデルは、このピクセルラベル付きデータセットと擬似ラベル付きデータセットの組み合わせでトレーニングされた。
論文 参考訳(メタデータ) (2021-05-03T00:14:43Z) - Deep learning-based COVID-19 pneumonia classification using chest CT
images: model generalizability [54.86482395312936]
深層学習(DL)分類モデルは、異なる国の3DCTデータセット上で、COVID-19陽性患者を特定するために訓練された。
我々は、データセットと72%の列車、8%の検証、20%のテストデータを組み合わせたDLベースの9つの同一分類モデルを訓練した。
複数のデータセットでトレーニングされ、トレーニングに使用されるデータセットの1つからテストセットで評価されたモデルは、よりよいパフォーマンスを示した。
論文 参考訳(メタデータ) (2021-02-18T21:14:52Z) - MSED: a multi-modal sleep event detection model for clinical sleep
analysis [62.997667081978825]
ポリソムノグラムで睡眠イベントを共同検出する,単一のディープニューラルネットワークアーキテクチャを設計した。
モデルの性能は,F1,精度,リコールスコア,および指標値と臨床値との相関で定量化した。
論文 参考訳(メタデータ) (2021-01-07T13:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。