Fugu-MT 論文翻訳(概要): Reducing Annotation Burden in Physical Activity Research Using Vision-Language Models

論文の概要: Reducing Annotation Burden in Physical Activity Research Using Vision-Language Models

arxiv url: http://arxiv.org/abs/2505.03374v1
Date: Tue, 06 May 2025 09:49:45 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-07 18:50:11.316109
Title: Reducing Annotation Burden in Physical Activity Research Using Vision-Language Models
Title（参考訳）: 視覚言語モデルを用いた身体活動研究における注釈バーデンの削減
Authors: Abram Schonfeldt, Benjamin Maylor, Xiaofang Chen, Ronald Clark, Aiden Doherty,
Abstract要約: 2つの自由生活検証実験において、3つの視覚言語モデルと2つの識別モデルの性能を比較した。単一の画像から鎮静行動を予測する際に,最高のオープンソース視覚言語モデル (VLM) と微調整識別モデル (DM) が同等の性能を示した。
参考スコア（独自算出の注目度）: 10.996794674728639
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Introduction: Data from wearable devices collected in free-living settings, and labelled with physical activity behaviours compatible with health research, are essential for both validating existing wearable-based measurement approaches and developing novel machine learning approaches. One common way of obtaining these labels relies on laborious annotation of sequences of images captured by cameras worn by participants through the course of a day. Methods: We compare the performance of three vision language models and two discriminative models on two free-living validation studies with 161 and 111 participants, collected in Oxfordshire, United Kingdom and Sichuan, China, respectively, using the Autographer (OMG Life, defunct) wearable camera. Results: We found that the best open-source vision-language model (VLM) and fine-tuned discriminative model (DM) achieved comparable performance when predicting sedentary behaviour from single images on unseen participants in the Oxfordshire study; median F1-scores: VLM = 0.89 (0.84, 0.92), DM = 0.91 (0.86, 0.95). Performance declined for light (VLM = 0.60 (0.56,0.67), DM = 0.70 (0.63, 0.79)), and moderate-to-vigorous intensity physical activity (VLM = 0.66 (0.53, 0.85); DM = 0.72 (0.58, 0.84)). When applied to the external Sichuan study, performance fell across all intensity categories, with median Cohen's kappa-scores falling from 0.54 (0.49, 0.64) to 0.26 (0.15, 0.37) for the VLM, and from 0.67 (0.60, 0.74) to 0.19 (0.10, 0.30) for the DM. Conclusion: Freely available computer vision models could help annotate sedentary behaviour, typically the most prevalent activity of daily living, from wearable camera images within similar populations to seen data, reducing the annotation burden.
Abstract（参考訳）: 導入: ウェアラブルデバイスから収集されたデータは、健康研究と互換性のある身体活動行動とラベル付けされ、既存のウェアラブルベースの測定アプローチを検証することと、新しい機械学習アプローチを開発することの両方に不可欠である。これらのラベルを取得する一般的な方法の1つは、参加者が1日中身に着けているカメラによって撮影された画像のシーケンスの厳密なアノテーションに依存している。方法: 英国オックスフォードシャーと中国四川で収集された2つの自由生活型検証研究における3つの視覚言語モデルと2つの識別モデルの性能を比較し, オートモグラフィー (OMG Life, defunct) ウェアラブルカメラを用いて, それぞれ161名と111名の被験者を比較した。結果: オックスフォードシャーの研究では, 最高のオープンソース視覚言語モデル (VLM) と微調整識別モデル (DM) が, 未確認の参加者の単一画像から鎮静行動を予測する際に, 同等の性能を示した。光(VLM = 0.60 (0.56,0.67), DM = 0.70 (0.63, 0.79)) と中程度の強度の物理活性(VLM = 0.66 (0.53, 0.85), DM = 0.72 (0.58, 0.84)) で性能が低下した。コーエンのカッパスコアは、VLMでは0.54 (0.49, 0.64) から0.26 (0.15, 0.37) に、DMでは0.67 (0.60, 0.74) から0.19 (0.10, 0.30) に低下した。結論: 無料のコンピュータビジョンモデルは、同じ人口内にあるウェアラブルカメラ画像から見るデータまで、一般的な日常生活の最も一般的な活動である、鎮静行動のアノテートに役立ち、アノテーションの負担を軽減します。

関連論文リスト

Predicting Length of Stay in Neurological ICU Patients Using Classical Machine Learning and Neural Network Models: A Benchmark Study on MIMIC-IV [49.1574468325115]
本研究は、MIMIC-IVデータセットに基づく神経疾患患者を対象とした、ICUにおけるLOS予測のための複数のMLアプローチについて検討する。評価されたモデルには、古典的MLアルゴリズム(K-Nearest Neighbors、Random Forest、XGBoost、CatBoost)とニューラルネットワーク(LSTM、BERT、テンポラルフュージョントランス)が含まれる。
論文参考訳（メタデータ） (2025-05-23T14:06:42Z)
Deep Learning for Classification of Inflammatory Bowel Disease Activity in Whole Slide Images of Colonic Histopathology [3.311734750818073]
ヘマトキシリンおよびエオシン含有スライド画像中の活性度を分類する深層学習モデルを開発した。 2018年と2019年にダートマス・ヒッチコック医療センターで治療を受けた636例のうち,2,077例のWSIを使用した。
論文参考訳（メタデータ） (2024-10-25T17:00:31Z)
Integrating Deep Learning with Fundus and Optical Coherence Tomography for Cardiovascular Disease Prediction [47.7045293755736]
心血管疾患(CVD)のリスクのある患者の早期発見は、効果的な予防ケア、医療負担の軽減、患者の生活の質の向上に不可欠である。本研究は、網膜光コヒーレンス断層撮影(OCT)と眼底写真との併用による、将来の心疾患の特定の可能性を示すものである。そこで我々は,MCVAE(Multi- Channel Variational Autoencoder)に基づく新たなバイナリ分類ネットワークを提案し,患者の眼底画像とOCT画像の潜伏埋め込みを学習し,個人を将来CVDを発症する可能性のあるものとそうでないものとの2つのグループに分類する。
論文参考訳（メタデータ） (2024-10-18T12:37:51Z)
Comprehensive Multimodal Deep Learning Survival Prediction Enabled by a Transformer Architecture: A Multicenter Study in Glioblastoma [4.578027879885667]
本研究は,変圧器を用いた深層学習モデルにMR画像,臨床および分子病理学的データを統合することにより,グリオーマの生存率予測を改善することを目的とする。このモデルは、自己教師付き学習技術を用いて、高次元MRI入力を効果的に符号化し、クロスアテンションを用いた非画像データと統合する。
論文参考訳（メタデータ） (2024-05-21T17:44:48Z)
Using YOLO v7 to Detect Kidney in Magnetic Resonance Imaging [1.1567496318601842]
医用画像ライブラリを用いた半教師ありアプローチによる腎臓検出のための高性能モデルを開発した。モデルの一般化性を評価するには、さらなる外部検証が必要である。
論文参考訳（メタデータ） (2024-02-08T16:54:20Z)
Uncertainty-inspired Open Set Learning for Retinal Anomaly Identification [71.06194656633447]
9つの網膜条件の基底像をトレーニングし,不確実性に着想を得たオープンセット(UIOS)モデルを構築した。しきい値戦略を持つUIOSモデルはF1スコア99.55%、97.01%、91.91%を達成した。 UIOSは、高い不確実性スコアを正しく予測し、非ターゲットの網膜疾患、低品質の眼底画像、および非基本画像のデータセットを手動でチェックする必要があることを示唆した。
論文参考訳（メタデータ） (2023-04-08T10:47:41Z)
Vision-Language Modelling For Radiological Imaging and Reports In The Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文参考訳（メタデータ） (2023-03-30T18:20:00Z)
Contrastive learning-based pretraining improves representation and transferability of diabetic retinopathy classification models [1.9882302955470608]
自己教師付きコントラスト学習に基づく事前学習により、小さなラベル付きデータセットを持つ堅牢で一般化されたディープラーニングモデルの開発が可能になる。本研究の目的は,CLによるプレトレーニングが糖尿病網膜症 (DR) の診断成績に及ぼす影響を評価することである。
論文参考訳（メタデータ） (2022-08-24T14:07:45Z)
Semi-supervised learning for generalizable intracranial hemorrhage detection and segmentation [0.0]
本研究は頭蓋内出血の検出・分節化のための半教師付き学習モデルの開発と評価である。最初の「教師」ディープラーニングモデルは、2010年から2017年にかけて米国のある機関から収集された457ピクセルの頭部CTスキャンに基づいて訓練された。 2つ目の"学生"モデルは、このピクセルラベル付きデータセットと擬似ラベル付きデータセットの組み合わせでトレーニングされた。
論文参考訳（メタデータ） (2021-05-03T00:14:43Z)
Deep learning-based COVID-19 pneumonia classification using chest CT images: model generalizability [54.86482395312936]
深層学習(DL)分類モデルは、異なる国の3DCTデータセット上で、COVID-19陽性患者を特定するために訓練された。我々は、データセットと72%の列車、8%の検証、20%のテストデータを組み合わせたDLベースの9つの同一分類モデルを訓練した。複数のデータセットでトレーニングされ、トレーニングに使用されるデータセットの1つからテストセットで評価されたモデルは、よりよいパフォーマンスを示した。
論文参考訳（メタデータ） (2021-02-18T21:14:52Z)
MSED: a multi-modal sleep event detection model for clinical sleep analysis [62.997667081978825]
ポリソムノグラムで睡眠イベントを共同検出する,単一のディープニューラルネットワークアーキテクチャを設計した。モデルの性能は,F1,精度,リコールスコア,および指標値と臨床値との相関で定量化した。
論文参考訳（メタデータ） (2021-01-07T13:08:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。