論文の概要: Enhancing Screen Time Identification in Children with a Multi-View Vision Language Model and Screen Time Tracker
- arxiv url: http://arxiv.org/abs/2410.01966v1
- Date: Wed, 2 Oct 2024 19:16:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 09:44:41.945939
- Title: Enhancing Screen Time Identification in Children with a Multi-View Vision Language Model and Screen Time Tracker
- Title(参考訳): 多視点視覚言語モデルとスクリーンタイムトラッカーを用いた小児の画面時間同定の強化
- Authors: Xinlong Hou, Sen Shen, Xueshen Li, Xinran Gao, Ziyi Huang, Steven J. Holiday, Matthew R. Cribbet, Susan W. White, Edward Sazonov, Yu Gan,
- Abstract要約: 我々は,ウェアラブルセンサからのエゴセントリックなイメージを利用する新しいセンサ情報フレームワークを開発した。
我々は、エゴセントリックな画像シーケンスから複数のビューを抽出し、画面露出を動的に解釈するマルチビューVLMを考案した。
結果は、子どもの自然主義的環境における画面露出に関する行動研究を最適化する、このモニタリングアプローチの約束を支持した。
- 参考スコア(独自算出の注目度): 1.0862646489338883
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Being able to accurately monitor the screen exposure of young children is important for research on phenomena linked to screen use such as childhood obesity, physical activity, and social interaction. Most existing studies rely upon self-report or manual measures from bulky wearable sensors, thus lacking efficiency and accuracy in capturing quantitative screen exposure data. In this work, we developed a novel sensor informatics framework that utilizes egocentric images from a wearable sensor, termed the screen time tracker (STT), and a vision language model (VLM). In particular, we devised a multi-view VLM that takes multiple views from egocentric image sequences and interprets screen exposure dynamically. We validated our approach by using a dataset of children's free-living activities, demonstrating significant improvement over existing methods in plain vision language models and object detection models. Results supported the promise of this monitoring approach, which could optimize behavioral research on screen exposure in children's naturalistic settings.
- Abstract(参考訳): 幼児のスクリーン露出を正確にモニターできることは、小児の肥満、身体活動、社会的相互作用といったスクリーン使用に関連する現象を研究する上で重要である。
既存の研究の多くは、大きめのウェアラブルセンサーからの自己報告や手動測定に依存しており、定量的なスクリーン露光データを取得する効率と正確性に欠ける。
本研究では,ウェアラブルセンサのエゴセントリックなイメージを利用して,スクリーンタイムトラッカー (STT) と視覚言語モデル (VLM) と呼ばれる新しいセンサ情報処理フレームワークを開発した。
特に,エゴ中心画像列から複数のビューを抽出し,画面露出を動的に解釈するマルチビューVLMを考案した。
我々は,子どものフリーライフ活動のデータセットを用いて,従来の視覚言語モデルや物体検出モデルにおいて,既存の手法よりも大幅に改善されていることを実証し,そのアプローチを検証した。
結果は、子どもの自然主義的環境における画面露出に関する行動研究を最適化する、このモニタリングアプローチの約束を支持した。
関連論文リスト
- Scaling Wearable Foundation Models [54.93979158708164]
センサ基礎モデルのスケーリング特性を計算,データ,モデルサイズにわたって検討する。
最大4000万時間分の心拍数、心拍変動、心電図活動、加速度計、皮膚温度、および1分間のデータを用いて、私たちはLSMを作成します。
この結果から,LSMのスケーリング法則は,時間とセンサの両面において,計算や外挿などのタスクに対して確立されている。
論文 参考訳(メタデータ) (2024-10-17T15:08:21Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - Realtime Dynamic Gaze Target Tracking and Depth-Level Estimation [6.435984242701043]
車両のヘッドアップディスプレイ(HUD)のような様々な用途における透明ディスプレイ(TD)は、ユーザー体験に革命をもたらす可能性がある。
このイノベーションは、リアルタイムのヒューマンデバイスインタラクション、特に動的に変化するTDに対するユーザの視線を正確に識別し追跡する上で、大きな課題を引き起こします。
本研究では,(1)目視対象を特定し,動的に追跡する木に基づくアルゴリズム,(2)目視の深度レベルを目視追跡データから推定するマルチストリーム自己認識アーキテクチャからなる,リアルタイム目視監視のための2重頑健で効率的な体系的ソリューションを提案する。
論文 参考訳(メタデータ) (2024-06-09T20:52:47Z) - Semantic-Based Active Perception for Humanoid Visual Tasks with Foveal Sensors [49.99728312519117]
この研究の目的は、最近の意味に基づくアクティブな知覚モデルが、人間が定期的に行う視覚的なタスクをいかに正確に達成できるかを確立することである。
このモデルは、現在のオブジェクト検出器が多数のオブジェクトクラスをローカライズし、分類し、複数の固定にまたがるシーンのセマンティック記述を更新する能力を利用する。
シーン探索の課題では、セマンティック・ベースの手法は従来のサリエンシ・ベース・モデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-04-16T18:15:57Z) - Voila-A: Aligning Vision-Language Models with User's Gaze Attention [56.755993500556734]
視覚言語モデル(VLM)を導くために,人間の注意の代用として視線情報を導入する。
本稿では,視線アライメントのための新しいアプローチであるVoila-Aを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:34:01Z) - Challenges in Video-Based Infant Action Recognition: A Critical
Examination of the State of the Art [9.327466428403916]
InfActPrimitive’という,5つの重要な幼児マイルストーンアクションカテゴリを含む,画期的なデータセットを紹介します。
近縁骨格に基づく行動認識モデルを用いた広範囲な比較分析を行う。
以上の結果から,PoseC3Dモデルでは約71%の精度で高い精度を達成できたが,残りのモデルでは乳幼児行動の動態を正確に把握することが困難であった。
論文 参考訳(メタデータ) (2023-11-21T02:36:47Z) - Embodied vision for learning object representations [4.211128681972148]
幼児の視覚的統計は、親しみやすい環境と新しい環境の両方において、物体認識の精度を向上させる。
この効果は、背景から抽出した特徴の減少、画像中の大きな特徴に対するニューラルネットワークバイアス、新奇な背景領域と慣れ親しんだ背景領域との類似性の向上によるものである、と我々は主張する。
論文 参考訳(メタデータ) (2022-05-12T16:36:27Z) - Self-Supervised Learning of Remote Sensing Scene Representations Using
Contrastive Multiview Coding [0.0]
遠隔センシング画像分類における自己監督学習の適用可能性の分析を行う。
遠隔センシング画像分類の下流課題において,自己教師付き事前学習は自然シーン画像の教師付き事前学習よりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-04-14T18:25:43Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z) - Semantics-aware Adaptive Knowledge Distillation for Sensor-to-Vision
Action Recognition [131.6328804788164]
本稿では,視覚・センサ・モダリティ(動画)における行動認識を強化するためのフレームワーク,Semantics-Aware Adaptive Knowledge Distillation Networks (SAKDN)を提案する。
SAKDNは複数のウェアラブルセンサーを教師のモダリティとして使用し、RGB動画を学生のモダリティとして使用している。
論文 参考訳(メタデータ) (2020-09-01T03:38:31Z) - Minor Privacy Protection Through Real-time Video Processing at the Edge [4.4243708797335115]
本稿では,エッジ監視システムに手頃な軽量ソリューションについて検討する。
パイプラインは入力フレームから顔を取り出し、それぞれを大人または子供に分類する。
本稿では,他の顔認識による児童検出手法と比較して,分類精度92.1%のモデルが優れていることを示す。
論文 参考訳(メタデータ) (2020-05-03T20:19:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。