論文の概要: Sensor2Text: Enabling Natural Language Interactions for Daily Activity Tracking Using Wearable Sensors
- arxiv url: http://arxiv.org/abs/2410.20034v1
- Date: Sat, 26 Oct 2024 01:03:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:15:33.933148
- Title: Sensor2Text: Enabling Natural Language Interactions for Daily Activity Tracking Using Wearable Sensors
- Title(参考訳): Sensor2Text:ウェアラブルセンサを用いた日々の活動追跡のための自然言語インタラクションの実現
- Authors: Wenqiang Chen, Jiaxuan Cheng, Leyao Wang, Wei Zhao, Wojciech Matusik,
- Abstract要約: 本稿では,日常活動の追跡とウェアラブルセンサを用いた会話に熟練したモデルであるSensor2Textを提案する。
このモデルは、人間の活動を特定し、様々なウェアラブルセンサーを用いたQ&A対話を行う能力を示す。
- 参考スコア(独自算出の注目度): 18.124407890894815
- License:
- Abstract: Visual Question-Answering, a technology that generates textual responses from an image and natural language question, has progressed significantly. Notably, it can aid in tracking and inquiring about daily activities, crucial in healthcare monitoring, especially for elderly patients or those with memory disabilities. However, video poses privacy concerns and has a limited field of view. This paper presents Sensor2Text, a model proficient in tracking daily activities and engaging in conversations using wearable sensors. The approach outlined here tackles several challenges, including low information density in wearable sensor data, insufficiency of single wearable sensors in human activities recognition, and model's limited capacity for Question-Answering and interactive conversations. To resolve these obstacles, transfer learning and student-teacher networks are utilized to leverage knowledge from visual-language models. Additionally, an encoder-decoder neural network model is devised to jointly process language and sensor data for conversational purposes. Furthermore, Large Language Models are also utilized to enable interactive capabilities. The model showcases the ability to identify human activities and engage in Q\&A dialogues using various wearable sensor modalities. It performs comparably to or better than existing visual-language models in both captioning and conversational tasks. To our knowledge, this represents the first model capable of conversing about wearable sensor data, offering an innovative approach to daily activity tracking that addresses privacy and field-of-view limitations associated with current vision-based solutions.
- Abstract(参考訳): 画像と自然言語の質問からテキスト応答を生成するVisual Question-Answeringは、大きく進歩している。
特に、高齢者や記憶障害のある人など、医療の監視に欠かせない日々の活動の追跡と調査に役立てることができる。
しかし、ビデオはプライバシーを心配し、視野が限られている。
本稿では,日常活動の追跡とウェアラブルセンサを用いた会話に熟練したモデルであるSensor2Textを提案する。
ここで概説したアプローチは、ウェアラブルセンサデータの低情報密度、人間の活動認識における単一ウェアラブルセンサーの不足、質問応答と対話的な会話のためのモデルの限られた能力など、いくつかの課題に取り組む。
これらの障害を解決するために、移動学習と学生教師ネットワークを用いて視覚言語モデルからの知識を活用する。
さらに、会話目的のために言語とセンサデータを共同処理するために、エンコーダ-デコーダニューラルネットワークモデルが考案されている。
さらに、対話的な機能を実現するために、大規模言語モデルも利用されています。
このモデルは、人間の活動を特定し、様々なウェアラブルセンサーを用いたQ\&A対話を行う能力を示す。
それは、キャプションと会話の両方のタスクにおいて、既存の視覚言語モデルと同等かそれ以上に機能する。
私たちの知る限り、これはウェアラブルセンサーデータについて会話できる最初のモデルであり、現在のビジョンベースのソリューションに関連するプライバシーと視野制限に対処する、日々のアクティビティ追跡に対する革新的なアプローチを提供する。
関連論文リスト
- Visual-Geometric Collaborative Guidance for Affordance Learning [63.038406948791454]
本稿では,視覚的・幾何学的手がかりを取り入れた視覚・幾何学的協調学習ネットワークを提案する。
本手法は,客観的指標と視覚的品質の代表的なモデルより優れている。
論文 参考訳(メタデータ) (2024-10-15T07:35:51Z) - Multimodal Fusion with LLMs for Engagement Prediction in Natural Conversation [70.52558242336988]
我々は,不関心や混乱の兆候を検出することを目的として,言語的および非言語的手がかりを精査することにより,ダイアディック的相互作用における係り合いを予測することに焦点を当てた。
本研究では,カジュアルなダイアディック会話に携わる34人の参加者を対象に,各会話の最後に自己報告されたエンゲージメント評価を行うデータセットを収集する。
大規模言語モデル(LLMs)を用いた新たな融合戦略を導入し,複数行動モダリティをマルチモーダル・トランスクリプトに統合する。
論文 参考訳(メタデータ) (2024-09-13T18:28:12Z) - Modeling User Preferences via Brain-Computer Interfacing [54.3727087164445]
我々はBrain-Computer Interface技術を用いてユーザの好みを推測し、その注意力は視覚的コンテンツと感情的体験との関連性に相関する。
我々はこれらを,情報検索,生成モデルのパーソナライズされたステアリング,感情経験のクラウドソーシング人口推定など,関連するアプリケーションにリンクする。
論文 参考訳(メタデータ) (2024-05-15T20:41:46Z) - MultiPLY: A Multisensory Object-Centric Embodied Large Language Model in
3D World [55.878173953175356]
マルチ感覚を具現化した大規模言語モデルであるMultiPLYを提案する。
まず,500kデータからなる大規模マルチセンサインタラクションデータセットであるMultisensory Universeを収集する。
我々は,MultiPLYが多種多様な実施タスクを通じて,ベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2024-01-16T18:59:45Z) - TENT: Connect Language Models with IoT Sensors for Zero-Shot Activity
Recognition [35.816500811872196]
本稿では,人間のような認知機能を備えたインテリジェントなヒューマンアクティビティ認識(HAR)システムの実現可能性について検討する。
テキスト埋め込みとIoTセンサ信号との整合性を備えた,革新的なアプローチであるIoT-sEnsors- languagealignedmEnt pre-Training(TENT)を提案する。
我々は、異なるモダリティを用いてゼロショットHARタスクの最先端性能を実現し、最高の視覚言語モデルを12%以上改善することを示した。
論文 参考訳(メタデータ) (2023-11-14T15:30:17Z) - Tactile-Filter: Interactive Tactile Perception for Part Mating [54.46221808805662]
人間は触覚と触覚に頼っている。
視覚ベースの触覚センサーは、様々なロボット認識や制御タスクに広く利用されている。
本稿では,視覚に基づく触覚センサを用いた対話的知覚手法を提案する。
論文 参考訳(メタデータ) (2023-03-10T16:27:37Z) - Weakly-Supervised HOI Detection from Interaction Labels Only and
Language/Vision-Language Priors [36.75629570208193]
人-物相互作用検出(Human-object Interaction, HOI)は、人-物対とその相互作用カテゴリを、与えられた自然な画像から抽出することを目的としている。
本稿では,画像レベルのインタラクションラベルのみを用いて,文献における最も弱い監視設定によるHOI検出に取り組む。
まず,非相互作用型人間とオブジェクトの提案を駆使して,バッグ内の正の対の質を高める手法を提案する。
第2に、大きな言語モデルを使用して、人間とオブジェクトのカテゴリ間の相互作用を問合せし、モデルを強調しないよう強制する。
論文 参考訳(メタデータ) (2023-03-09T19:08:02Z) - A Comprehensive Review of Data-Driven Co-Speech Gesture Generation [11.948557523215316]
このような共同音声ジェスチャの自動生成は、コンピュータアニメーションにおける長年の問題である。
ジェスチャー生成は最近、人間のジェスチャー動作のデータセットがより大きくなったため、関心が高まっている。
本稿では,特に深層生成モデルに着目した共同音声ジェスチャ生成研究を要約する。
論文 参考訳(メタデータ) (2023-01-13T00:20:05Z) - Classifying Human Activities with Inertial Sensors: A Machine Learning
Approach [0.0]
HAR(Human Activity Recognition)は、現在進行中の研究課題である。
医療サポート、スポーツ、フィットネス、ソーシャルネットワーキング、ヒューマン・コンピュータ・インタフェース、シニア・ケア、エンターテイメント、監視などの分野に応用されている。
スマートフォンの慣性センサデータを用いて,人間活動認識のための機械学習と深層学習のアプローチを検討した。
論文 参考訳(メタデータ) (2021-11-09T08:17:33Z) - Dynamic Modeling of Hand-Object Interactions via Tactile Sensing [133.52375730875696]
本研究では,高分解能な触覚グローブを用いて,多種多様な物体に対して4種類のインタラクティブな動作を行う。
我々は,クロスモーダル学習フレームワーク上にモデルを構築し,視覚処理パイプラインを用いてラベルを生成し,触覚モデルを監督する。
この研究は、高密度触覚センシングによる手動物体相互作用における動的モデリングの一歩を踏み出す。
論文 参考訳(メタデータ) (2021-09-09T16:04:14Z) - Preserving Privacy in Human-Motion Affect Recognition [4.753703852165805]
本研究は,3次元の時間的関節信号と手動抽出特徴を用いた感情認識における既存手法の有効性を評価する。
本稿では,マルチエンコーダ自動エンコーダ深層ニューラルネットワークを訓練し,人間の動作特徴の不連続な潜在表現を学習するクロスサブジェクトトランスファー学習手法を提案する。
論文 参考訳(メタデータ) (2021-05-09T15:26:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。