論文の概要: Exploring the Capabilities of LLMs for IMU-based Fine-grained Human Activity Understanding
- arxiv url: http://arxiv.org/abs/2504.02878v1
- Date: Wed, 02 Apr 2025 03:42:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-07 14:49:07.345856
- Title: Exploring the Capabilities of LLMs for IMU-based Fine-grained Human Activity Understanding
- Title(参考訳): IMUを用いたきめ細かい人間の活動理解のためのLLMの能力探索
- Authors: Lilin Xu, Kaiyuan Hou, Xiaofan Jiang,
- Abstract要約: 慣性計測単位(IMU)を用いたHAR(Human Activity Recognition)は、ますます大きな言語モデル(LLM)を活用する
予備研究は, 空気文字認識などの細粒度HARタスクにおいて, 予め訓練したLLMが破滅的に失敗し, ほぼランダムな推測精度が得られたことを示唆している。
これを3Dに拡張するために、3Dデータを2次元の等価値にマッピングするエンコーダベースのパイプラインを設計した。
私たちのエンドツーエンドパイプラインは、中書きシナリオで最大5文字の単語認識において78%の精度を実現し、LCMを実行可能なツールとして確立しています。
- 参考スコア(独自算出の注目度): 1.1228672751176365
- License:
- Abstract: Human activity recognition (HAR) using inertial measurement units (IMUs) increasingly leverages large language models (LLMs), yet existing approaches focus on coarse activities like walking or running. Our preliminary study indicates that pretrained LLMs fail catastrophically on fine-grained HAR tasks such as air-written letter recognition, achieving only near-random guessing accuracy. In this work, we first bridge this gap for flat-surface writing scenarios: by fine-tuning LLMs with a self-collected dataset and few-shot learning, we achieved up to a 129x improvement on 2D data. To extend this to 3D scenarios, we designed an encoder-based pipeline that maps 3D data into 2D equivalents, preserving the spatiotemporal information for robust letter prediction. Our end-to-end pipeline achieves 78% accuracy on word recognition with up to 5 letters in mid-air writing scenarios, establishing LLMs as viable tools for fine-grained HAR.
- Abstract(参考訳): 慣性測定ユニット(IMU)を用いたHAR(Human Activity Recognition)は、大きな言語モデル(LLM)を活用する傾向にあるが、既存のアプローチでは、歩行やランニングといった粗い活動に重点を置いている。
予備研究は, 空気文字認識などの細粒度HARタスクにおいて, 予め訓練したLLMが破滅的に失敗し, ほぼランダムな推測精度が得られたことを示唆している。
自作データセットと数ショットの学習による微調整により、2Dデータに対する最大129倍の改善を実現した。
これを3次元シナリオに拡張するため、3次元データを2次元等価にマッピングするエンコーダベースのパイプラインを設計し、堅牢な文字予測のための時空間情報を保存する。
我々のエンドツーエンドパイプラインは、中間記述シナリオで最大5文字の単語認識において78%の精度を実現し、粒度の細かいHARのための実行可能なツールとしてLLMを確立する。
関連論文リスト
- Large Language Models for Single-Step and Multi-Step Flight Trajectory Prediction [5.666505394825739]
本研究では,大型言語モデル(LLM)を用いた飛行軌道予測の先駆的手法として,言語モデリング問題として再検討した。
具体的には、航空機の状態とADS-B飛行データから航空機を抽出し、プロンプトベースのデータセットを構築する。
データセットはLSMを微調整するために使用され、正確な予測のために複雑な時間パターンを学習することができる。
論文 参考訳(メタデータ) (2025-01-29T07:35:56Z) - Language Driven Occupancy Prediction [11.208411421996052]
オープン語彙占有予測のための効果的で一般化可能なフレームワークであるLOccを紹介する。
私たちのパイプラインは、画像の貴重な意味情報を掘り下げるための、実現可能な方法を提供します。
LOccは生成された言語基底の真実を効果的に利用し、3D言語ボリュームの学習をガイドする。
論文 参考訳(メタデータ) (2024-11-25T03:47:10Z) - LLaMA-Mesh: Unifying 3D Mesh Generation with Language Models [62.85566496673856]
この研究は、テキストで事前訓練された大規模言語モデル(LLM)の機能を拡張して、統一モデル内で3Dメッシュを生成することを検討する。
主な課題は、3DメッシュデータをLLMがシームレスに処理できる離散トークンに効果的にトークン化することだ。
我々の研究は、LLMがテキストベースのフォーマットで3Dメッシュ生成のための複雑な空間知識を得るために微調整できることを示す最初のものである。
論文 参考訳(メタデータ) (2024-11-14T17:08:23Z) - Chain of Stance: Stance Detection with Large Language Models [3.528201746844624]
スタンス検出は自然言語処理(NLP)におけるアクティブタスクである
我々は、Stance (CoS) の textitChain と呼ばれる新しいプロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-08-03T16:30:51Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - VP-LLM: Text-Driven 3D Volume Completion with Large Language Models through Patchification [56.211321810408194]
大規模言語モデル(LLM)はマルチモーダル理解および生成タスクにおいて大きな可能性を示している。
本稿では,LLMを利用して条件付き3D補完を行うVolume Patch LLM(VP-LLM)を提案する。
以上の結果から,LLMが複雑なテキスト命令を解釈し,3Dオブジェクトを理解する能力は,最先端の拡散に基づく3Dコンプリートモデルに勝るものであることが示唆された。
論文 参考訳(メタデータ) (2024-06-08T18:17:09Z) - MLP: Motion Label Prior for Temporal Sentence Localization in Untrimmed 3D Human Motions [20.986063755422173]
本研究の目的は,テキストクエリに対応する3次元人間の動作から目標モーメントを見つけることである。
これを改善するために,2つの新しいラベル事前知識学習手法を考案した。
ラベル優先知識をモデルに注入することは,高いIoUでの性能向上に不可欠であることを示す。
論文 参考訳(メタデータ) (2024-04-21T13:25:46Z) - MARIO: MAth Reasoning with code Interpreter Output -- A Reproducible
Pipeline [12.186691561822256]
我々は,大規模言語モデル(LLM)の本質的な性質が,数学的推論のモデル化における課題を提起していると仮定する。
本稿では,Pythonコードインタプリタを利用した新しい数学データセットを提案する。
本稿では,数学固有のLLMの微調整のための仮的かつ容易に複製可能なプロトコルを提案する。
論文 参考訳(メタデータ) (2024-01-16T08:08:01Z) - PointLLM: Empowering Large Language Models to Understand Point Clouds [63.39876878899682]
PointLLMは人間の指示で色のついたオブジェクトポイントクラウドを理解する。
文脈的に適切な応答を生成し、点雲と常識の把握を図示する。
論文 参考訳(メタデータ) (2023-08-31T17:59:46Z) - Open-Set Semi-Supervised Learning for 3D Point Cloud Understanding [62.17020485045456]
半教師付き学習(SSL)では、ラベル付きデータと同じ分布からラベル付きデータが引き出されることが一般的である。
サンプル重み付けによりラベルなしデータを選択的に活用することを提案する。
論文 参考訳(メタデータ) (2022-05-02T16:09:17Z) - PointContrast: Unsupervised Pre-training for 3D Point Cloud
Understanding [107.02479689909164]
本研究では,3次元表現学習の研究を支援することを目的とする。
教師なし事前学習が3Dシーンの大規模なソースセットに与える影響を計測する。
論文 参考訳(メタデータ) (2020-07-21T17:59:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。