論文の概要: SitLLM: Large Language Models for Sitting Posture Health Understanding via Pressure Sensor Data
- arxiv url: http://arxiv.org/abs/2509.12994v1
- Date: Tue, 16 Sep 2025 12:06:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:53.069943
- Title: SitLLM: Large Language Models for Sitting Posture Health Understanding via Pressure Sensor Data
- Title(参考訳): SitLLM:圧力センサデータによる姿勢状態理解のための大規模言語モデル
- Authors: Jian Gao, Fufangchen Zhao, Yiyang Zhang, Danfeng Yan,
- Abstract要約: SitLLMは、柔軟性のある圧力感知と大きな言語モデルを統合する軽量なマルチモーダルフレームワークである。
微粒な姿勢理解と、健康志向の反応生成を可能にする。
- 参考スコア(独自算出の注目度): 9.847448341010887
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Poor sitting posture is a critical yet often overlooked factor contributing to long-term musculoskeletal disorders and physiological dysfunctions. Existing sitting posture monitoring systems, although leveraging visual, IMU, or pressure-based modalities, often suffer from coarse-grained recognition and lack the semantic expressiveness necessary for personalized feedback. In this paper, we propose \textbf{SitLLM}, a lightweight multimodal framework that integrates flexible pressure sensing with large language models (LLMs) to enable fine-grained posture understanding and personalized health-oriented response generation. SitLLM comprises three key components: (1) a \textit{Gaussian-Robust Sensor Embedding Module} that partitions pressure maps into spatial patches and injects local noise perturbations for robust feature extraction; (2) a \textit{Prompt-Driven Cross-Modal Alignment Module} that reprograms sensor embeddings into the LLM's semantic space via multi-head cross-attention using the pre-trained vocabulary embeddings; and (3) a \textit{Multi-Context Prompt Module} that fuses feature-level, structure-level, statistical-level, and semantic-level contextual information to guide instruction comprehension.
- Abstract(参考訳): 座位不良は、長期の筋骨格障害や生理機能障害に寄与する重要な要因であるが、しばしば見落とされがちである。
既存の座位姿勢監視システムは、視覚的、IMU、または圧力に基づくモダリティを活用するが、しばしば粗い粒度の認識に悩まされ、パーソナライズされたフィードバックに必要な意味表現性が欠如している。
本稿では,大規模言語モデル (LLM) とフレキシブル・プレッシャ・センシングを統合した軽量なマルチモーダル・フレームワークである \textbf{SitLLM} を提案する。
SitLLM は、(1) プレッシャーマップを空間パッチに分割し、ロバストな特徴抽出のために局所ノイズ摂動を注入する \textit{Gaussian-Robust Sensor Embedding Module} 、(2) 事前訓練された語彙埋め込みを用いて LLM のセマンティック空間への埋め込みをマルチヘッド・クロスアテンションで再現する \textit{Prompt-Driven Cross-Modal Alignment Module} 、(3) 特徴レベル、構造レベル、統計レベル、意味レベルのコンテキスト情報を融合する \textit{Multi-Context Prompt Module} である。
関連論文リスト
- SPHERE: Semantic-PHysical Engaged REpresentation for 3D Semantic Scene Completion [52.959716866316604]
カメラベース3Dセマンティックシーンコンプリート(SSC)は自動運転システムにおいて重要な課題である。
本稿では,SPHERE (Semantic-PHysical Engaged Representation) を提案する。
SPHEREは、意味情報と物理的情報の共同利用のためのボクセルとガウス表現を統合している。
論文 参考訳(メタデータ) (2025-09-14T09:07:41Z) - Foundation Model for Skeleton-Based Human Action Understanding [56.89025287217221]
本稿では,統一骨格に基づくDense Representation Learningフレームワークを提案する。
USDRLはトランスフォーマーベースのDense Spatio-Temporal (DSTE)、Multi-Grained Feature Deorrelation (MG-FD)、Multi-Perspective Consistency Training (MPCT)で構成されている。
論文 参考訳(メタデータ) (2025-08-18T02:42:16Z) - From Prediction to Explanation: Multimodal, Explainable, and Interactive Deepfake Detection Framework for Non-Expert Users [21.627851460651968]
DF-P2E(Deepfake: Prediction to Explanation)は、視覚的、意味的、物語的な説明層を統合して、ディープフェイク検出を解釈し、アクセス可能にする新しいフレームワークである。
現在最も多様なディープフェイクデータセットであるDF40ベンチマークで、フレームワークをインスタンス化し、評価しています。
実験により,Grad-CAMアクティベーションに適合した高品質な説明を提供しながら,競合検出性能を実証した。
論文 参考訳(メタデータ) (2025-08-11T03:55:47Z) - CS-VLM: Compressed Sensing Attention for Efficient Vision-Language Representation Learning [0.0]
本稿では,圧縮センシングのレンズによる注意計算を再現する新しいアーキテクチャであるCompressed Sensing Attention Transformer (CSAT)を紹介する。
CSATは、特に時間的冗長度が高いビデオや、モーダルな接地度が低い言語において、視覚的およびテキスト的表現が本質的に圧縮可能であることを生かしている。
論文 参考訳(メタデータ) (2025-06-30T02:11:20Z) - MedSeg-R: Medical Image Segmentation with Clinical Reasoning [28.33172310047359]
MedSeg-Rは、臨床推論にインスパイアされた軽量でデュアルステージのフレームワークである。
その認知段階は、医療報告を、トランスフォーマーブロックを介して融合される構造化セマンティックプリエントに解釈する。
挑戦的なベンチマークでは、MedSeg-Rは重なり合う構造とあいまいな構造において大きなDiceの改善をもたらす。
論文 参考訳(メタデータ) (2025-06-23T14:14:09Z) - PhyBlock: A Progressive Benchmark for Physical Understanding and Planning via 3D Block Assembly [77.33429729761596]
物理理解と計画について視覚言語モデル(VLM)を評価するためのプログレッシブベンチマークであるPhyBlockを紹介する。
PhyBlockは、視覚質問回答(VQA)サンプルと並行して、新しい4段階の認知階層化タスクを統合する。
我々は21の最先端のVLMをベンチマークし、物理的に基盤化されたマルチステップ計画におけるその強みと限界を強調した。
論文 参考訳(メタデータ) (2025-06-10T11:46:06Z) - Video-Level Language-Driven Video-Based Visible-Infrared Person Re-Identification [47.40091830500585]
Visible-based Infrared Person Re-Identification (VVIReID) は、モダリティ内のシーケンスレベルの特徴を抽出することによって、歩行者のシーケンスをモダリティにわたってマッチングすることを目的としている。
ビデオレベル言語駆動型VVI-ReID(VLD)フレームワークは、イモダリティ言語(IMLP)と時空間アグリゲーションという2つのコアモジュールから構成される。
論文 参考訳(メタデータ) (2025-06-03T04:49:08Z) - PhysLLM: Harnessing Large Language Models for Cross-Modal Remote Physiological Sensing [49.243031514520794]
LLM(Large Language Models)は、テキスト中心の設計のため、長距離信号の取得に優れる。
PhysLLMは最先端の精度とロバスト性を実現し、照明のバリエーションや動きのシナリオにまたがる優れた一般化を示す。
論文 参考訳(メタデータ) (2025-05-06T15:18:38Z) - Hierarchical Context Alignment with Disentangled Geometric and Temporal Modeling for Semantic Occupancy Prediction [61.484280369655536]
カメラを用いた3Dセマンティック占領予測(SOP)は、限られた2次元画像観察から複雑な3Dシーンを理解するのに不可欠である。
既存のSOPメソッドは通常、占有表現学習を支援するためにコンテキストの特徴を集約する。
より正確なSOP(Hi-SOP)のための新しい階層型コンテキストアライメントパラダイムを導入する。
論文 参考訳(メタデータ) (2024-12-11T09:53:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。