論文の概要: ActivityNarrated: An Open-Ended Narrative Paradigm for Wearable Human Activity Understanding
- arxiv url: http://arxiv.org/abs/2604.00767v1
- Date: Wed, 01 Apr 2026 11:31:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.956167
- Title: ActivityNarrated: An Open-Ended Narrative Paradigm for Wearable Human Activity Understanding
- Title(参考訳): ActivityNarrated: ウェアラブルなヒューマンアクティビティ理解のためのオープンエンディング・ナラティブ・パラダイム
- Authors: Lala Shakti Swarup Ray, Mengxi Liu, Alcina Pinto, Deepika Gurung, Daniel Geissler, Paul Lukowoicz, Bo Zhou,
- Abstract要約: オープン語彙設定において、ウェアラブルセンサデータを自然言語記述と整合させることにより、オープンな活動物語をモデル化する方法を示す。
その結果,実世界のウェアラブルHARの実践的かつ効果的な基盤として,オープンエンドな物語モデリングが確立された。
- 参考スコア(独自算出の注目度): 3.8013366586299093
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Wearable HAR has improved steadily, but most progress still relies on closed-set classification, which limits real-world use. In practice, human activity is open-ended, unscripted, personalized, and often compositional, unfolding as narratives rather than instances of fixed classes. We argue that addressing this gap does not require simply scaling datasets or models. It requires a fundamental shift in how wearable HAR is formulated, supervised, and evaluated. This work shows how to model open-ended activity narratives by aligning wearable sensor data with natural-language descriptions in an open-vocabulary setting. Our framework has three core components. First, we introduce a naturalistic data collection and annotation pipeline that combines multi-position wearable sensing with free-form, time-aligned narrative descriptions of ongoing behavior, allowing activity semantics to emerge without a predefined vocabulary. Second, we define a retrieval-based evaluation framework that measures semantic alignment between sensor data and language, enabling principled evaluation without fixed classes while also subsuming closed-set classification as a special case. Third, we present a language-conditioned learning architecture that supports sensor-to-text inference over variable-length sensor streams and heterogeneous sensor placements. Experiments show that models trained with fixed-label objectives degrade sharply under real-world variability, while open-vocabulary sensor-language alignment yields robust and semantically grounded representations. Once this alignment is learned, closed-set activity recognition becomes a simple downstream task. Under cross-participant evaluation, our method achieves 65.3% Macro-F1, compared with 31-34% for strong closed-set HAR baselines. These results establish open-ended narrative modeling as a practical and effective foundation for real-world wearable HAR.
- Abstract(参考訳): ウェアラブルHARは着実に改善されているが、ほとんどの進歩は、現実世界の使用を制限するクローズドセットの分類に依存している。
実際には、人間の活動はオープンエンドで、記述されず、パーソナライズされ、しばしば構成され、固定クラスの例ではなく物語として展開される。
このギャップに対処するためには、単にデータセットやモデルをスケーリングする必要はありません。
ウェアラブルHARの定式化、管理、評価には、根本的なシフトが必要です。
この研究は、オープン語彙設定において、ウェアラブルセンサデータと自然言語記述を整列させることにより、オープンな活動物語をモデル化する方法を示す。
私たちのフレームワークには3つのコアコンポーネントがあります。
まず、マルチポジションのウェアラブルセンシングと、現在進行中の動作に関する自由な時間順の物語記述を組み合わせた、自然主義的なデータ収集とアノテーションパイプラインを導入し、事前に定義された語彙なしでアクティビティセマンティクスが出現できるようにする。
第2に、センサデータと言語間のセマンティックアライメントを測定する検索ベース評価フレームワークを定義し、固定クラスなしでの原則付き評価を可能にするとともに、クローズドセット分類を特別なケースとして仮定する。
第3に、可変長センサストリームと異種センサ配置に対するセンサからテキストへの推論をサポートする言語条件学習アーキテクチャを提案する。
実験により、固定ラベルの目的によって訓練されたモデルは、実世界の可変性の下で急激に劣化し、オープン語彙のセンサー言語アライメントは、堅牢で意味論的に基底化された表現をもたらすことが示された。
このアライメントが学習されると、クローズドセットのアクティビティ認識は単純なダウンストリームタスクになる。
本手法は65.3%のマクロF1を,31-34%の強い閉集合HARベースラインに対して達成した。
これらの結果は,実世界のウェアラブルHARの実践的かつ効果的な基盤として,オープンエンドな物語モデリングを確立している。
関連論文リスト
- AffordGrasp: Cross-Modal Diffusion for Affordance-Aware Grasp Synthesis [50.793806818677716]
AffordGraspは、物理的に安定し、セマンティックに忠実な人間の握りを高精度に生成する。
AffordGraspは、手ポーズの空きを意識した潜在表現を二重条件拡散プロセスに統合する。
AffordGraspはHO-3D, OakInk, GRAB, AffordPoseの4つの命令強化ベンチマークで評価した。
論文 参考訳(メタデータ) (2026-03-09T06:56:35Z) - Zero-Shot Open-Vocabulary Human Motion Grounding with Test-Time Training [39.7658823121591]
ZOMGは、アノテーションや微調整を必要とせずに、動作シーケンスを意味のあるサブアクションに分割するフレームワークである。
ZOMGは(1)言語セマンティックパーティションを統合し、大きな言語モデルを利用して命令を順序付けられたサブアクション単位に分解し、(2)ソフトマスキング最適化を行う。
3つのモーション言語データセットの実験では、HumanML3Dベンチマークにおいて、先行手法を+8.7%mAPで上回る、動作グラウンド性能の最先端の有効性と効率が示されている。
論文 参考訳(メタデータ) (2025-11-19T12:11:36Z) - LOC: A General Language-Guided Framework for Open-Set 3D Occupancy Prediction [9.311605679381529]
我々は,様々な占有ネットワークに適用可能な汎用言語誘導フレームワークLOCを提案する。
自己教師型タスクには,動的/静的シーンに多フレームLiDAR点を融合する戦略,ポアソン再構成を用いて空白を埋める手法,K-Nearest Neighbor (KNN) を介してボクセルに意味を割り当てる手法を用いる。
我々のモデルは,CLIP機能空間に埋め込まれた高密度なボクセル特徴を予測し,テキストと画像の画素情報を統合し,テキストとセマンティックの類似性に基づいて分類する。
論文 参考訳(メタデータ) (2025-10-25T03:27:19Z) - Initial Findings on Sensor based Open Vocabulary Activity Recognition via Text Embedding Inversion [4.831029473163422]
本稿では,まず各アクティビティを自然言語に変換することで制限を克服するフレームワークであるOpen Vocabulary HAR(OV-HAR)を提案する。
自動回帰型大規模言語モデル(LLM)に依存する他の研究とは異なり、OV-HARはそのようなモデルの計算オーバーヘッドを伴わずにオープンな語彙認識を実現する。
論文 参考訳(メタデータ) (2025-01-13T15:24:10Z) - SLAck: Semantic, Location, and Appearance Aware Open-Vocabulary Tracking [89.43370214059955]
Open-vocabulary Multiple Object Tracking (MOT)は、トレーニングセットにはない新しいカテゴリにトラッカーを一般化することを目的としている。
我々は,連合の初期段階において,意味論,位置,出現の先行を共同で検討する統一的な枠組みを提案する。
提案手法は,異なるキューを融合するための複雑な後処理を排除し,大規模オープン語彙追跡のための関連性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-09-17T14:36:58Z) - Vocabulary-Defined Semantics: Latent Space Clustering for Improving In-Context Learning [32.178931149612644]
コンテキスト内学習により、言語モデルは下流のデータに適応したり、プロンプト内のデモとして少数のサンプルでタスクを組み込むことができる。
しかし、文脈内学習のパフォーマンスは、実演の質、形式、順序によって不安定である可能性がある。
語彙定義意味論(vocabulary-defined semantics)を提案する。
論文 参考訳(メタデータ) (2024-01-29T14:29:48Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - Three ways to improve feature alignment for open vocabulary detection [88.65076922242184]
ゼロショットオープンボキャブラリ検出の鍵となる問題は、視覚的特徴とテキスト的特徴の整合性である。
以前のアプローチでは、特徴ピラミッドと検出ヘッドをゼロからトレーニングし、事前トレーニング中に確立された視覚テキストの特徴アライメントを壊す。
本稿では,これらの問題を緩和する3つの方法を提案する。まず,テキストの埋め込みを強化するための簡単なスキームを用いて,学習中に見られる少数のクラスへの過度な適合を防止する。
次に、特徴ピラミッドネットワークと検出ヘッドをトレーニング可能なショートカットを含むように変更する。
最後に、より大きなコーパスを活用するために、自己学習アプローチが使用される。
論文 参考訳(メタデータ) (2023-03-23T17:59:53Z) - Learning Context-aware Classifier for Semantic Segmentation [88.88198210948426]
本稿では,文脈認識型分類器の学習を通じて文脈ヒントを利用する。
本手法はモデルに依存しないため,ジェネリックセグメンテーションモデルにも容易に適用できる。
無視できる追加パラメータと+2%の推論時間だけで、小型モデルと大型モデルの両方で十分な性能向上が達成されている。
論文 参考訳(メタデータ) (2023-03-21T07:00:35Z) - Using Language Model to Bootstrap Human Activity Recognition Ambient
Sensors Based in Smart Homes [2.336163487623381]
本稿では,活動系列分類タスクにおけるLSTMに基づく構造向上のための2つの自然言語処理手法を提案する。
以上の結果から,センサ組織マップなどの有用な情報が得られることが示唆された。
我々のテストでは、埋め込みはターゲットと異なるデータセットで事前トレーニング可能であり、転送学習を可能にしている。
論文 参考訳(メタデータ) (2021-11-23T21:21:14Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。