論文の概要: Initial Findings on Sensor based Open Vocabulary Activity Recognition via Text Embedding Inversion
- arxiv url: http://arxiv.org/abs/2501.07408v1
- Date: Mon, 13 Jan 2025 15:24:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:25:22.595257
- Title: Initial Findings on Sensor based Open Vocabulary Activity Recognition via Text Embedding Inversion
- Title(参考訳): テキスト埋め込みインバージョンによるセンサベースオープン語彙行動認識の初期発見
- Authors: Lala Shakti Swarup Ray, Bo Zhou, Sungho Suh, Paul Lukowicz,
- Abstract要約: 本稿では,まず各アクティビティを自然言語に変換することで制限を克服するフレームワークであるOpen Vocabulary HAR(OV-HAR)を提案する。
自動回帰型大規模言語モデル(LLM)に依存する他の研究とは異なり、OV-HARはそのようなモデルの計算オーバーヘッドを伴わずにオープンな語彙認識を実現する。
- 参考スコア(独自算出の注目度): 4.831029473163422
- License:
- Abstract: Conventional human activity recognition (HAR) relies on classifiers trained to predict discrete activity classes, inherently limiting recognition to activities explicitly present in the training set. Such classifiers would invariably fail, putting zero likelihood, when encountering unseen activities. We propose Open Vocabulary HAR (OV-HAR), a framework that overcomes this limitation by first converting each activity into natural language and breaking it into a sequence of elementary motions. This descriptive text is then encoded into a fixed-size embedding. The model is trained to regress this embedding, which is subsequently decoded back into natural language using a pre-trained embedding inversion model. Unlike other works that rely on auto-regressive large language models (LLMs) at their core, OV-HAR achieves open vocabulary recognition without the computational overhead of such models. The generated text can be transformed into a single activity class using LLM prompt engineering. We have evaluated our approach on different modalities, including vision (pose), IMU, and pressure sensors, demonstrating robust generalization across unseen activities and modalities, offering a fundamentally different paradigm from contemporary classifiers.
- Abstract(参考訳): 従来のヒューマンアクティビティ認識(HAR)は、個別のアクティビティクラスを予測するために訓練された分類器に依存しており、本質的には、トレーニングセットに明示的に存在するアクティビティに認識を制限する。
そのような分類器は必ず失敗し、目に見えない活動に遭遇するとゼロになる。
この制限を克服するフレームワークであるOpen Vocabulary HAR(OV-HAR)を提案する。
この記述テキストは、固定サイズの埋め込みにエンコードされる。
このモデルは、この埋め込みを回帰するように訓練され、その後、トレーニング済みの埋め込み反転モデルを使用して自然言語に復号される。
自己回帰型大規模言語モデル(LLM)を中核とする他の研究とは異なり、OV-HARはそのようなモデルの計算オーバーヘッドを伴わずにオープンな語彙認識を実現する。
生成されたテキストは、LLMプロンプトエンジニアリングを使用して単一のアクティビティクラスに変換することができる。
我々は、視覚(目的)、IMU、圧力センサーなど様々なモダリティに対するアプローチを評価し、目に見えない活動やモダリティにまたがる堅牢な一般化を実証し、現代の分類器と根本的に異なるパラダイムを提供してきた。
関連論文リスト
- Spatio-Temporal Context Prompting for Zero-Shot Action Detection [13.22912547389941]
本稿では,視覚言語モデルの豊富な知識を効果的に活用し,対人インタラクションを実現する手法を提案する。
同時に複数の人物による異なる行動を認識するという課題に対処するために,興味あるトークンスポッティング機構を設計する。
提案手法は,従来の手法に比べて優れた結果を得ることができ,さらにマルチアクションビデオに拡張することができる。
論文 参考訳(メタデータ) (2024-08-28T17:59:05Z) - Active Open-Vocabulary Recognition: Let Intelligent Moving Mitigate CLIP
Limitations [9.444540281544715]
オープン語彙認識のための新しいエージェントを提案する。
提案手法は,クラス固有の知識に頼ることなく,フレーム間の類似性や概念間の類似性を利用してエージェントの動きをナビゲートし,特徴を融合する。
論文 参考訳(メタデータ) (2023-11-28T19:24:07Z) - Towards Open-Ended Visual Recognition with Large Language Model [27.56182473356992]
我々は,新しいLarge Language Model (LLM) ベースのマスク分類器であるOmniScient Model (OSM)を紹介する。
OSMは、クラスラベルを生成的に予測し、トレーニングとテストの両方でクラス名の供給を除去する。
また、人間の干渉なしにデータセット間のトレーニングを可能にする。
論文 参考訳(メタデータ) (2023-11-14T18:59:01Z) - Multi-Semantic Fusion Model for Generalized Zero-Shot Skeleton-Based
Action Recognition [32.291333054680855]
一般化ゼロショットスケルトンに基づく行動認識(GZSSAR)は、コンピュータビジョンコミュニティにおいて新たな課題である。
GZSSARの性能向上のためのマルチセマンティック・フュージョン(MSF)モデルを提案する。
論文 参考訳(メタデータ) (2023-09-18T09:00:25Z) - Global Knowledge Calibration for Fast Open-Vocabulary Segmentation [124.74256749281625]
本稿では,各学習カテゴリの同義語群を生成するテキスト多様化戦略を提案する。
また,CLIPの汎用的な知識を維持するために,テキスト誘導型知識蒸留法を用いている。
提案手法は, 各種データセットに対して頑健な一般化性能を実現する。
論文 参考訳(メタデータ) (2023-03-16T09:51:41Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Pre-Trained Language Models for Interactive Decision-Making [72.77825666035203]
目的と観測を埋め込みのシーケンスとして表現する模倣学習の枠組みを述べる。
このフレームワークは様々な環境にまたがって効果的な一般化を可能にすることを実証する。
新たなゴールや新しいシーンを含むテストタスクでは、言語モデルによる初期化ポリシーはタスク完了率を43.6%改善する。
論文 参考訳(メタデータ) (2022-02-03T18:55:52Z) - Active Learning for Sequence Tagging with Deep Pre-trained Models and
Bayesian Uncertainty Estimates [52.164757178369804]
自然言語処理のためのトランスファーラーニングとアクティブラーニングの最近の進歩は、必要なアノテーション予算を大幅に削減する可能性を開く。
我々は,様々なベイズ不確実性推定手法とモンテカルロドロップアウトオプションの実験的研究を,アクティブ学習フレームワークで実施する。
また, 能動学習中にインスタンスを取得するためには, 完全サイズのトランスフォーマーを蒸留版に置き換えることにより, 計算性能が向上することを示した。
論文 参考訳(メタデータ) (2021-01-20T13:59:25Z) - SLM: Learning a Discourse Language Representation with Sentence
Unshuffling [53.42814722621715]
談話言語表現を学習するための新しい事前学習目的である文レベル言語モデリングを導入する。
本モデルでは,この特徴により,従来のBERTの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-10-30T13:33:41Z) - Pre-trained Language Model Based Active Learning for Sentence Matching [18.48335957524662]
文マッチングのための事前学習型言語モデルに基づく能動的学習手法を提案する。
我々のアプローチは、ラベル付きトレーニングインスタンスを少なくすることで、より精度の高いものを実現できます。
論文 参考訳(メタデータ) (2020-10-12T08:24:36Z) - Inferring Temporal Compositions of Actions Using Probabilistic Automata [61.09176771931052]
本稿では,動作の時間的構成を意味正規表現として表現し,確率的オートマトンを用いた推論フレームワークを提案する。
我々のアプローチは、長い範囲の複雑なアクティビティを、順序のないアトミックアクションのセットとして予測するか、自然言語文を使ってビデオを取得するという既存の研究とは異なる。
論文 参考訳(メタデータ) (2020-04-28T00:15:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。