論文の概要: TENT: Connect Language Models with IoT Sensors for Zero-Shot Activity
Recognition
- arxiv url: http://arxiv.org/abs/2311.08245v1
- Date: Tue, 14 Nov 2023 15:30:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 13:40:17.402346
- Title: TENT: Connect Language Models with IoT Sensors for Zero-Shot Activity
Recognition
- Title(参考訳): TENT: ゼロショットアクティビティ認識のためのIoTセンサと言語モデルを接続する
- Authors: Yunjiao Zhou, Jianfei Yang, Han Zou, Lihua Xie
- Abstract要約: 本稿では,人間のような認知機能を備えたインテリジェントなヒューマンアクティビティ認識(HAR)システムの実現可能性について検討する。
テキスト埋め込みとIoTセンサ信号との整合性を備えた,革新的なアプローチであるIoT-sEnsors- languagealignedmEnt pre-Training(TENT)を提案する。
我々は、異なるモダリティを用いてゼロショットHARタスクの最先端性能を実現し、最高の視覚言語モデルを12%以上改善することを示した。
- 参考スコア(独自算出の注目度): 35.816500811872196
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent achievements in language models have showcased their extraordinary
capabilities in bridging visual information with semantic language
understanding. This leads us to a novel question: can language models connect
textual semantics with IoT sensory signals to perform recognition tasks, e.g.,
Human Activity Recognition (HAR)? If so, an intelligent HAR system with
human-like cognition can be built, capable of adapting to new environments and
unseen categories. This paper explores its feasibility with an innovative
approach, IoT-sEnsors-language alignmEnt pre-Training (TENT), which jointly
aligns textual embeddings with IoT sensor signals, including camera video,
LiDAR, and mmWave. Through the IoT-language contrastive learning, we derive a
unified semantic feature space that aligns multi-modal features with language
embeddings, so that the IoT data corresponds to specific words that describe
the IoT data. To enhance the connection between textual categories and their
IoT data, we propose supplementary descriptions and learnable prompts that
bring more semantic information into the joint feature space. TENT can not only
recognize actions that have been seen but also ``guess'' the unseen action by
the closest textual words from the feature space. We demonstrate TENT achieves
state-of-the-art performance on zero-shot HAR tasks using different modalities,
improving the best vision-language models by over 12%.
- Abstract(参考訳): 近年の言語モデルにおける成果は、セマンティック言語理解による視覚情報のブリッジ機能を示すものである。
言語モデルは、テキストのセマンティクスとiotセンサー信号を結びつけることで、例えばヒューマンアクティビティ認識(har)など、認識タスクを実行することができるか?
もしそうなら、人間のような認識を持つインテリジェントなHARシステムが構築でき、新しい環境や目に見えないカテゴリーに適応できる。
本稿では、その実現可能性について、カメラビデオ、LiDAR、mmWaveなどのIoTセンサ信号とテキスト埋め込みを併用した、IoT-sEnsors- languagealignedmEnt pre-Training (TENT)を用いて検討する。
iot言語のコントラスト学習を通じて、マルチモーダル機能を言語埋め込みと整合させる統一的なセマンティック機能空間を導出し、iotデータがiotデータを記述する特定の単語に対応するようにします。
テキストカテゴリとiotデータとの接続性を高めるために,統合機能空間にさらに意味的な情報をもたらす補足的な記述と学習可能なプロンプトを提案する。
TENTは、見たアクションを認識するだけでなく、特徴空間から最も近いテキストワードによって見えないアクションを 'guess'' も認識する。
我々は、異なるモダリティを用いてゼロショットHARタスクの最先端性能を実現し、最高の視覚言語モデルを12%以上改善することを示した。
関連論文リスト
- Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - Spatio-Temporal Context Prompting for Zero-Shot Action Detection [13.22912547389941]
本稿では,視覚言語モデルの豊富な知識を効果的に活用し,対人インタラクションを実現する手法を提案する。
同時に複数の人物による異なる行動を認識するという課題に対処するために,興味あるトークンスポッティング機構を設計する。
提案手法は,従来の手法に比べて優れた結果を得ることができ,さらにマルチアクションビデオに拡張することができる。
論文 参考訳(メタデータ) (2024-08-28T17:59:05Z) - Leveraging Foundation Models for Zero-Shot IoT Sensing [5.319176383069102]
ディープラーニングモデルは、エッジIoT(Internet of Things)デバイスにますますデプロイされている。
ZSLは意味情報の助けを借りて、目に見えないクラスのデータを分類することを目的としている。
本研究では、ゼロショットIoTセンシングのためのFMテキストエンコーダによって生成されたセマンティック埋め込みと、IoTデータの埋め込みを一致させる。
論文 参考訳(メタデータ) (2024-07-29T11:16:48Z) - Self-Supervised Representation Learning with Spatial-Temporal Consistency for Sign Language Recognition [96.62264528407863]
本研究では,空間的時間的整合性を通じてリッチな文脈を探索する自己教師付きコントラスト学習フレームワークを提案する。
動きと関節のモーダル性の相補性に着想を得て,手話モデルに一階動作情報を導入する。
提案手法は,4つの公開ベンチマークの広範な実験により評価され,新しい最先端性能と顕著なマージンを実現している。
論文 参考訳(メタデータ) (2024-06-15T04:50:19Z) - Towards Zero-shot Human-Object Interaction Detection via Vision-Language
Integration [14.678931157058363]
本稿では,ゼロショットHOI検出を改善するために,視覚言語モデルの知識を効果的に統合する新しいフレームワーク「KI2HOI」を提案する。
より包括的な視覚表現を生成するための効果的な付加的自己認識機構を開発する。
我々のモデルは、様々なゼロショットおよびフル教師付き設定において、以前の手法よりも優れています。
論文 参考訳(メタデータ) (2024-03-12T02:07:23Z) - SHINE: Syntax-augmented Hierarchical Interactive Encoder for Zero-shot
Cross-lingual Information Extraction [47.88887327545667]
本研究では,構文拡張型階層型インタラクティブエンコーダ(SHINE)を提案する。
Shineは、特徴とコンテキスト情報の間の相補的な情報をインタラクティブにキャプチャすることができる。
3つのIEタスクと4つのベンチマークで7つの言語で実験を行い、提案手法の有効性と一般化能力を検証した。
論文 参考訳(メタデータ) (2023-05-21T08:02:06Z) - KERM: Knowledge Enhanced Reasoning for Vision-and-Language Navigation [61.08389704326803]
VLN(Vision-and-Language Navigation)は、実シーンにおける自然言語命令に続く遠隔地への移動を可能にするタスクである。
以前のアプローチのほとんどは、ナビゲート可能な候補を表現するために、機能全体やオブジェクト中心の機能を利用している。
本稿では,知識を活用したエージェントナビゲーション能力向上のための知識強化推論モデル(KERM)を提案する。
論文 参考訳(メタデータ) (2023-03-28T08:00:46Z) - The Internet of Senses: Building on Semantic Communications and Edge
Intelligence [67.75406096878321]
インターネット・オブ・センセーズ(IoS)は、すべてのヒト受容体に対する欠陥のないテレプレゼンススタイルのコミュニケーションを約束する。
我々は,新たなセマンティックコミュニケーションと人工知能(AI)/機械学習(ML)パラダイムがIoSユースケースの要件を満たす方法について詳しく述べる。
論文 参考訳(メタデータ) (2022-12-21T03:37:38Z) - AttViz: Online exploration of self-attention for transparent neural
language modeling [7.574392147428978]
本研究では,AttVizを提案する。AttVizは,個々のテキストトークンに関連付けられた自己注意値の探索を行うオンラインツールキットである。
既存のディープラーニングパイプラインが、AttVizに適したアウトプットを生成し、最小限の労力で、アテンションヘッドとアグリゲーションの新たな視覚化を提供する方法を示します。
論文 参考訳(メタデータ) (2020-05-12T12:21:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。