論文の概要: TENT: Connect Language Models with IoT Sensors for Zero-Shot Activity
Recognition
- arxiv url: http://arxiv.org/abs/2311.08245v1
- Date: Tue, 14 Nov 2023 15:30:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 13:40:17.402346
- Title: TENT: Connect Language Models with IoT Sensors for Zero-Shot Activity
Recognition
- Title(参考訳): TENT: ゼロショットアクティビティ認識のためのIoTセンサと言語モデルを接続する
- Authors: Yunjiao Zhou, Jianfei Yang, Han Zou, Lihua Xie
- Abstract要約: 本稿では,人間のような認知機能を備えたインテリジェントなヒューマンアクティビティ認識(HAR)システムの実現可能性について検討する。
テキスト埋め込みとIoTセンサ信号との整合性を備えた,革新的なアプローチであるIoT-sEnsors- languagealignedmEnt pre-Training(TENT)を提案する。
我々は、異なるモダリティを用いてゼロショットHARタスクの最先端性能を実現し、最高の視覚言語モデルを12%以上改善することを示した。
- 参考スコア(独自算出の注目度): 35.816500811872196
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent achievements in language models have showcased their extraordinary
capabilities in bridging visual information with semantic language
understanding. This leads us to a novel question: can language models connect
textual semantics with IoT sensory signals to perform recognition tasks, e.g.,
Human Activity Recognition (HAR)? If so, an intelligent HAR system with
human-like cognition can be built, capable of adapting to new environments and
unseen categories. This paper explores its feasibility with an innovative
approach, IoT-sEnsors-language alignmEnt pre-Training (TENT), which jointly
aligns textual embeddings with IoT sensor signals, including camera video,
LiDAR, and mmWave. Through the IoT-language contrastive learning, we derive a
unified semantic feature space that aligns multi-modal features with language
embeddings, so that the IoT data corresponds to specific words that describe
the IoT data. To enhance the connection between textual categories and their
IoT data, we propose supplementary descriptions and learnable prompts that
bring more semantic information into the joint feature space. TENT can not only
recognize actions that have been seen but also ``guess'' the unseen action by
the closest textual words from the feature space. We demonstrate TENT achieves
state-of-the-art performance on zero-shot HAR tasks using different modalities,
improving the best vision-language models by over 12%.
- Abstract(参考訳): 近年の言語モデルにおける成果は、セマンティック言語理解による視覚情報のブリッジ機能を示すものである。
言語モデルは、テキストのセマンティクスとiotセンサー信号を結びつけることで、例えばヒューマンアクティビティ認識(har)など、認識タスクを実行することができるか?
もしそうなら、人間のような認識を持つインテリジェントなHARシステムが構築でき、新しい環境や目に見えないカテゴリーに適応できる。
本稿では、その実現可能性について、カメラビデオ、LiDAR、mmWaveなどのIoTセンサ信号とテキスト埋め込みを併用した、IoT-sEnsors- languagealignedmEnt pre-Training (TENT)を用いて検討する。
iot言語のコントラスト学習を通じて、マルチモーダル機能を言語埋め込みと整合させる統一的なセマンティック機能空間を導出し、iotデータがiotデータを記述する特定の単語に対応するようにします。
テキストカテゴリとiotデータとの接続性を高めるために,統合機能空間にさらに意味的な情報をもたらす補足的な記述と学習可能なプロンプトを提案する。
TENTは、見たアクションを認識するだけでなく、特徴空間から最も近いテキストワードによって見えないアクションを 'guess'' も認識する。
我々は、異なるモダリティを用いてゼロショットHARタスクの最先端性能を実現し、最高の視覚言語モデルを12%以上改善することを示した。
関連論文リスト
- Towards Zero-shot Human-Object Interaction Detection via Vision-Language
Integration [14.678931157058363]
本稿では,ゼロショットHOI検出を改善するために,視覚言語モデルの知識を効果的に統合する新しいフレームワーク「KI2HOI」を提案する。
より包括的な視覚表現を生成するための効果的な付加的自己認識機構を開発する。
我々のモデルは、様々なゼロショットおよびフル教師付き設定において、以前の手法よりも優れています。
論文 参考訳(メタデータ) (2024-03-12T02:07:23Z) - PVLR: Prompt-driven Visual-Linguistic Representation Learning for
Multi-Label Image Recognition [47.11517266162346]
本稿では,言語的モダリティの能力をよりよく活用するための,プロンプト駆動型視覚言語表現学習フレームワークを提案する。
従来の一方向融合とは対照的に,テキストと視覚的特徴の双方向相互作用を可能にするDMA(Dual-Modal Attention)を導入する。
論文 参考訳(メタデータ) (2024-01-31T14:39:11Z) - SHINE: Syntax-augmented Hierarchical Interactive Encoder for Zero-shot
Cross-lingual Information Extraction [47.88887327545667]
本研究では,構文拡張型階層型インタラクティブエンコーダ(SHINE)を提案する。
Shineは、特徴とコンテキスト情報の間の相補的な情報をインタラクティブにキャプチャすることができる。
3つのIEタスクと4つのベンチマークで7つの言語で実験を行い、提案手法の有効性と一般化能力を検証した。
論文 参考訳(メタデータ) (2023-05-21T08:02:06Z) - KERM: Knowledge Enhanced Reasoning for Vision-and-Language Navigation [61.08389704326803]
VLN(Vision-and-Language Navigation)は、実シーンにおける自然言語命令に続く遠隔地への移動を可能にするタスクである。
以前のアプローチのほとんどは、ナビゲート可能な候補を表現するために、機能全体やオブジェクト中心の機能を利用している。
本稿では,知識を活用したエージェントナビゲーション能力向上のための知識強化推論モデル(KERM)を提案する。
論文 参考訳(メタデータ) (2023-03-28T08:00:46Z) - The Internet of Senses: Building on Semantic Communications and Edge
Intelligence [67.75406096878321]
インターネット・オブ・センセーズ(IoS)は、すべてのヒト受容体に対する欠陥のないテレプレゼンススタイルのコミュニケーションを約束する。
我々は,新たなセマンティックコミュニケーションと人工知能(AI)/機械学習(ML)パラダイムがIoSユースケースの要件を満たす方法について詳しく述べる。
論文 参考訳(メタデータ) (2022-12-21T03:37:38Z) - Using Language Model to Bootstrap Human Activity Recognition Ambient
Sensors Based in Smart Homes [2.336163487623381]
本稿では,活動系列分類タスクにおけるLSTMに基づく構造向上のための2つの自然言語処理手法を提案する。
以上の結果から,センサ組織マップなどの有用な情報が得られることが示唆された。
我々のテストでは、埋め込みはターゲットと異なるデータセットで事前トレーニング可能であり、転送学習を可能にしている。
論文 参考訳(メタデータ) (2021-11-23T21:21:14Z) - An Attribute-Aligned Strategy for Learning Speech Representation [57.891727280493015]
属性選択機構によってこれらの問題に柔軟に対処できる音声表現を導出する属性整合学習戦略を提案する。
具体的には、音声表現を属性依存ノードに分解する層式表現可変オートエンコーダ(LR-VAE)を提案する。
提案手法は,IDのないSER上での競合性能と,無感情SV上でのより良い性能を実現する。
論文 参考訳(メタデータ) (2021-06-05T06:19:14Z) - Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文 参考訳(メタデータ) (2020-11-18T20:21:19Z) - AttViz: Online exploration of self-attention for transparent neural
language modeling [7.574392147428978]
本研究では,AttVizを提案する。AttVizは,個々のテキストトークンに関連付けられた自己注意値の探索を行うオンラインツールキットである。
既存のディープラーニングパイプラインが、AttVizに適したアウトプットを生成し、最小限の労力で、アテンションヘッドとアグリゲーションの新たな視覚化を提供する方法を示します。
論文 参考訳(メタデータ) (2020-05-12T12:21:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。