論文の概要: Achieving Effective Virtual Reality Interactions via Acoustic Gesture Recognition based on Large Language Models
- arxiv url: http://arxiv.org/abs/2511.07085v1
- Date: Mon, 10 Nov 2025 13:19:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.267729
- Title: Achieving Effective Virtual Reality Interactions via Acoustic Gesture Recognition based on Large Language Models
- Title(参考訳): 大規模言語モデルに基づく音響ジェスチャー認識による効果的なバーチャルリアリティインタラクションの実現
- Authors: Xijie Zhang, Fengliang He, Hong-Ning Dai,
- Abstract要約: 視覚に基づくジェスチャー認識は、高い計算コスト、照明条件への感受性、プライバシー漏洩の懸念に悩まされている。
難聴の高周波信号を出力し反射を捉え、チャネルインパルス応答(CIR)を符号化することで、ジェスチャーが音場を低コストでユーザ透明な方法で摂動する方法を符号化する。
本稿では,VR/ARシステムにおけるCIRに基づくジェスチャー認識のための大規模言語モデル(LLM)を利用する最初のフレームワークを提案する。
- 参考スコア(独自算出の注目度): 11.630591232366255
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural and efficient interaction remains a critical challenge for virtual reality and augmented reality (VR/AR) systems. Vision-based gesture recognition suffers from high computational cost, sensitivity to lighting conditions, and privacy leakage concerns. Acoustic sensing provides an attractive alternative: by emitting inaudible high-frequency signals and capturing their reflections, channel impulse response (CIR) encodes how gestures perturb the acoustic field in a low-cost and user-transparent manner. However, existing CIR-based gesture recognition methods often rely on extensive training of models on large labeled datasets, making them unsuitable for few-shot VR scenarios. In this work, we propose the first framework that leverages large language models (LLMs) for CIR-based gesture recognition in VR/AR systems. Despite LLMs' strengths, it is non-trivial to achieve few-shot and zero-shot learning of CIR gestures due to their inconspicuous features. To tackle this challenge, we collect differential CIR rather than original CIR data. Moreover, we construct a real-world dataset collected from 10 participants performing 15 gestures across three categories (digits, letters, and shapes), with 10 repetitions each. We then conduct extensive experiments on this dataset using an LLM-adopted classifier. Results show that our LLM-based framework achieves accuracy comparable to classical machine learning baselines, while requiring no domain-specific retraining.
- Abstract(参考訳): 自然で効率的なインタラクションは、仮想現実と拡張現実(VR/AR)システムにとって重要な課題である。
視覚に基づくジェスチャー認識は、高い計算コスト、照明条件への感受性、プライバシー漏洩の懸念に悩まされている。
難聴の高周波信号を出力し反射を捉え、チャネルインパルス応答(CIR)を符号化することで、ジェスチャーが音場を低コストでユーザ透明な方法で摂動する方法を符号化する。
しかし、既存のCIRベースのジェスチャー認識手法は、しばしば大きなラベル付きデータセット上のモデルの広範なトレーニングに依存しており、数ショットのVRシナリオには適さない。
本研究では,VR/ARシステムにおけるCIRに基づくジェスチャー認識のための大規模言語モデル(LLM)を利用した最初のフレームワークを提案する。
LLMの強みにもかかわらず、その不明瞭な特徴のために、CIRジェスチャーの少ないショットとゼロショットの学習を実現することは自明ではない。
この課題に対処するために、元のCIRデータではなく、差分CIRを収集する。
さらに,3つのカテゴリ(桁,文字,形状)にわたる15のジェスチャーを行う10人の参加者から収集した実世界のデータセットを,それぞれ10回繰り返して構築する。
次に,LLMを付加した分類器を用いて,このデータセットに関する広範な実験を行う。
その結果、LLMベースのフレームワークは、従来の機械学習ベースラインに匹敵する精度を達成でき、ドメイン固有のリトレーニングは不要であることがわかった。
関連論文リスト
- Omni-AVSR: Towards Unified Multimodal Speech Recognition with Large Language Models [34.15708407614003]
大規模言語モデル(LLM)は、最近、複数のモーダルをまたいだ音声認識において、印象的な成果を上げている。
Omni-AVSRは,マルチグラニュラリティ学習とパラメータ効率の両立を両立した統合型音声視覚LLMである。
LRS2 と LRS3 の実験では、Omni-AVSR は最先端のベースラインと同等または優れた精度で達成されている。
論文 参考訳(メタデータ) (2025-11-10T16:03:44Z) - Fun-ASR Technical Report [89.84148151617022]
本稿では,大規模データ,大規模モデル容量,LLM統合,強化学習を組み合わせた大規模ALSシステムFun-ASRを提案する。
Fun-ASRは特に実用的なデプロイメントに最適化されており、ストリーミング機能、ノイズの堅牢性、コードスイッチング、ホットワードのカスタマイズ、その他の現実世界のアプリケーション要件を満たすことができる。
運用指向の最適化により、Fun-ASRは実際のアプリケーションデータセット上での最先端のパフォーマンスを実現し、実用的設定におけるその有効性と堅牢性を示す。
論文 参考訳(メタデータ) (2025-09-15T23:19:36Z) - Spatiotemporal Attention Learning Framework for Event-Driven Object Recognition [1.0445957451908694]
イベントベースの視覚センサは、位置、極性、情報を含むスパースイベントストリームとして、局所ピクセルレベルの強度変化をキャプチャする。
本稿では、CBAM(Contemporalal Block Attention Module)により強化されたVARGGネットワークを利用した、イベントベースのオブジェクト認識のための新しい学習フレームワークを提案する。
提案手法は,従来のVGGモデルと比較してパラメータ数を2.3%削減しつつ,最先端のResNet手法に匹敵する性能を実現する。
論文 参考訳(メタデータ) (2025-04-01T02:37:54Z) - Radar-Based Recognition of Static Hand Gestures in American Sign
Language [17.021656590925005]
本研究では,先進レーダ線トレーシングシミュレータによる合成データの有効性について検討した。
シミュレータは直感的な材料モデルを採用し、データ多様性を導入するように調整することができる。
NNを合成データで専用にトレーニングしているにもかかわらず、実際の測定データでテストを行うと、有望な性能を示す。
論文 参考訳(メタデータ) (2024-02-20T08:19:30Z) - AV-RIR: Audio-Visual Room Impulse Response Estimation [49.469389715876915]
室内インパルス応答(RIR)の正確な推定は,音声処理やAR/VR応用において重要である。
本稿では,与えられた残響音声信号と対応する環境の視覚的手がかりからRIRを正確に推定する,新しいマルチモーダルマルチタスク学習手法であるAV-RIRを提案する。
論文 参考訳(メタデータ) (2023-11-30T22:58:30Z) - RIR-SF: Room Impulse Response Based Spatial Feature for Target Speech Recognition in Multi-Channel Multi-Speaker Scenarios [36.50731790624643]
室内インパルス応答(RIR)に基づく空間的特徴を持つRIR-SFについて紹介する。
RIR-SFは従来の3次元空間特性よりも優れており、理論的および経験的性能が優れている。
また、RIR-SFのための最適化されたオールニューラルマルチチャネルASRフレームワークを提案し、マルチチャネル設定におけるターゲット話者ASRに対するCERの相対的な21.3%削減を実現した。
論文 参考訳(メタデータ) (2023-10-31T20:42:08Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。