論文の概要: Modular Deep Learning Framework for Assistive Perception: Gaze, Affect, and Speaker Identification
- arxiv url: http://arxiv.org/abs/2511.20474v1
- Date: Tue, 25 Nov 2025 16:35:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.554999
- Title: Modular Deep Learning Framework for Assistive Perception: Gaze, Affect, and Speaker Identification
- Title(参考訳): 補助的知覚のためのモジュール型ディープラーニングフレームワーク:視線, 効果, 話者識別
- Authors: Akshit Pramod Anchan, Jewelith Thomas, Sritama Roy,
- Abstract要約: 本研究は「スマートアイ」のような知覚システムのコア機能に触発されたモジュラーアーキテクチャの実現可能性を評価する。
本稿では,視覚状態検出のための畳み込みニューラルネットワーク(CNN),表情認識のための深層CNN,音声による話者識別のためのLong Short-Term Memory(LSTM)ネットワークの3つの独立したセンシングモジュールを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Developing comprehensive assistive technologies requires the seamless integration of visual and auditory perception. This research evaluates the feasibility of a modular architecture inspired by core functionalities of perceptive systems like 'Smart Eye.' We propose and benchmark three independent sensing modules: a Convolutional Neural Network (CNN) for eye state detection (drowsiness/attention), a deep CNN for facial expression recognition, and a Long Short-Term Memory (LSTM) network for voice-based speaker identification. Utilizing the Eyes Image, FER2013, and customized audio datasets, our models achieved accuracies of 93.0%, 97.8%, and 96.89%, respectively. This study demonstrates that lightweight, domain-specific models can achieve high fidelity on discrete tasks, establishing a validated foundation for future real-time, multimodal integration in resource-constrained assistive devices.
- Abstract(参考訳): 包括的補助技術を開発するには、視覚と聴覚のシームレスな統合が必要である。
本研究は「スマートアイ」のような知覚システムのコア機能に触発されたモジュラーアーキテクチャの実現可能性を評価する。
視覚状態検出のための畳み込みニューラルネットワーク(CNN)、表情認識のための深いCNN、音声による話者識別のためのLong Short-Term Memory(LSTM)ネットワークの3つの独立したセンシングモジュールを提案する。
Eyes Image、FER2013、カスタマイズされたオーディオデータセットを使用して、我々のモデルはそれぞれ93.0%、97.8%、96.89%の精度を達成した。
本研究は,資源制約型補助装置におけるリアルタイム・マルチモーダル統合のための検証された基盤を確立することを目的として,離散タスクにおける軽量・ドメイン固有モデルの有効性を実証した。
関連論文リスト
- Lightweight Joint Audio-Visual Deepfake Detection via Single-Stream Multi-Modal Learning Framework [19.53717894228692]
DeepfakesはAI合成マルチメディアデータで、誤情報を拡散するために悪用される可能性がある。
単一ストリームマルチモーダル学習フレームワークを用いた音声・視覚的ディープフェイク検出のための軽量ネットワークを提案する。
提案手法は非常に軽量であり,パラメータは0.48Mに留まるが,ユニモーダルとマルチモーダルの両方のディープフェイクに優れる。
論文 参考訳(メタデータ) (2025-06-09T02:13:04Z) - LiDAR-based Object Detection with Real-time Voice Specifications [0.0]
本稿では,リアルタイム音声仕様を用いたLiDARオブジェクト検出システムを提案する。
3000サンプルのサブセットで87.0%の精度を達成し、200サンプルのベースラインである67.5%を超えている。
Tkinterのプロトタイプは、Edge TTS(en-IN-PrabhatNeural)と3Dビジュアライゼーションとリアルタイムフィードバックを使って、インドの男性による自然な音声出力を提供する。
論文 参考訳(メタデータ) (2025-04-03T16:50:38Z) - Nexus: An Omni-Perceptive And -Interactive Model for Language, Audio, And Vision [83.0622534215881]
本研究は, 聴覚, 視覚, 言語的モダリティを統合した, 産業レベルのOmni-Modal Large Language Model (LLM) パイプラインを提案する。
まず、様々なエンコーダ-LLM-デコーダアーキテクチャの柔軟な構成を可能にするモジュラーフレームワークです。
第二に、最先端のビジョン言語モデルであるQwen2.5-VLのオーディオ言語アライメントを事前訓練する軽量なトレーニング戦略である。
第三に、様々な現実世界のシナリオから高品質な音声テキストデータを生成するオーディオ合成パイプライン。
論文 参考訳(メタデータ) (2025-02-26T17:26:36Z) - Integrating Object Detection Modality into Visual Language Model for Enhanced Autonomous Driving Agent [8.212818176634116]
我々は,YOLOSに基づく検出ネットワークをCLIP認識ネットワークと組み合わせることで,Llama-Adapterアーキテクチャを拡張した。
本手法では, 総合的な環境認識に欠かせないマルチビュー処理を改善するために, カメラIDセパレータを導入している。
論文 参考訳(メタデータ) (2024-11-08T15:50:30Z) - Query-by-Example Keyword Spotting Using Spectral-Temporal Graph Attentive Pooling and Multi-Task Learning [11.182456667123835]
本稿では,スペクトル時間減衰グラフプーリングとマルチタスク学習を利用したQbyE (Query-by-Example) KWSシステムを提案する。
本フレームワークは,QbyE KWSタスクに対する話者不変および言語不変の埋め込みを効果的に学習することを目的としている。
論文 参考訳(メタデータ) (2024-08-27T03:44:57Z) - NNsight and NDIF: Democratizing Access to Open-Weight Foundation Model Internals [58.83169560132308]
NNsightとNDIFを導入し、非常に大きなニューラルネットワークによって学習された表現と計算の科学的研究を可能にする。
論文 参考訳(メタデータ) (2024-07-18T17:59:01Z) - AutoSpeech: Neural Architecture Search for Speaker Recognition [108.69505815793028]
本稿では,AutoSpeech という名称の話者認識タスクに対して,最初のニューラルアーキテクチャ探索アプローチを提案する。
提案アルゴリズムはまず,ニューラルネットワークの最適操作の組み合わせを特定し,その後,複数回重ねてCNNモデルを導出する。
得られたCNNアーキテクチャは,モデル複雑性を低減しつつ,VGG-M,ResNet-18,ResNet-34のバックボーンに基づく現在の話者認識システムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-05-07T02:53:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。