論文の概要: VocalEyes: Enhancing Environmental Perception for the Visually Impaired through Vision-Language Models and Distance-Aware Object Detection
- arxiv url: http://arxiv.org/abs/2503.16488v1
- Date: Mon, 10 Mar 2025 13:40:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-30 08:01:21.076016
- Title: VocalEyes: Enhancing Environmental Perception for the Visually Impaired through Vision-Language Models and Distance-Aware Object Detection
- Title(参考訳): VocalEyes:視覚言語モデルと遠隔物体検出による視覚障害者の環境認識の促進
- Authors: Kunal Chavan, Keertan Balaji, Spoorti Barigidad, Samba Raju Chiluveru,
- Abstract要約: 本研究では,ユーザの環境を音声で記述し,状況認識を改善する革新的なリアルタイムシステムを提案する。
システムはライブビデオの入力を取得し、定量化および微調整されたFlorence-2ビッグモデルで処理する。
Parler TTS Miniは、軽量で適応可能なText-to-Speech(TTS)ソリューションで、効率的なオーディオフィードバックを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: With an increasing demand for assistive technologies that promote the independence and mobility of visually impaired people, this study suggests an innovative real-time system that gives audio descriptions of a user's surroundings to improve situational awareness. The system acquires live video input and processes it with a quantized and fine-tuned Florence-2 big model, adjusted to 4-bit accuracy for efficient operation on low-power edge devices such as the NVIDIA Jetson Orin Nano. By transforming the video signal into frames with a 5-frame latency, the model provides rapid and contextually pertinent descriptions of objects, pedestrians, and barriers, together with their estimated distances. The system employs Parler TTS Mini, a lightweight and adaptable Text-to-Speech (TTS) solution, for efficient audio feedback. It accommodates 34 distinct speaker types and enables customization of speech tone, pace, and style to suit user requirements. This study examines the quantization and fine-tuning techniques utilized to modify the Florence-2 model for this application, illustrating how the integration of a compact model architecture with a versatile TTS component improves real-time performance and user experience. The proposed system is assessed based on its accuracy, efficiency, and usefulness, providing a viable option to aid vision-impaired users in navigating their surroundings securely and successfully.
- Abstract(参考訳): 本研究は,視覚障害者の自立・移動を促進する支援技術への需要が高まる中で,ユーザの環境を音声で記述し,状況認識を改善する革新的なリアルタイムシステムを提案する。
このシステムはライブビデオの入力を取得し、NVIDIA Jetson Orin Nanoのような低消費電力エッジデバイス上での効率的な動作のために4ビット精度に調整された量子化および微調整されたFlorence-2ビッグモデルで処理する。
ビデオ信号を5フレームのレイテンシでフレームに変換することにより、推定距離とともに、オブジェクト、歩行者、障壁の迅速かつ文脈的に関連する記述を提供する。
このシステムは、効率的な音声フィードバックのために、軽量で適応可能なText-to-Speech(TTS)ソリューションであるParler TTS Miniを使用している。
34種類の異なる話者タイプに対応し、ユーザーの要求に合うように音声のトーン、ペース、スタイルをカスタマイズできる。
本研究は,フローレンス2モデルの変更に用いる量子化および微調整技術について検討し,汎用TTSコンポーネントとコンパクトモデルアーキテクチャの統合により,リアルタイム性能とユーザエクスペリエンスが向上することを示す。
提案システムは, その正確性, 効率, 有用性に基づいて評価され, 視覚障害者の周囲の安全かつ良好なナビゲーションを支援するための有効な選択肢を提供する。
関連論文リスト
- AI-based Wearable Vision Assistance System for the Visually Impaired: Integrating Real-Time Object Recognition and Contextual Understanding Using Large Vision-Language Models [0.0]
本稿では,音のビープ機構を通じてユーザに対してリアルタイムフィードバックを提供するために,人工知能(AI)技術を用いたウェアラブル視覚支援システムを提案する。
大規模視覚言語モデル(LVLM)を用いたユーザ環境におけるオブジェクトの詳細な記述を提供する。
論文 参考訳(メタデータ) (2024-12-28T07:26:39Z) - StyleSpeech: Parameter-efficient Fine Tuning for Pre-trained Controllable Text-to-Speech [13.713209707407712]
StyleSpeechは、合成音声の自然性と精度を高める新しいテキスト音声合成システムである。
既存のTS技術に基づいて、StyleSpeechには独自のStyle Decorator構造が組み込まれており、ディープラーニングモデルでスタイルと音素の特徴を同時に学習することができる。
LoRAは、事前訓練されたモデルにおけるスタイル機能の効率的な適応を可能にする。
論文 参考訳(メタデータ) (2024-08-27T00:37:07Z) - A Closer Look at Wav2Vec2 Embeddings for On-Device Single-Channel Speech
Enhancement [16.900731393703648]
自己教師付き学習モデルは、特定の音声タスクに非常に効果的であることが判明した。
本稿では,単一チャンネル音声強調におけるSSL表現の利用について検討する。
論文 参考訳(メタデータ) (2024-03-03T02:05:17Z) - ViT-Lens: Towards Omni-modal Representations [64.66508684336614]
ViT-Lens-2は、モダリティ増加の表現学習のためのフレームワークである。
ViT-Lens-2は3Dポイントクラウド,奥行き,オーディオ,触覚,脳波の表現を学習できることを示す。
ViT-Lens-2をシームレスにMultimodal Foundation Modelsに統合することにより、テキストと画像生成へのAny-modalityを可能にする。
論文 参考訳(メタデータ) (2023-11-27T18:52:09Z) - Video-Teller: Enhancing Cross-Modal Generation with Fusion and
Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。
Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。
大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文 参考訳(メタデータ) (2023-10-08T03:35:27Z) - Spatiotemporal Attention-based Semantic Compression for Real-time Video
Recognition [117.98023585449808]
本稿では,各フレームにおけるフレームと画素の重要性を評価するために,時間的注意に基づくオートエンコーダ(STAE)アーキテクチャを提案する。
我々は3D-2D CNNを組み合わせた軽量デコーダを開発し、欠落した情報を再構成する。
実験の結果,VT_STAEはビデオデータセットH51を,5%の精度で104倍圧縮できることがわかった。
論文 参考訳(メタデータ) (2023-05-22T07:47:27Z) - AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。
最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。
また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文 参考訳(メタデータ) (2023-03-29T07:24:28Z) - Compositional Prompt Tuning with Motion Cues for Open-vocabulary Video
Relation Detection [67.64272825961395]
Open-VidVRD(Open-VidVRD)のためのRelation Prompt(RePro)を提案する。
ReProは、Open-VidVRDの2つの技術的課題に対処する: 1) プロンプトトークンは、主題と対象の2つの異なる意味的役割を尊重し、2) チューニングは、対象物の構成の様々な述語時間運動パターンを考慮すべきである。
論文 参考訳(メタデータ) (2023-02-01T06:20:54Z) - Efficient Speech Quality Assessment using Self-supervised Framewise
Embeddings [13.12010504777376]
音声品質評価は、音声研究者、開発者、言語病理学者、システム品質エンジニアにとって不可欠である。
現在の最先端システムは、時間依存モデリングと組み合わせたフレームワイズ音声特徴(手動または学習可能な)に基づいている。
本稿では,ConferenceSpeech 2022 Challengeにおいて,最高のパフォーマンスモデルに匹敵する効率のよいシステムを提案する。
論文 参考訳(メタデータ) (2022-11-12T11:57:08Z) - A Study of Designing Compact Audio-Visual Wake Word Spotting System
Based on Iterative Fine-Tuning in Neural Network Pruning [57.28467469709369]
視覚情報を利用した小型音声覚醒単語スポッティング(WWS)システムの設計について検討する。
繰り返し微調整方式(LTH-IF)で抽選券仮説を通したニューラルネットワークプルーニング戦略を導入する。
提案システムでは,ノイズ条件の異なる単一モード(オーディオのみ,ビデオのみ)システムに対して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-17T08:26:25Z) - MeetDot: Videoconferencing with Live Translation Captions [18.60812558978417]
本稿では,ビデオ会議システムであるMeetDotについて紹介する。
本システムでは、4言語での音声とキャプションをサポートし、自動音声認識(ASR)と機械翻訳(MT)をカスケードで組み合わせる。
我々は,スムーズなスクロールキャプションやキャプションフリックの削減など,ユーザエクスペリエンスの向上と認知負荷の低減のために,いくつかの機能を実装した。
論文 参考訳(メタデータ) (2021-09-20T14:34:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。