論文の概要: Scalable Frameworks for Real-World Audio-Visual Speech Recognition
- arxiv url: http://arxiv.org/abs/2512.14083v1
- Date: Tue, 16 Dec 2025 04:50:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.589504
- Title: Scalable Frameworks for Real-World Audio-Visual Speech Recognition
- Title(参考訳): リアルタイム音声認識のためのスケーラブルなフレームワーク
- Authors: Sungnyun Kim,
- Abstract要約: この論文は、現実世界のアプリケーションに高い信頼性を持つ次世代で堅牢でスケーラブルなAVSRシステムを構築することを目的としている。
これら3つのレベルでソリューションを体系的に提供することにより、この論文は次世代で堅牢でスケーラブルなAVSRシステムを構築することを目的としている。
- 参考スコア(独自算出の注目度): 9.825127075279822
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The practical deployment of Audio-Visual Speech Recognition (AVSR) systems is fundamentally challenged by significant performance degradation in real-world environments, characterized by unpredictable acoustic noise and visual interference. This dissertation posits that a systematic, hierarchical approach is essential to overcome these challenges, achieving the robust scalability at the representation, architecture, and system levels. At the representation level, we investigate methods for building a unified model that learns audio-visual features inherently robust to diverse real-world corruptions, thereby enabling generalization to new environments without specialized modules. To address architectural scalability, we explore how to efficiently expand model capacity while ensuring the adaptive and reliable use of multimodal inputs, developing a framework that intelligently allocates computational resources based on the input characteristics. Finally, at the system level, we present methods to expand the system's functionality through modular integration with large-scale foundation models, leveraging their powerful cognitive and generative capabilities to maximize final recognition accuracy. By systematically providing solutions at each of these three levels, this dissertation aims to build a next-generation, robust, and scalable AVSR system with high reliability in real-world applications.
- Abstract(参考訳): AVSR(Audio-Visual Speech Recognition)システムの実践的展開は、予測不能な音響ノイズと視覚的干渉を特徴とする実環境における顕著な性能劣化により、基本的には困難である。
この論文は、これらの課題を克服するためには、体系的で階層的なアプローチが不可欠であり、表現、アーキテクチャ、システムレベルで堅牢なスケーラビリティを達成することを示唆している。
表現レベルでは、様々な現実世界の汚職に対して本質的に堅牢な音声視覚特徴を学習し、特殊なモジュールを使わずに新しい環境への一般化を可能にする統一モデルを構築する方法を検討する。
アーキテクチャのスケーラビリティに対処するため,マルチモーダル入力の適応性と信頼性を確保しつつ,モデルキャパシティを効率的に拡張する方法を検討し,入力特性に基づいて計算資源をインテリジェントに割り当てるフレームワークを開発した。
最後に,システムレベルでは,大規模ファンデーションモデルとのモジュール統合によりシステム機能を拡張し,その強力な認知能力と生成能力を活用し,最終的な認識精度を最大化する手法を提案する。
これら3つのレベルでソリューションを体系的に提供することにより、この論文は、現実世界のアプリケーションに高い信頼性を持つ次世代で堅牢でスケーラブルなAVSRシステムを構築することを目的としている。
関連論文リスト
- Vision-Enhanced Large Language Models for High-Resolution Image Synthesis and Multimodal Data Interpretation [0.0]
本研究では,視覚拡張大言語モデル(LLM)と高度なトランスフォーマベースアーキテクチャを統合するための変換フレームワークを提案する。
提案モデルでは, ノイズとデータを線形経路に接続し, 効率的かつ高品質な生成を可能にする整流機構を組み込んだ。
このフレームワークは、合成画像とコヒーレントなマルチモーダル表現において、非平行な忠実性を達成する。
論文 参考訳(メタデータ) (2025-12-14T08:28:50Z) - Fun-ASR Technical Report [89.84148151617022]
本稿では,大規模データ,大規模モデル容量,LLM統合,強化学習を組み合わせた大規模ALSシステムFun-ASRを提案する。
Fun-ASRは特に実用的なデプロイメントに最適化されており、ストリーミング機能、ノイズの堅牢性、コードスイッチング、ホットワードのカスタマイズ、その他の現実世界のアプリケーション要件を満たすことができる。
運用指向の最適化により、Fun-ASRは実際のアプリケーションデータセット上での最先端のパフォーマンスを実現し、実用的設定におけるその有効性と堅牢性を示す。
論文 参考訳(メタデータ) (2025-09-15T23:19:36Z) - Large-Scale Model Enabled Semantic Communication Based on Robust Knowledge Distillation [45.347078403677216]
大規模モデル(LSM)は意味表現と理解に有効なフレームワークである。
しかしながら、それらの直接的なデプロイメントは、しばしば高い計算複雑性とリソース要求によって妨げられる。
本稿では,新しい知識蒸留に基づくセマンティックコミュニケーションフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-04T07:47:18Z) - So-Fake: Benchmarking and Explaining Social Media Image Forgery Detection [75.79507634008631]
So-Fake-Setは、200万以上の高品質な画像、多様な生成源、35の最先端生成モデルを用いて合成された画像を備えたソーシャルメディア指向のデータセットである。
本稿では,高精度な偽造検出,高精度な位置推定,解釈可能な視覚論理による説明可能な推論に強化学習を利用する高度な視覚言語フレームワークであるSo-Fake-R1を提案する。
論文 参考訳(メタデータ) (2025-05-24T11:53:35Z) - LLM-Ehnanced Holonic Architecture for Ad-Hoc Scalable SoS [3.591449065638895]
推論,通信,機能レイヤを含むホロンの階層化アーキテクチャを提案する。
第2に、インテリジェント製造の原則に触発され、スーパーバイザー、プランナー、タスク、リソースホロンといった専門ホロンを導入します。
これらの専門ホロンは、意思決定をサポートし、リアルタイム適応性を確保するために、推論層内で大きな言語モデルを利用する。
論文 参考訳(メタデータ) (2025-01-14T10:35:54Z) - The OCON model: an old but green solution for distributable supervised classification for acoustic monitoring in smart cities [0.28675177318965045]
本稿では,音声認識領域における母音音素分類と話者認識について述べる。
われわれのケーススタディでは、ASRモデルは独自のセンシングと稲妻システムで動作し、都市部における大気汚染の監視に利用されている。
情報グリッド探索手法を用いて,疑似ニューラルアーキテクチャ探索とハイパースチューニング実験の組み合わせを形式化し,現在最も複雑なアーキテクチャに匹敵する分類精度を実現する。
論文 参考訳(メタデータ) (2024-10-05T09:47:54Z) - Efficient High-Resolution Visual Representation Learning with State Space Model for Human Pose Estimation [60.80423207808076]
高解像度の視覚表現を維持しながら長距離依存関係をキャプチャすることは、人間のポーズ推定のような密集した予測タスクに不可欠である。
マルチスケールの畳み込み操作で視覚状態空間モデルを拡張する動的ビジュアル状態空間(DVSS)ブロックを提案する。
HRVMambaは効率的な高分解能表現学習のための新しいモデルである。
論文 参考訳(メタデータ) (2024-10-04T06:19:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。