論文の概要: Scalable Frameworks for Real-World Audio-Visual Speech Recognition
- arxiv url: http://arxiv.org/abs/2512.14083v1
- Date: Tue, 16 Dec 2025 04:50:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.589504
- Title: Scalable Frameworks for Real-World Audio-Visual Speech Recognition
- Title(参考訳): リアルタイム音声認識のためのスケーラブルなフレームワーク
- Authors: Sungnyun Kim,
- Abstract要約: この論文は、現実世界のアプリケーションに高い信頼性を持つ次世代で堅牢でスケーラブルなAVSRシステムを構築することを目的としている。
これら3つのレベルでソリューションを体系的に提供することにより、この論文は次世代で堅牢でスケーラブルなAVSRシステムを構築することを目的としている。
- 参考スコア(独自算出の注目度): 9.825127075279822
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The practical deployment of Audio-Visual Speech Recognition (AVSR) systems is fundamentally challenged by significant performance degradation in real-world environments, characterized by unpredictable acoustic noise and visual interference. This dissertation posits that a systematic, hierarchical approach is essential to overcome these challenges, achieving the robust scalability at the representation, architecture, and system levels. At the representation level, we investigate methods for building a unified model that learns audio-visual features inherently robust to diverse real-world corruptions, thereby enabling generalization to new environments without specialized modules. To address architectural scalability, we explore how to efficiently expand model capacity while ensuring the adaptive and reliable use of multimodal inputs, developing a framework that intelligently allocates computational resources based on the input characteristics. Finally, at the system level, we present methods to expand the system's functionality through modular integration with large-scale foundation models, leveraging their powerful cognitive and generative capabilities to maximize final recognition accuracy. By systematically providing solutions at each of these three levels, this dissertation aims to build a next-generation, robust, and scalable AVSR system with high reliability in real-world applications.
- Abstract(参考訳): AVSR(Audio-Visual Speech Recognition)システムの実践的展開は、予測不能な音響ノイズと視覚的干渉を特徴とする実環境における顕著な性能劣化により、基本的には困難である。
この論文は、これらの課題を克服するためには、体系的で階層的なアプローチが不可欠であり、表現、アーキテクチャ、システムレベルで堅牢なスケーラビリティを達成することを示唆している。
表現レベルでは、様々な現実世界の汚職に対して本質的に堅牢な音声視覚特徴を学習し、特殊なモジュールを使わずに新しい環境への一般化を可能にする統一モデルを構築する方法を検討する。
アーキテクチャのスケーラビリティに対処するため,マルチモーダル入力の適応性と信頼性を確保しつつ,モデルキャパシティを効率的に拡張する方法を検討し,入力特性に基づいて計算資源をインテリジェントに割り当てるフレームワークを開発した。
最後に,システムレベルでは,大規模ファンデーションモデルとのモジュール統合によりシステム機能を拡張し,その強力な認知能力と生成能力を活用し,最終的な認識精度を最大化する手法を提案する。
これら3つのレベルでソリューションを体系的に提供することにより、この論文は、現実世界のアプリケーションに高い信頼性を持つ次世代で堅牢でスケーラブルなAVSRシステムを構築することを目的としている。
関連論文リスト
- Continual learning and refinement of causal models through dynamic predicate invention [0.6198237241838559]
本稿では,オンライン上での象徴的因果世界モデル構築のためのフレームワークを提案する。
我々はメタ解釈学習の力を活用し、意味論的で再利用可能な抽象化を見つけるために発明を述語する。
論文 参考訳(メタデータ) (2026-02-19T10:08:31Z) - Forging Spatial Intelligence: A Roadmap of Multi-Modal Data Pre-Training for Autonomous Systems [75.78934957242403]
自動運転車とドローンは、マルチモーダル搭載センサーデータから真の空間情報を必要とする。
本稿では,この目標に向かって進む中核的な技術群を同定し,マルチモーダル・プレトレーニングのためのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-30T17:58:01Z) - Multimodal Interpretation of Remote Sensing Images: Dynamic Resolution Input Strategy and Multi-scale Vision-Language Alignment Mechanism [10.17375002962432]
本研究では2つの重要な革新と統合された視覚言語モデル(VLM)フレームワークを提案する。
DRISは、画像の内容の複雑さに応じて、計算資源を適応的に割り当てる粗大なアプローチを採用している。
MS-VLAMは、オブジェクト、ローカルリージョン、グローバルレベルをカバーする3層アライメント機構を構築する。
論文 参考訳(メタデータ) (2025-12-29T06:51:20Z) - From Word to World: Can Large Language Models be Implicit Text-based World Models? [82.47317196099907]
エージェント強化学習は、経験駆動のスケーリングにますます依存している。
世界モデルは、シミュレートされた経験を通して学習効率を改善する潜在的方法を提供する。
大規模言語モデルがこの役割を確実に果たせるか,どのような条件でエージェントに有意義な利益をもたらすかを検討する。
論文 参考訳(メタデータ) (2025-12-21T17:28:42Z) - Vision-Enhanced Large Language Models for High-Resolution Image Synthesis and Multimodal Data Interpretation [0.0]
本研究では,視覚拡張大言語モデル(LLM)と高度なトランスフォーマベースアーキテクチャを統合するための変換フレームワークを提案する。
提案モデルでは, ノイズとデータを線形経路に接続し, 効率的かつ高品質な生成を可能にする整流機構を組み込んだ。
このフレームワークは、合成画像とコヒーレントなマルチモーダル表現において、非平行な忠実性を達成する。
論文 参考訳(メタデータ) (2025-12-14T08:28:50Z) - Fun-ASR Technical Report [89.84148151617022]
本稿では,大規模データ,大規模モデル容量,LLM統合,強化学習を組み合わせた大規模ALSシステムFun-ASRを提案する。
Fun-ASRは特に実用的なデプロイメントに最適化されており、ストリーミング機能、ノイズの堅牢性、コードスイッチング、ホットワードのカスタマイズ、その他の現実世界のアプリケーション要件を満たすことができる。
運用指向の最適化により、Fun-ASRは実際のアプリケーションデータセット上での最先端のパフォーマンスを実現し、実用的設定におけるその有効性と堅牢性を示す。
論文 参考訳(メタデータ) (2025-09-15T23:19:36Z) - Large-Scale Model Enabled Semantic Communication Based on Robust Knowledge Distillation [45.347078403677216]
大規模モデル(LSM)は意味表現と理解に有効なフレームワークである。
しかしながら、それらの直接的なデプロイメントは、しばしば高い計算複雑性とリソース要求によって妨げられる。
本稿では,新しい知識蒸留に基づくセマンティックコミュニケーションフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-04T07:47:18Z) - So-Fake: Benchmarking and Explaining Social Media Image Forgery Detection [75.79507634008631]
So-Fake-Setは、200万以上の高品質な画像、多様な生成源、35の最先端生成モデルを用いて合成された画像を備えたソーシャルメディア指向のデータセットである。
本稿では,高精度な偽造検出,高精度な位置推定,解釈可能な視覚論理による説明可能な推論に強化学習を利用する高度な視覚言語フレームワークであるSo-Fake-R1を提案する。
論文 参考訳(メタデータ) (2025-05-24T11:53:35Z) - AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。
本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文 参考訳(メタデータ) (2025-04-06T13:59:16Z) - LLM-Ehnanced Holonic Architecture for Ad-Hoc Scalable SoS [3.591449065638895]
推論,通信,機能レイヤを含むホロンの階層化アーキテクチャを提案する。
第2に、インテリジェント製造の原則に触発され、スーパーバイザー、プランナー、タスク、リソースホロンといった専門ホロンを導入します。
これらの専門ホロンは、意思決定をサポートし、リアルタイム適応性を確保するために、推論層内で大きな言語モデルを利用する。
論文 参考訳(メタデータ) (2025-01-14T10:35:54Z) - The OCON model: an old but green solution for distributable supervised classification for acoustic monitoring in smart cities [0.28675177318965045]
本稿では,音声認識領域における母音音素分類と話者認識について述べる。
われわれのケーススタディでは、ASRモデルは独自のセンシングと稲妻システムで動作し、都市部における大気汚染の監視に利用されている。
情報グリッド探索手法を用いて,疑似ニューラルアーキテクチャ探索とハイパースチューニング実験の組み合わせを形式化し,現在最も複雑なアーキテクチャに匹敵する分類精度を実現する。
論文 参考訳(メタデータ) (2024-10-05T09:47:54Z) - Efficient High-Resolution Visual Representation Learning with State Space Model for Human Pose Estimation [60.80423207808076]
高解像度の視覚表現を維持しながら長距離依存関係をキャプチャすることは、人間のポーズ推定のような密集した予測タスクに不可欠である。
マルチスケールの畳み込み操作で視覚状態空間モデルを拡張する動的ビジュアル状態空間(DVSS)ブロックを提案する。
HRVMambaは効率的な高分解能表現学習のための新しいモデルである。
論文 参考訳(メタデータ) (2024-10-04T06:19:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。