Fugu-MT 論文翻訳(概要): Enhancing CTC-Based Visual Speech Recognition

論文の概要: Enhancing CTC-Based Visual Speech Recognition

arxiv url: http://arxiv.org/abs/2409.07210v1
Date: Wed, 11 Sep 2024 12:02:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-12 14:49:40.605217
Title: Enhancing CTC-Based Visual Speech Recognition
Title（参考訳）: CTCに基づく視覚音声認識の強化
Authors: Hendrik Laux, Anke Schmeink,
Abstract要約: LiteVSR2は、以前導入した視覚音声認識に対する効率的なアプローチの拡張版である。本稿では, 安定ビデオ前処理技術と蒸留プロセスにおける特徴正規化の2つの重要な改良点を紹介する。 LiteVSR2は前者の効率を維持しながら精度を大幅に向上させる。
参考スコア（独自算出の注目度）: 11.269066294359144
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper presents LiteVSR2, an enhanced version of our previously introduced efficient approach to Visual Speech Recognition (VSR). Building upon our knowledge distillation framework from a pre-trained Automatic Speech Recognition (ASR) model, we introduce two key improvements: a stabilized video preprocessing technique and feature normalization in the distillation process. These improvements yield substantial performance gains on the LRS2 and LRS3 benchmarks, positioning LiteVSR2 as the current best CTC-based VSR model without increasing the volume of training data or computational resources utilized. Furthermore, we explore the scalability of our approach by examining performance metrics across varying model complexities and training data volumes. LiteVSR2 maintains the efficiency of its predecessor while significantly enhancing accuracy, thereby demonstrating the potential for resource-efficient advancements in VSR technology.
Abstract（参考訳）: 本稿では、これまで導入してきた視覚音声認識(VSR)に対する効率的なアプローチの強化版であるLiteVSR2を提案する。事前訓練された自動音声認識(ASR)モデルから知識蒸留の枠組みを構築し, 安定したビデオ前処理技術と, 蒸留プロセスにおける特徴正規化という2つの重要な改良点を紹介した。これらの改善により、LSS2とLSS3ベンチマークのパフォーマンスは大幅に向上し、LiteVSR2はトレーニングデータや計算資源を増大させることなく、現在の最高のCTCベースのVSRモデルとして位置づけられた。さらに、様々なモデル複雑度にまたがるパフォーマンス指標を調べ、データボリュームをトレーニングすることで、我々のアプローチのスケーラビリティについて検討する。 LiteVSR2は前者の効率を維持しながら精度を大幅に向上させ、これによりVSR技術の資源効率向上の可能性を示す。

関連論文リスト

D$^{2}$-VPR: A Parameter-efficient Visual-foundation-model-based Visual Place Recognition Method via Knowledge Distillation and Deformable Aggregation [21.709098547489692]
ビジュアルプレース認識(VPR)は、ジオタグ付きデータベースから最も視覚的に類似したものを検索することで、クエリ画像の地理的位置を決定することを目的としている。 DINOv2は、大規模なデータセットで自己教師された方法でトレーニングされ、VPRのパフォーマンスが大幅に向上した。視覚基礎モデルの強力な特徴抽出機能を保持するD$istillationとD$eformableベースのフレームワークであるD2$-VPRを提案する。
論文参考訳（メタデータ） (2025-11-16T09:47:45Z)
Omni-AVSR: Towards Unified Multimodal Speech Recognition with Large Language Models [34.15708407614003]
大規模言語モデル(LLM)は、最近、複数のモーダルをまたいだ音声認識において、印象的な成果を上げている。 Omni-AVSRは,マルチグラニュラリティ学習とパラメータ効率の両立を両立した統合型音声視覚LLMである。 LRS2 と LRS3 の実験では、Omni-AVSR は最先端のベースラインと同等または優れた精度で達成されている。
論文参考訳（メタデータ） (2025-11-10T16:03:44Z)
SimpleGVR: A Simple Baseline for Latent-Cascaded Video Super-Resolution [55.14432034345353]
後続の超解像モデルの設計原理について検討し,その設計原理について検討する。まず、ベースモデルの出力特性をよりよく模倣し、VSRモデルと上流ジェネレータとの整合性を確保するための2つのトレーニングペアを生成する方法を提案する。第2に,(1)時間ステップサンプリング戦略,(2)低分解能(LR)入力に対する雑音増強効果の系統的解析を通じて,VSRモデル行動に対する批判的洞察を提供する。
論文参考訳（メタデータ） (2025-06-24T17:57:26Z)
RLRC: Reinforcement Learning-based Recovery for Compressed Vision-Language-Action Models [11.688277445120567]
VLA(Vision-Language-Action Model)は、複雑なロボット操作タスクを解く上で、目覚ましい能力と有望な可能性を示してきた。パラメータのかなりのサイズと高い推論レイテンシは、現実世界のデプロイメントに重大な課題をもたらします。圧縮VLAの3段階回収法であるRLRCを提案する。
論文参考訳（メタデータ） (2025-06-21T08:45:32Z)
Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文参考訳（メタデータ） (2025-06-17T17:12:34Z)
KARE-RAG: Knowledge-Aware Refinement and Enhancement for RAG [63.82127103851471]
Retrieval-Augmented Generation (RAG)は、大規模言語モデルがより広範な知識ソースにアクセスすることを可能にする。ノイズの多いコンテンツを処理するために生成モデルの能力を向上させることは、ロバストなパフォーマンスに等しく重要であることを実証する。本稿では,3つの重要なイノベーションを通じて知識利用を改善するKARE-RAGを提案する。
論文参考訳（メタデータ） (2025-06-03T06:31:17Z)
L2COcc: Lightweight Camera-Centric Semantic Scene Completion via Distillation of LiDAR Model [16.187337394023555]
本稿では,軽量カメラ中心のセマンティックシーンコンプリートフレームワークであるL2COccを提案する。精度を保ちながら計算負担を大幅に削減する。
論文参考訳（メタデータ） (2025-03-16T06:09:36Z)
SelaVPR++: Towards Seamless Adaptation of Foundation Models for Efficient Place Recognition [69.58329995485158]
近年の研究では、事前学習した視覚基盤モデルを用いた視覚的位置認識(VPR)法が有望な性能を達成できることが示されている。本稿では,基礎モデルのVPRへのシームレスな適応を実現する新しい手法を提案する。効率の向上と性能向上のために,SelaVPR++と呼ばれるSelaVPRの拡張を提案する。
論文参考訳（メタデータ） (2025-02-23T15:01:09Z)
Unified Speech Recognition: A Single Model for Auditory, Visual, and Audiovisual Inputs [73.74375912785689]
本稿では,音声認識システムのための統合学習戦略を提案する。 3つのタスクの1つのモデルをトレーニングすることで、VSRとAVSRの性能が向上することを示す。また,非ラベル標本をより効果的に活用するために,強欲な擬似ラベリング手法を導入する。
論文参考訳（メタデータ） (2024-11-04T16:46:53Z)
T2V-Turbo-v2: Enhancing Video Generation Model Post-Training through Data, Reward, and Conditional Guidance Design [79.7289790249621]
提案手法であるT2V-Turbo-v2は、様々な監視信号を統合することにより、大幅な進歩をもたらす。特定の学習目標に対するデータセットの調整の重要性を強調した。トレーニングデータセットから動作ガイダンスを抽出し,ODEソルバに組み込むことにより,このアプローチの可能性を示す。
論文参考訳（メタデータ） (2024-10-08T04:30:06Z)
Efficient infusion of self-supervised representations in Automatic Speech Recognition [1.2972104025246092]
Wav2vecやHuBERTのような自己教師付き学習(SSL)モデルは、音声関連のタスクに対して最先端の結果をもたらす。本稿では,SSLモデルからASRアーキテクチャへの表現を効率的に組み込むために,フレームワイズ付加と(2)クロスアテンション機構を用いる2つの簡単なアプローチを提案する。提案手法により,Librispeech と Tedlium のデータセットにおいて,より高速なトレーニングが可能となり,大幅な性能向上が期待できる。
論文参考訳（メタデータ） (2024-04-19T05:01:12Z)
LiteVSR: Efficient Visual Speech Recognition by Learning from Speech Representations of Unlabeled Data [9.049193356646635]
提案手法は,訓練されたコンフォーマーベースASRモデルから知識を抽出し,標準VSRベンチマーク上での競合性能を実現する。我々のモデルは、数日以内に1つのコンシューマグレードのGPUでトレーニングでき、日付のハードウェア上でリアルタイムのエンドツーエンドのVSRを実行することができる。
論文参考訳（メタデータ） (2023-12-15T12:04:24Z)
RA-DIT: Retrieval-Augmented Dual Instruction Tuning [90.98423540361946]
Retrieval-augmented Language Model (RALMs) は、外部データストアからロングテールおよび最新の知識にアクセスすることで、パフォーマンスを向上させる。既存のアプローチでは、LM事前トレーニングに高価な検索固有の修正が必要になるか、あるいは、最適以下のパフォーマンスをもたらすデータストアのポストホック統合を使用する必要がある。本稿では,第3の選択肢を提供する軽量な微調整手法であるRetrieval-Augmented Dual Instruction Tuning (RA-DIT)を紹介する。
論文参考訳（メタデータ） (2023-10-02T17:16:26Z)
Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels [100.43280310123784]
トレーニングセットのサイズを増大させるために,未ラベルデータセットの自動書き起こしの使用について検討した。近年の文献的傾向であるトレーニングセットのサイズが大きくなると、ノイズのある書き起こしを用いたにもかかわらずWERが減少することが実証された。提案手法は,RS2 と LRS3 の AV-ASR 上での最先端性能を実現する。
論文参考訳（メタデータ） (2023-03-25T00:37:34Z)
SiRi: A Simple Selective Retraining Mechanism for Transformer-based Visual Grounding [131.0977050185209]
Selective Retraining (SiRi)は3つの人気のあるベンチマークにおいて、従来のアプローチよりも大幅に優れている。 SiRiは、限られたトレーニングデータでも驚くほど優れている。また,その妥当性を検証するために,トランスフォーマーベース視覚接地モデルや他の視覚言語タスクにも拡張する。
論文参考訳（メタデータ） (2022-07-27T07:01:01Z)
Heterogeneous Reservoir Computing Models for Persian Speech Recognition [0.0]
Reservoir Computing Model (RC)モデルは、トレーニングに安価であること、パラメータが大幅に少なく、創発的なハードウェア技術と互換性があることが証明されている。異なるスケールで時間的コンテキストをキャプチャする入力の非線形変換を生成するために、異種単層および多層ESNを提案する。
論文参考訳（メタデータ） (2022-05-25T09:15:15Z)
Neural Model Reprogramming with Similarity Based Mapping for Low-Resource Spoken Command Recognition [71.96870151495536]
低リソース音声コマンド認識(SCR)のための新しいAR手法を提案する。 ARプロシージャは、(対象領域から)音響信号を修正して、事前訓練されたSCRモデルを再利用することを目的としている。提案したAR-SCRシステムについて,アラビア語,リトアニア語,マンダリン語を含む3つの低リソースSCRデータセットを用いて評価した。
論文参考訳（メタデータ） (2021-10-08T05:07:35Z)
Distributed Training of Deep Neural Network Acoustic Models for Automatic Speech Recognition [33.032361181388886]
ASRのためのディープニューラルネットワーク音響モデルのための分散トレーニング手法の概要について述べる。提案手法の収束, 高速化, 認識性能を調べるために, 一般のベンチマークで実験を行った。
論文参考訳（メタデータ） (2020-02-24T19:31:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。