論文の概要: Align With Purpose: Optimize Desired Properties in CTC Models with a
General Plug-and-Play Framework
- arxiv url: http://arxiv.org/abs/2307.01715v3
- Date: Thu, 7 Mar 2024 17:59:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 18:21:17.734519
- Title: Align With Purpose: Optimize Desired Properties in CTC Models with a
General Plug-and-Play Framework
- Title(参考訳): Align with Purpose: General Plug-and-Play Frameworkを用いたCTCモデルにおけるDesiredプロパティの最適化
- Authors: Eliya Segev, Maya Alroy, Ronen Katsir, Noam Wies, Ayana Shenhav, Yael
Ben-Oren, David Zar, Oren Tadmor, Jacob Bitterman, Amnon Shashua and Tal
Rosenwein
- Abstract要約: Connectionist Temporal Classification (CTC) はシークエンス・ツー・シークエンス(seq2seq)モデルをトレーニングするために広く使われている基準である。
CTC基準でトレーニングされたモデルにおいて、所望のプロパティを強化するために、$textbf General Plug-and-Playフレームワークである$textitAlign With Purposeを提案する。
我々は,ASR(Automatic Speech Recognition)の領域にフレームワークを適用し,その特性選択,アーキテクチャ選択,訓練データセットのスケールといった点において,その汎用性を示す。
- 参考スコア(独自算出の注目度): 8.228892600588765
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Connectionist Temporal Classification (CTC) is a widely used criterion for
training supervised sequence-to-sequence (seq2seq) models. It enables learning
the relations between input and output sequences, termed alignments, by
marginalizing over perfect alignments (that yield the ground truth), at the
expense of imperfect alignments. This binary differentiation of perfect and
imperfect alignments falls short of capturing other essential alignment
properties that hold significance in other real-world applications. Here we
propose $\textit{Align With Purpose}$, a $\textbf{general Plug-and-Play
framework}$ for enhancing a desired property in models trained with the CTC
criterion. We do that by complementing the CTC with an additional loss term
that prioritizes alignments according to a desired property. Our method does
not require any intervention in the CTC loss function, enables easy
optimization of a variety of properties, and allows differentiation between
both perfect and imperfect alignments. We apply our framework in the domain of
Automatic Speech Recognition (ASR) and show its generality in terms of property
selection, architectural choice, and scale of training dataset (up to 280,000
hours). To demonstrate the effectiveness of our framework, we apply it to two
unrelated properties: emission time and word error rate (WER). For the former,
we report an improvement of up to 570ms in latency optimization with a minor
reduction in WER, and for the latter, we report a relative improvement of 4.5%
WER over the baseline models. To the best of our knowledge, these applications
have never been demonstrated to work on a scale of data as large as ours.
Notably, our method can be implemented using only a few lines of code, and can
be extended to other alignment-free loss functions and to domains other than
ASR.
- Abstract(参考訳): コネクショニスト時間分類(ctc)は、教師付きシーケンシャル・ツー・シークエンス(seq2seq)モデルの訓練に広く用いられている基準である。
これは不完全なアライメントを犠牲にして、完全なアライメント(基礎となる真実を生み出す)を余分にすることで、入力シーケンスと出力シーケンスの関係を学習することができる。
完全かつ不完全なアライメントのこの二項微分は、他の現実世界の応用において重要な重要なアライメント特性を捉えていない。
ここでは、CTC基準でトレーニングされたモデルにおいて、所望のプロパティを強化するために、$\textbf{ general Plug-and-Play framework}$を提案する。
我々は、所望の特性に応じてアライメントを優先順位付けする追加の損失項でCTCを補完する。
本手法はctc損失関数への干渉を一切必要とせず,様々な特性の最適化を容易にし,完全アライメントと不完全アライメントの区別を可能にする。
我々は,ASR(Automatic Speech Recognition)の領域にフレームワークを適用し,その特性選択,アーキテクチャ選択,トレーニングデータセットのスケール(最大280,000時間)において,その汎用性を示す。
本フレームワークの有効性を実証するため, 出力時間と単語誤り率(WER)の2つの非関連特性に適用した。
前者については、WERの小さな削減によるレイテンシ最適化の最大570msの改善を報告し、後者については、ベースラインモデルよりも4.5%WERの相対的な改善を報告した。
私たちの知る限りでは、これらのアプリケーションは我々のものほど大規模なデータを扱うことが実証されたことはない。
特に,本手法は数行のコードだけで実装可能であり,アライメントフリーな損失関数やASR以外の領域にも拡張可能である。
関連論文リスト
- PIPA: Preference Alignment as Prior-Informed Statistical Estimation [57.24096291517857]
本稿では、RLフリーな統一確率的フレームワークであるPIPA(Pior-Informed Preference Alignment)を紹介する。
PIPAはペアデータとアンペアデータの両方に対応し、回答とステップレベルのアノテーションを提供する。
異なる種類の事前情報を統合することにより,PIPA-MとPIPA-Nの2種類のPIPAを開発した。
論文 参考訳(メタデータ) (2025-02-09T04:31:30Z) - A Differentiable Alignment Framework for Sequence-to-Sequence Modeling via Optimal Transport [12.835774667953187]
一次元の最適輸送に基づく新しい微分可能なアライメントフレームワークを提案する。
CTCと比較して,ASR性能のトレードオフはあるものの,アライメント性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2025-02-03T18:20:29Z) - Towards Generalizable Trajectory Prediction Using Dual-Level Representation Learning And Adaptive Prompting [107.4034346788744]
既存の車両軌道予測モデルは、一般化可能性、予測の不確実性、複雑な相互作用を扱う。
本研究では,(1)自己拡張(SD)とマスドレコンストラクション(MR)による二重レベル表現学習,グローバルコンテキストと細部の詳細の収集,(2)レジスタベースのクエリと事前学習の強化,クラスタリングと抑圧の必要性の排除,(3)微調整中の適応型プロンプトチューニング,メインアーキテクチャの凍結,および少数のプロンプトの最適化といった,新たなトラジェクタ予測フレームワークであるPerceiverを提案する。
論文 参考訳(メタデータ) (2025-01-08T20:11:09Z) - Indirectly Parameterized Concrete Autoencoders [40.35109085799772]
ニューラルネットワークベースの組み込み機能選択の最近の進歩は、幅広いアプリケーションで有望な結果を示している。
ニューラルネットワークベースの組み込み機能選択の最近の進歩は、幅広いアプリケーションで有望な結果を示している。
論文 参考訳(メタデータ) (2024-03-01T14:41:51Z) - Domain Aligned CLIP for Few-shot Classification [3.5326413171911555]
Domain Aligned CLIP (DAC) は、メインモデルを微調整することなく、ターゲット分布上のモーダル内(イメージ)とモーダル間アライメントの両方を改善する。
画像分類におけるDACの有効性について検討し,16ショット分類の精度を約2.3%向上させるとともに,11種類の画像分類タスクのベンチマークを行った。
論文 参考訳(メタデータ) (2023-11-15T18:34:26Z) - Adaptive Neural Ranking Framework: Toward Maximized Business Goal for
Cascade Ranking Systems [33.46891569350896]
カスケードランキングは、オンライン広告とレコメンデーションシステムにおける大規模なトップk選択問題に広く使われている。
それまでの学習からランクへの取り組みは、モデルに完全な順序やトップクオーダを学習させることに重点を置いていた。
我々はこの手法をアダプティブ・ニューラルランキング・フレームワーク (Adaptive Neural Ranking Framework, ARF) と命名する。
論文 参考訳(メタデータ) (2023-10-16T14:43:02Z) - Self-distillation Regularized Connectionist Temporal Classification Loss
for Text Recognition: A Simple Yet Effective Approach [14.69981874614434]
損失関数の観点から、テキスト認識モデルの最適化方法を示す。
CTCに基づく手法は、性能と推論速度のバランスが良いため、実際は広く用いられているが、それでも精度は低下している。
本稿では,CTCモデルを用いた自己蒸留方式を提案し,この問題に対処する。
論文 参考訳(メタデータ) (2023-08-17T06:32:57Z) - Automatic Mapping of the Best-Suited DNN Pruning Schemes for Real-Time
Mobile Acceleration [71.80326738527734]
本稿では,汎用的,きめ細かな構造化プルーニング手法とコンパイラの最適化を提案する。
提案手法は,より微細な構造化プルーニング手法とともに,最先端のDNN最適化フレームワークよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-22T23:53:14Z) - Sequence Transduction with Graph-based Supervision [96.04967815520193]
ラベルのグラフ表現を受け入れるためにRNN-T損失を一般化するトランスデューサ目的関数を提案する。
CTC型格子を用いたトランスデューサベースのASRは,標準RNN-Tよりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-11-01T21:51:42Z) - Higher Performance Visual Tracking with Dual-Modal Localization [106.91097443275035]
Visual Object Tracking (VOT)は、堅牢性と正確性の両方に同期性を必要とする。
ONRによるロバストなローカリゼーション抑制器とOFCによるターゲットセンターへの正確なローカリゼーションにより、ターゲットローカリゼーションのためのデュアルモーダルフレームワークを提案します。
論文 参考訳(メタデータ) (2021-03-18T08:47:56Z) - Boosting Continuous Sign Language Recognition via Cross Modality
Augmentation [135.30357113518127]
連続手話認識は不整合のビデオテキストペアを扱う。
クロスモーダル拡張を用いた新しいアーキテクチャを提案する。
提案するフレームワークは、既存のCTCベースの連続SLRアーキテクチャに容易に拡張できる。
論文 参考訳(メタデータ) (2020-10-11T15:07:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。