Fugu-MT 論文翻訳(概要): Align With Purpose: Optimize Desired Properties in CTC Models with a General Plug-and-Play Framework

論文の概要: Align With Purpose: Optimize Desired Properties in CTC Models with a General Plug-and-Play Framework

arxiv url: http://arxiv.org/abs/2307.01715v3
Date: Thu, 7 Mar 2024 17:59:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-08 18:21:17.734519
Title: Align With Purpose: Optimize Desired Properties in CTC Models with a General Plug-and-Play Framework
Title（参考訳）: Align with Purpose: General Plug-and-Play Frameworkを用いたCTCモデルにおけるDesiredプロパティの最適化
Authors: Eliya Segev, Maya Alroy, Ronen Katsir, Noam Wies, Ayana Shenhav, Yael Ben-Oren, David Zar, Oren Tadmor, Jacob Bitterman, Amnon Shashua and Tal Rosenwein
Abstract要約: Connectionist Temporal Classification (CTC) はシークエンス・ツー・シークエンス(seq2seq)モデルをトレーニングするために広く使われている基準である。 CTC基準でトレーニングされたモデルにおいて、所望のプロパティを強化するために、$textbf General Plug-and-Playフレームワークである$textitAlign With Purposeを提案する。我々は,ASR(Automatic Speech Recognition)の領域にフレームワークを適用し,その特性選択,アーキテクチャ選択,訓練データセットのスケールといった点において,その汎用性を示す。
参考スコア（独自算出の注目度）: 8.228892600588765
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Connectionist Temporal Classification (CTC) is a widely used criterion for training supervised sequence-to-sequence (seq2seq) models. It enables learning the relations between input and output sequences, termed alignments, by marginalizing over perfect alignments (that yield the ground truth), at the expense of imperfect alignments. This binary differentiation of perfect and imperfect alignments falls short of capturing other essential alignment properties that hold significance in other real-world applications. Here we propose $\textit{Align With Purpose}$, a $\textbf{general Plug-and-Play framework}$ for enhancing a desired property in models trained with the CTC criterion. We do that by complementing the CTC with an additional loss term that prioritizes alignments according to a desired property. Our method does not require any intervention in the CTC loss function, enables easy optimization of a variety of properties, and allows differentiation between both perfect and imperfect alignments. We apply our framework in the domain of Automatic Speech Recognition (ASR) and show its generality in terms of property selection, architectural choice, and scale of training dataset (up to 280,000 hours). To demonstrate the effectiveness of our framework, we apply it to two unrelated properties: emission time and word error rate (WER). For the former, we report an improvement of up to 570ms in latency optimization with a minor reduction in WER, and for the latter, we report a relative improvement of 4.5% WER over the baseline models. To the best of our knowledge, these applications have never been demonstrated to work on a scale of data as large as ours. Notably, our method can be implemented using only a few lines of code, and can be extended to other alignment-free loss functions and to domains other than ASR.
Abstract（参考訳）: コネクショニスト時間分類(ctc)は、教師付きシーケンシャル・ツー・シークエンス(seq2seq)モデルの訓練に広く用いられている基準である。これは不完全なアライメントを犠牲にして、完全なアライメント(基礎となる真実を生み出す)を余分にすることで、入力シーケンスと出力シーケンスの関係を学習することができる。完全かつ不完全なアライメントのこの二項微分は、他の現実世界の応用において重要な重要なアライメント特性を捉えていない。ここでは、CTC基準でトレーニングされたモデルにおいて、所望のプロパティを強化するために、$\textbf{ general Plug-and-Play framework}$を提案する。我々は、所望の特性に応じてアライメントを優先順位付けする追加の損失項でCTCを補完する。本手法はctc損失関数への干渉を一切必要とせず,様々な特性の最適化を容易にし,完全アライメントと不完全アライメントの区別を可能にする。我々は,ASR(Automatic Speech Recognition)の領域にフレームワークを適用し,その特性選択,アーキテクチャ選択,トレーニングデータセットのスケール(最大280,000時間)において,その汎用性を示す。本フレームワークの有効性を実証するため, 出力時間と単語誤り率(WER)の2つの非関連特性に適用した。前者については、WERの小さな削減によるレイテンシ最適化の最大570msの改善を報告し、後者については、ベースラインモデルよりも4.5%WERの相対的な改善を報告した。私たちの知る限りでは、これらのアプリケーションは我々のものほど大規模なデータを扱うことが実証されたことはない。特に,本手法は数行のコードだけで実装可能であり,アライメントフリーな損失関数やASR以外の領域にも拡張可能である。

関連論文リスト

QASA: Quality-Guided K-Adaptive Slot Attention for Unsupervised Object-Centric Learning [80.82392186401354]
スロットアテンション(Slot Attention)は、シーン内の異なるオブジェクトを一連の"スロット"にバインドするアプローチである。従来のK適応法はスロット結合の品質を明示的に制限しない。我々はQASA(Quality-Guided K-Adaptive Slot Attention)を提案する。
論文参考訳（メタデータ） (2026-01-19T10:42:07Z)
Rethinking Autoregressive Models for Lossless Image Compression via Hierarchical Parallelism and Progressive Adaptation [75.58269386927076]
自己回帰(AR)モデルは、しばしば計算コストの禁止のために非現実的に除外される。この研究は、階層的並列性とプログレッシブ適応に基づくフレームワークを導入して、このパラダイムを再考する。各種データセット(自然,衛星,医療)の実験により,本手法が新たな最先端圧縮を実現することを確認した。
論文参考訳（メタデータ） (2025-11-14T06:27:58Z)
Cost-Sensitive Evaluation for Binary Classifiers [0.013048920509133805]
重み付き精度(英: Weighted Accuracy, WA)は、よく知られた精度の計量の重み付きバージョンとして、直接解釈されたバイナリ分類器の評価指標である。コスト依存シナリオにおけるクラス不均衡を扱うための概念的枠組みを明らかにする。
論文参考訳（メタデータ） (2025-10-24T20:34:18Z)
Logits Replay + MoClip: Stabilized, Low-Cost Post-Training with Minimal Forgetting [6.653834890554154]
Logits Replay + MoClipは,ロジット空間の監視を圧縮し,更新レベルでの最適化を安定化するフレームワークである。提案手法は,一般的なベンチマークでの忘れを軽減しつつ,コミュニケーション技術タスクのドメイン性能を向上する。
論文参考訳（メタデータ） (2025-10-10T08:55:32Z)
Continual Action Quality Assessment via Adaptive Manifold-Aligned Graph Regularization [53.82400605816587]
アクション品質アセスメント(AQA)は、ビデオにおける人間の行動を定量化し、スポーツスコアリング、リハビリテーション、スキル評価の応用を支援する。大きな課題は、現実世界のシナリオにおける品質分布の非定常的な性質にある。本稿では,進化する分布を扱うための連続学習機能を備えた連続AQA(Continuous AQA)を紹介する。
論文参考訳（メタデータ） (2025-10-08T10:09:47Z)
FACT: Multinomial Misalignment Classification for Point Cloud Registration [1.256245863497516]
本稿では,登録ライダー点雲対のアライメント品質(登録誤差)を予測するためのFACTを提案する。 FACTは、登録されたペアからローカル特徴を抽出し、ポイントトランスフォーマーベースのネットワークで処理し、ミスアライメントクラスを予測する。
論文参考訳（メタデータ） (2025-04-09T07:01:57Z)
PIPA: Preference Alignment as Prior-Informed Statistical Estimation [57.24096291517857]
本稿では、RLフリーな統一確率的フレームワークであるPIPA(Pior-Informed Preference Alignment)を紹介する。 PIPAはペアデータとアンペアデータの両方に対応し、回答とステップレベルのアノテーションを提供する。異なる種類の事前情報を統合することにより,PIPA-MとPIPA-Nの2種類のPIPAを開発した。
論文参考訳（メタデータ） (2025-02-09T04:31:30Z)
A Differentiable Alignment Framework for Sequence-to-Sequence Modeling via Optimal Transport [12.835774667953187]
一次元の最適輸送に基づく新しい微分可能なアライメントフレームワークを提案する。 CTCと比較して,ASR性能のトレードオフはあるものの,アライメント性能が著しく向上することを示す。
論文参考訳（メタデータ） (2025-02-03T18:20:29Z)
Towards Generalizable Trajectory Prediction Using Dual-Level Representation Learning And Adaptive Prompting [107.4034346788744]
既存の車両軌道予測モデルは、一般化可能性、予測の不確実性、複雑な相互作用を扱う。本研究では,(1)自己拡張(SD)とマスドレコンストラクション(MR)による二重レベル表現学習,グローバルコンテキストと細部の詳細の収集,(2)レジスタベースのクエリと事前学習の強化,クラスタリングと抑圧の必要性の排除,(3)微調整中の適応型プロンプトチューニング,メインアーキテクチャの凍結,および少数のプロンプトの最適化といった,新たなトラジェクタ予測フレームワークであるPerceiverを提案する。
論文参考訳（メタデータ） (2025-01-08T20:11:09Z)
Self-Steering Optimization: Autonomous Preference Optimization for Large Language Models [79.84205827056907]
本稿では,高品質な嗜好データを自律的に生成するアルゴリズムであるセルフステアリング最適化(SSO$)を提案する。 $SSO$は、ポリシーモデル自体からデータジェネレータを構築するために、特別な最適化目標を採用しています。評価の結果,$SSO$は人選好アライメントと報酬最適化のベースラインを一貫して上回っていることがわかった。
論文参考訳（メタデータ） (2024-10-22T16:04:03Z)
Physically Feasible Semantic Segmentation [58.17907376475596]
最先端セマンティックセグメンテーションモデルは通常、データ駆動方式で最適化される。本手法は,空間的クラス関係を規定する明示的な物理的制約を抽出する。 PhyFeaは、使用する最先端ネットワーク毎にmIoUが大幅に向上する。
論文参考訳（メタデータ） (2024-08-26T22:39:08Z)
Revisiting Cascaded Ensembles for Efficient Inference [32.914852531806]
機械学習推論をより効率的にするための一般的なアプローチは、サンプル固有の適応スキームを使用することである。本研究では適応推論の簡単なスキームについて検討する。私たちは、資源効率の良いモデルから始まり、より大きくより表現力のあるモデルへと成長する、アンサンブルのカスケード(CoE)を構築します。
論文参考訳（メタデータ） (2024-07-02T15:14:12Z)
Indirectly Parameterized Concrete Autoencoders [40.35109085799772]
ニューラルネットワークベースの組み込み機能選択の最近の進歩は、幅広いアプリケーションで有望な結果を示している。ニューラルネットワークベースの組み込み機能選択の最近の進歩は、幅広いアプリケーションで有望な結果を示している。
論文参考訳（メタデータ） (2024-03-01T14:41:51Z)
Domain Aligned CLIP for Few-shot Classification [3.5326413171911555]
Domain Aligned CLIP (DAC) は、メインモデルを微調整することなく、ターゲット分布上のモーダル内(イメージ)とモーダル間アライメントの両方を改善する。画像分類におけるDACの有効性について検討し,16ショット分類の精度を約2.3%向上させるとともに,11種類の画像分類タスクのベンチマークを行った。
論文参考訳（メタデータ） (2023-11-15T18:34:26Z)
Adaptive Neural Ranking Framework: Toward Maximized Business Goal for Cascade Ranking Systems [33.46891569350896]
カスケードランキングは、オンライン広告とレコメンデーションシステムにおける大規模なトップk選択問題に広く使われている。それまでの学習からランクへの取り組みは、モデルに完全な順序やトップクオーダを学習させることに重点を置いていた。我々はこの手法をアダプティブ・ニューラルランキング・フレームワーク (Adaptive Neural Ranking Framework, ARF) と命名する。
論文参考訳（メタデータ） (2023-10-16T14:43:02Z)
Self-distillation Regularized Connectionist Temporal Classification Loss for Text Recognition: A Simple Yet Effective Approach [14.69981874614434]
損失関数の観点から、テキスト認識モデルの最適化方法を示す。 CTCに基づく手法は、性能と推論速度のバランスが良いため、実際は広く用いられているが、それでも精度は低下している。本稿では,CTCモデルを用いた自己蒸留方式を提案し,この問題に対処する。
論文参考訳（メタデータ） (2023-08-17T06:32:57Z)
Automatic Mapping of the Best-Suited DNN Pruning Schemes for Real-Time Mobile Acceleration [71.80326738527734]
本稿では,汎用的,きめ細かな構造化プルーニング手法とコンパイラの最適化を提案する。提案手法は,より微細な構造化プルーニング手法とともに,最先端のDNN最適化フレームワークよりも優れていることを示す。
論文参考訳（メタデータ） (2021-11-22T23:53:14Z)
Sequence Transduction with Graph-based Supervision [96.04967815520193]
ラベルのグラフ表現を受け入れるためにRNN-T損失を一般化するトランスデューサ目的関数を提案する。 CTC型格子を用いたトランスデューサベースのASRは,標準RNN-Tよりも優れた結果が得られることを示す。
論文参考訳（メタデータ） (2021-11-01T21:51:42Z)
Higher Performance Visual Tracking with Dual-Modal Localization [106.91097443275035]
Visual Object Tracking (VOT)は、堅牢性と正確性の両方に同期性を必要とする。 ONRによるロバストなローカリゼーション抑制器とOFCによるターゲットセンターへの正確なローカリゼーションにより、ターゲットローカリゼーションのためのデュアルモーダルフレームワークを提案します。
論文参考訳（メタデータ） (2021-03-18T08:47:56Z)
Robust Optimal Transport with Applications in Generative Modeling and Domain Adaptation [120.69747175899421]
ワッサーシュタインのような最適輸送(OT)距離は、GANやドメイン適応のようないくつかの領域で使用されている。本稿では,現代のディープラーニングアプリケーションに適用可能な,ロバストなOT最適化の計算効率のよい2つの形式を提案する。提案手法では, ノイズの多いデータセット上で, 外部分布で劣化したGANモデルをトレーニングすることができる。
論文参考訳（メタデータ） (2020-10-12T17:13:40Z)
Boosting Continuous Sign Language Recognition via Cross Modality Augmentation [135.30357113518127]
連続手話認識は不整合のビデオテキストペアを扱う。クロスモーダル拡張を用いた新しいアーキテクチャを提案する。提案するフレームワークは、既存のCTCベースの連続SLRアーキテクチャに容易に拡張できる。
論文参考訳（メタデータ） (2020-10-11T15:07:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。