Fugu-MT 論文翻訳(概要): Utilizing Multimodal Data for Edge Case Robust Call-sign Recognition and Understanding

論文の概要: Utilizing Multimodal Data for Edge Case Robust Call-sign Recognition and Understanding

arxiv url: http://arxiv.org/abs/2412.20467v1
Date: Sun, 29 Dec 2024 13:45:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-31 22:07:02.622458
Title: Utilizing Multimodal Data for Edge Case Robust Call-sign Recognition and Understanding
Title（参考訳）: エッジケースロバストコールサイン認識と理解のためのマルチモーダルデータの利用
Authors: Alexander Blatt, Dietrich Klakow,
Abstract要約: アーキテクチャの堅牢性は、特にエッジケースでは明らかです。マルチモーダルコールサインコマンドリカバリモデル(CCR)を提案する。 CCRアーキテクチャは、エッジケースのパフォーマンスを最大15%向上させる。
参考スコア（独自算出の注目度）: 65.55175502273013
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Operational machine-learning based assistant systems must be robust in a wide range of scenarios. This hold especially true for the air-traffic control (ATC) domain. The robustness of an architecture is particularly evident in edge cases, such as high word error rate (WER) transcripts resulting from noisy ATC recordings or partial transcripts due to clipped recordings. To increase the edge-case robustness of call-sign recognition and understanding (CRU), a core tasks in ATC speech processing, we propose the multimodal call-sign-command recovery model (CCR). The CCR architecture leads to an increase in the edge case performance of up to 15%. We demonstrate this on our second proposed architecture, CallSBERT. A CRU model that has less parameters, can be fine-tuned noticeably faster and is more robust during fine-tuning than the state of the art for CRU. Furthermore, we demonstrate that optimizing for edge cases leads to a significantly higher accuracy across a wide operational range.
Abstract（参考訳）: 操作機械学習ベースのアシスタントシステムは、幅広いシナリオにおいて堅牢でなければならない。これは特にATC(Air-traffic Control)ドメインに当てはまる。アーキテクチャのロバスト性は特に、ノイズの多いATC記録による高単語誤り率(WER)書き起こしや、クリップされた記録による部分書き起こしなどのエッジケースで顕著である。 ATC音声処理におけるコアタスクであるコールサイン認識・理解(CRU)のエッジケースロバスト性を高めるために,マルチモーダルなコールサイン・コマンド・リカバリモデル(CCR)を提案する。 CCRアーキテクチャは、エッジケースのパフォーマンスを最大15%向上させる。これを2つ目のアーキテクチャであるCallSBERTで実証します。パラメータが少ないCRUモデルは、CRUの最先端技術よりも顕著に高速で、微調整時に堅牢である。さらに,エッジケースの最適化により,幅広い操作範囲にわたる精度が著しく向上することが実証された。

関連論文リスト

StepVAR: Structure-Texture Guided Pruning for Visual Autoregressive Models [98.72926158261937]
本稿では,Visual AutoRegressive モデルのためのトレーニングフリートークン解析フレームワークを提案する。我々は局所的なテクスチャの詳細を捉えるために軽量なハイパスフィルタを使用し、グローバルな構造情報を保存するために主成分分析(PCA)を活用している。スパーストークンの下で有効な次世代の予測を維持するために,近接した特徴伝達戦略を導入する。
論文参考訳（メタデータ） (2026-03-02T11:35:05Z)
Rethinking Multi-Condition DiTs: Eliminating Redundant Attention via Position-Alignment and Keyword-Scoping [61.459927600301654]
マルチコンディション制御は従来のコンカデント・アンド・アットエンドの戦略によってボトルネックとなる。分析の結果,これらの相互作用の多くは空間的にも意味的にも冗長であることがわかった。本稿では,これらの冗長性を解消するための高効率なフレームワークであるPKAを提案する。
論文参考訳（メタデータ） (2026-02-06T16:39:10Z)
From Scaling to Structured Expressivity: Rethinking Transformers for CTR Prediction [14.997545091069894]
クリックスルーレート(CTR)予測のためのディープモデルは、しばしば急速に減少するリターンを示す。我々は根本原因を構造上のミスアライメントとみなしている。本研究ではフィールド・アウェア・トランスフォーマー(FAT)について述べる。
論文参考訳（メタデータ） (2025-11-15T07:55:50Z)
Large-Scale Model Enabled Semantic Communication Based on Robust Knowledge Distillation [53.16213723669751]
大規模モデル(LSM)は意味表現と理解に有効なフレームワークである。しかしながら、それらの直接的なデプロイメントは、しばしば高い計算複雑性とリソース要求によって妨げられる。本稿では,新しい知識蒸留に基づくセマンティックコミュニケーションフレームワークを提案する。
論文参考訳（メタデータ） (2025-08-04T07:47:18Z)
Edge-ASR: Towards Low-Bit Quantization of Automatic Speech Recognition Models [8.589209709453026]
量子化、特にPTQ(Post-Training Quantization)は、再トレーニングせずにモデルサイズと推論コストを削減する効果的な方法を提供する。本稿では、WhisperとMoonshineの2つのエッジASRモデルファミリーに適用した8つの最先端(SOTA)PTQ手法のベンチマークを示す。提案手法は効率と精度のトレードオフを特徴とし,3ドルビット量子化さえも高容量モデルで成功できることを示した。
論文参考訳（メタデータ） (2025-07-10T16:00:27Z)
On the Practice of Deep Hierarchical Ensemble Network for Ad Conversion Rate Prediction [14.649184507551436]
本稿では,DHENを単一のバックボーンモデルアーキテクチャとして用いたマルチタスク学習フレームワークを提案する。我々は,CVR予測のために,オンサイトリアルタイムユーザ行動シーケンスとオフサイト変換イベントシーケンスの両方を構築した。本手法は,事前学習したユーザパーソナライズ機能付き単一機能横断モジュールと比較して,最先端性能を実現する。
論文参考訳（メタデータ） (2025-04-10T23:41:34Z)
Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains [92.36624674516553]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の数学的推論と符号化性能の向上に成功している。本稿では,医学,化学,心理学,経済学,教育など,さまざまな現実世界領域におけるRLVRの有効性と拡張性について検討する。我々は,2値検証による制限を克服するために,ソフトなモデルに基づく報酬信号を生成する生成的スコアリング手法を利用する。
論文参考訳（メタデータ） (2025-03-31T08:22:49Z)
Towards Generalizable Trajectory Prediction Using Dual-Level Representation Learning And Adaptive Prompting [107.4034346788744]
既存の車両軌道予測モデルは、一般化可能性、予測の不確実性、複雑な相互作用を扱う。本研究では,(1)自己拡張(SD)とマスドレコンストラクション(MR)による二重レベル表現学習,グローバルコンテキストと細部の詳細の収集,(2)レジスタベースのクエリと事前学習の強化,クラスタリングと抑圧の必要性の排除,(3)微調整中の適応型プロンプトチューニング,メインアーキテクチャの凍結,および少数のプロンプトの最適化といった,新たなトラジェクタ予測フレームワークであるPerceiverを提案する。
論文参考訳（メタデータ） (2025-01-08T20:11:09Z)
Joint vs Sequential Speaker-Role Detection and Automatic Speech Recognition for Air-traffic Control [60.35553925189286]
本稿では,標準のASRアーキテクチャを頼りながら,両タスクを協調的に解決するトランスフォーマーベースのジョイントASR-SRDシステムを提案する。複数のATCデータセット上でのASRとSRDの2つのケースドアプローチとの比較を行った。
論文参考訳（メタデータ） (2024-06-19T21:11:01Z)
Efficiently Train ASR Models that Memorize Less and Perform Better with Per-core Clipping [27.547461769425855]
Per-core clip-ping (PCC) は、ASRモデルにおける意図しない記憶を効果的に緩和することができる。 PCCはASRのパフォーマンス指標に肯定的な影響を与え、収束率の改善と単語誤り率の削減につながった。
論文参考訳（メタデータ） (2024-06-04T06:34:33Z)
A One-Layer Decoder-Only Transformer is a Two-Layer RNN: With an Application to Certified Robustness [17.0639534812572]
ARC-Tranは、任意の摂動空間に対してデコーダのみの変換器の堅牢性を検証する新しい手法である。本評価の結果,ARC-Tran 列車は既存の手法よりも任意の摂動空間に頑健なモデルであることがわかった。
論文参考訳（メタデータ） (2024-05-27T17:10:04Z)
Anatomy of Industrial Scale Multilingual ASR [13.491861238522421]
本稿では,アセンブリの産業規模自動音声認識(ASR)システムについて述べる。本システムは,教師なし(12.5M時間),教師なし(188K時間),疑似ラベル付き(1.6M時間)の4言語を対象とした多様なトレーニングデータセットを活用する。
論文参考訳（メタデータ） (2024-04-15T14:48:43Z)
Efficient Adversarial Contrastive Learning via Robustness-Aware Coreset Selection [59.77647907277523]
敵対的コントラスト学習(ACL)は、高価なデータアノテーションを必要としないが、敵対的攻撃に耐える堅牢な表現を出力する。 ACLは、すべてのトレーニングデータの逆の変種を生成するのに、膨大な実行時間が必要です。本稿では,ACLの高速化を目的としたロバストネス対応コアセット選択(RCS)手法を提案する。
論文参考訳（メタデータ） (2023-02-08T03:20:14Z)
TMS: A Temporal Multi-scale Backbone Design for Speaker Embedding [60.292702363839716]
話者埋め込みのための現在のSOTAバックボーンネットワークは、話者表現のためのマルチブランチネットワークアーキテクチャを用いた発話からマルチスケール特徴を集約するように設計されている。本稿では, 話者埋め込みネットワークにおいて, 計算コストの増大を伴わずに, マルチスケール分岐を効率的に設計できる効果的な時間的マルチスケール(TMS)モデルを提案する。
論文参考訳（メタデータ） (2022-03-17T05:49:35Z)
CATRO: Channel Pruning via Class-Aware Trace Ratio Optimization [61.71504948770445]
本稿では,CATRO (Class-Aware Trace Ratio Optimization) を用いた新しいチャネルプルーニング手法を提案する。 CATROは、他の最先端チャネルプルーニングアルゴリズムと同等の精度で、同様のコストまたは低コストで高い精度を達成できることを示す。 CATROは、クラス認識の特性のため、様々な分類サブタスクに適応的に効率の良いネットワークを創り出すのに適している。
論文参考訳（メタデータ） (2021-10-21T06:26:31Z)
SRU++: Pioneering Fast Recurrence with Attention for Speech Recognition [49.42625022146008]
複数のASRベンチマークでコンフォーマーと比較することにより,SRU++をASRタスクに適用する利点を示す。具体的には,SRU++ が長文音声入力において Conformer を追い越すことができる。
論文参考訳（メタデータ） (2021-10-11T19:23:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。