論文の概要: MGSC: A Multi-granularity Consistency Framework for Robust End-to-end Asr
- arxiv url: http://arxiv.org/abs/2508.15853v1
- Date: Wed, 20 Aug 2025 09:51:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.123034
- Title: MGSC: A Multi-granularity Consistency Framework for Robust End-to-end Asr
- Title(参考訳): MGSC:ロバストなエンドツーエンドアサーのための多言語一貫性フレームワーク
- Authors: Xuwen Yang,
- Abstract要約: 我々は、内部の自己整合性を強制するモデルに依存しないプラグイン・アンド・プレイモジュールであるMulti-Granularity Soft Consistencyフレームワークを紹介する。
私たちの研究は、この2つの一貫性の粒度の強力な相乗効果を初めて明らかにしました。
私たちの研究は、より堅牢で信頼性の高いAIを構築するための重要なステップとして、内部一貫性の実施を実証しています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end ASR models, despite their success on benchmarks, often pro-duce catastrophic semantic errors in noisy environments. We attribute this fragility to the prevailing 'direct mapping' objective, which solely penalizes final output errors while leaving the model's internal computational pro-cess unconstrained. To address this, we introduce the Multi-Granularity Soft Consistency (MGSC) framework, a model-agnostic, plug-and-play module that enforces internal self-consistency by simultaneously regulariz-ing macro-level sentence semantics and micro-level token alignment. Cru-cially, our work is the first to uncover a powerful synergy between these two consistency granularities: their joint optimization yields robustness gains that significantly surpass the sum of their individual contributions. On a public dataset, MGSC reduces the average Character Error Rate by a relative 8.7% across diverse noise conditions, primarily by preventing se-vere meaning-altering mistakes. Our work demonstrates that enforcing in-ternal consistency is a crucial step towards building more robust and trust-worthy AI.
- Abstract(参考訳): ベンチマークでの成功にもかかわらず、エンドツーエンドのASRモデルは、しばしばノイズの多い環境で破滅的なセマンティックエラーを発生させる。
この脆弱性は、モデルの内部計算プロシースを制約なく残しながら、最終的な出力エラーのみをペナルティ化する「ダイレクトマッピング」の目的に起因している。
そこで本研究では,Multi-Granularity Soft Consistency (MGSC)フレームワークを導入し,マクロレベルの文意味論とマイクロレベルのトークンアライメントを同時に正規化することにより,内部の自己整合性を強制するモデルに依存しないプラグイン・アンド・プレイモジュールを提案する。
私たちの研究は、この2つの一貫性の粒度の強力な相乗効果を初めて明らかにした。
公開データセットでは、MGSCは、さまざまなノイズ条件に対して平均的な文字誤り率を8.7%削減する。
私たちの研究は、より堅牢で信頼性の高いAIを構築するための重要なステップとして、内部一貫性の実施を実証しています。
関連論文リスト
- Test-Time Consistency in Vision Language Models [26.475993408532304]
VLM(Vision-Language Models)は、様々なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。
MM-R3のような最近のベンチマークでは、最先端のVLMでさえ意味論的に等価な入力にまたがって分岐予測をもたらすことが強調されている。
教師付き再学習なしにセマンティックな一貫性を高める,シンプルで効果的なテスト時間一貫性フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-27T17:09:44Z) - NDCG-Consistent Softmax Approximation with Accelerated Convergence [67.10365329542365]
本稿では,ランキングの指標と直接一致した新たな損失定式化を提案する。
提案したRG損失を高効率な Alternating Least Squares (ALS) 最適化手法と統合する。
実世界のデータセットに対する実証的な評価は、我々のアプローチが同等または上位のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2025-06-11T06:59:17Z) - Token Constraint Decoding Improves Robustness on Question Answering for Large Language Models [4.078176555898098]
我々は,Token Constraint Decoding (TCD)を導入し,評価する。
この単純で効果的な推論時間アルゴリズムは、ノイズのある設定で堅牢性を高めるためにトークンレベルの予測をアライメントする。
本研究は, 実世界の不完全条件下での推論安定性向上のための, 実用的, モデルに依存しないアプローチとして, TCDを確立した。
論文 参考訳(メタデータ) (2025-06-11T05:33:56Z) - Robust and Computation-Aware Gaussian Processes [18.264598332579748]
本稿では,近似による不確実性の原理的処理と強一般化ベイズ更新を組み合わせた新しいGPモデルであるRobust Computation-Aware Gaussian Process (RCaGP)を紹介する。
私たちのモデルは、より保守的で信頼性の高い不確実性評価を確実にします。
実験の結果、これらの課題を共同で解決することで、クリーンな設定とアウターな設定の両方で優れたパフォーマンスが得られることが確認された。
論文 参考訳(メタデータ) (2025-05-27T12:49:14Z) - Model Inversion Attacks Through Target-Specific Conditional Diffusion Models [54.69008212790426]
モデル反転攻撃(MIA)は、ターゲット分類器のトレーニングセットからプライベートイメージを再構築することを目的としており、それによってAIアプリケーションにおけるプライバシー上の懸念が高まる。
従来のGANベースのMIAは、GANの固有の欠陥と潜伏空間における最適化の偏りにより、劣った遺伝子的忠実度に悩まされる傾向にある。
これらの問題を緩和するために拡散モデル反転(Diff-MI)攻撃を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:38:49Z) - Towards Calibrated Robust Fine-Tuning of Vision-Language Models [97.19901765814431]
本研究は、視覚言語モデルにおいて、OOD精度と信頼性校正の両方を同時に改善する頑健な微調整法を提案する。
OOD分類とOOD校正誤差は2つのIDデータからなる共有上限を持つことを示す。
この知見に基づいて,最小の特異値を持つ制約付きマルチモーダルコントラスト損失を用いて微調整を行う新しいフレームワークを設計する。
論文 参考訳(メタデータ) (2023-11-03T05:41:25Z) - Exposing and Addressing Cross-Task Inconsistency in Unified
Vision-Language Models [80.23791222509644]
一貫性のないAIモデルは、人間のユーザーによって不安定で信頼できないと見なされている。
最先端のビジョン言語モデルは、タスク間の驚くほど高い一貫性のない振る舞いに悩まされている。
本稿では,大規模で自動生成されるクロスタスクコントラスト集合上で計算されたランク相関に基づく補助訓練目標を提案する。
論文 参考訳(メタデータ) (2023-03-28T16:57:12Z) - Robustness and Accuracy Could Be Reconcilable by (Proper) Definition [109.62614226793833]
強靭性と精度のトレードオフは、敵文学において広く研究されている。
局所的不変性の帰納的バイアスを課す不適切に定義された頑健な誤差に由来する可能性がある。
定義上、SCOREは、最悪のケースの不確実性に対処しながら、堅牢性と正確性の間の和解を促進する。
論文 参考訳(メタデータ) (2022-02-21T10:36:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。