論文の概要: GLoRIA: Gated Low-Rank Interpretable Adaptation for Dialectal ASR
- arxiv url: http://arxiv.org/abs/2603.02464v1
- Date: Mon, 02 Mar 2026 23:10:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.573534
- Title: GLoRIA: Gated Low-Rank Interpretable Adaptation for Dialectal ASR
- Title(参考訳): GLoRIA: 辞書ASRのための低ランク解釈型適応
- Authors: Pouya Mehralian, Melissa Farasyn, Anne Breitbarth, Anne-Sophie Ghyselen, Hugo Van hamme,
- Abstract要約: GLoRIAは、事前訓練されたエンコーダで低ランク更新を変調する適応フレームワークである。
GCNDコーパスでは、GLoRIAはジオコンディショニングされたフル微調整よりも優れています。
- 参考スコア(独自算出の注目度): 11.705969106735454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic Speech Recognition (ASR) in dialect-heavy settings remains challenging due to strong regional variation and limited labeled data. We propose GLoRIA, a parameter-efficient adaptation framework that leverages metadata (e.g., coordinates) to modulate low-rank updates in a pre-trained encoder. GLoRIA injects low-rank matrices into each feed-forward layer, with a gating MLP determining the non-negative contribution of each LoRA rank-1 component based on location metadata. On the GCND corpus, GLoRIA outperforms geo-conditioned full fine-tuning, LoRA, and both dialect-specific and unified full fine-tuning, achieving state-of-the-art word error rates while updating under 10% of parameters. GLoRIA also generalizes well to unseen dialects, including in extrapolation scenarios, and enables interpretable adaptation patterns that can be visualized geospatially. These results show metadata-gated low-rank adaptation is an effective, interpretable, and efficient solution for dialectal ASR.
- Abstract(参考訳): 方言重み設定における音声認識(ASR)は、強い地域差と限られたラベル付きデータのため、依然として困難である。
本稿では,メタデータ(例えば座標)を利用して事前学習したエンコーダの低ランク更新を変調するパラメータ効率適応フレームワークであるGLoRIAを提案する。
GLoRIAは各フィードフォワード層に低ランク行列を注入し、位置情報メタデータに基づいて各LoRAランク-1コンポーネントの非負の寄与を決定するゲーティングMLPを配置する。
GCNDコーパスでは、GLoRIAは、ジオコンディショニングされたフル微調整、LoRA、および方言特化および統一されたフル微調整を上回り、10%未満のパラメータを更新しながら最先端の単語エラー率を達成する。
GLoRIAはまた、外挿シナリオを含む目に見えない方言を一般化し、地理的に可視化できる解釈可能な適応パターンを可能にする。
これらの結果から,メタデータを付加した低ランク適応は,方言ASRに対して有効で,解釈可能で,効率的であることが示された。
関連論文リスト
- SSVD: Structured SVD for Parameter-Efficient Fine-Tuning and Benchmarking under Domain Shift in ASR [65.90944188787786]
ローランク適応(LoRA)は、音声アプリケーションで広く使われているが、VeRA、DoRA、PiSSA、SVFTといった最先端の変種は、主に言語や視覚タスクのために開発されており、音声による検証は限られている。
本研究は,これらのPEFTメソッドをESPnet内での総合的な統合とベンチマークを行う。
本研究では、0.1Bから2Bまでのモデルスケールで、幼児の発話や方言の変化を含むドメインシフト音声認識タスクに関するすべての手法を評価する。
論文 参考訳(メタデータ) (2025-09-02T20:51:17Z) - Amortized Bayesian Meta-Learning for Low-Rank Adaptation of Large Language Models [7.075648770762989]
低ランク適応(LoRA)を用いた微調整型大規模言語モデルは、特定のデータセットから情報を組み込むためのコスト効率のよい方法である。
微調整 LLM がいかに一般化するか、すなわち、目に見えないデータセット上でどれだけうまく機能するかは、しばしば不明である。
我々は,大規模モデルへの一般化とスケールを改善するために,LoRA (ABMLL) のためのアモータライズベイズメタラーニングを提案する。
論文 参考訳(メタデータ) (2025-08-19T21:57:59Z) - Optimizing Retrieval-Augmented Generation (RAG) for Colloquial Cantonese: A LoRA-Based Systematic Review [0.0]
レビューは進歩を調べます。
PEFT(Efficient Fine-Tuning)は、Qwen3、DeepSeek、KimiといったRAG(Retrieval-Augmented Generation)システムを最適化する。
RAGシステムは、限られた注釈付きデータと言語的可変性のために、真正のカントン言葉表現の理解と生成に困難に直面している。
動的およびアンサンブルなLoRA適応は、方言文脈における検索精度と生成品質を犠牲にすることなく、トレーニング可能なパラメータを著しく削減する。
論文 参考訳(メタデータ) (2025-08-12T03:46:16Z) - HAFLQ: Heterogeneous Adaptive Federated LoRA Fine-tuned LLM with Quantization [55.972018549438964]
LLM(Federated Fine-tuning of Pre-trained Large Language Models)は、さまざまなデータセットにまたがるタスク固有の適応を可能にすると同時に、プライバシの保護を可能にする。
本研究では, HAFLQ (Heterogeneous Adaptive Federated Low-Rank Adaptation Fine-tuned LLM with Quantization) を提案する。
テキスト分類タスクの実験結果から,HAFLQはメモリ使用量を31%削減し,通信コストを49%削減し,精度を50%向上し,ベースライン法よりも高速な収束を実現している。
論文 参考訳(メタデータ) (2024-11-10T19:59:54Z) - Low-Rank Adaptation Secretly Imitates Differentially Private SGD [5.359060261460183]
理論的には、低ランク適応はノイズの多いバッチ勾配を持つ微調整アダプタと等価である。
また、入射雑音の分散を適応ランクの減少関数として定量化する。
低ランク適応は、微調整データに対して、メンバシップ推論攻撃に対して堅牢性を提供する。
論文 参考訳(メタデータ) (2024-09-26T04:56:49Z) - LA-RAG:Enhancing LLM-based ASR Accuracy with Retrieval-Augmented Generation [15.520180125182756]
近年,大規模言語モデル(LLM)への音声情報統合の進歩により,音声認識(ASR)の精度が大幅に向上した。
既存の手法はアクセントのような様々な音響条件下での音声エンコーダの能力に制約されることが多い。
LA-RAGは、LLMベースのASRのための新しいRAGパラダイムである。
論文 参考訳(メタデータ) (2024-09-13T07:28:47Z) - DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。
具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。
このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文 参考訳(メタデータ) (2024-06-25T04:27:53Z) - LLM-based speaker diarization correction: A generalizable approach [0.0]
ダイアリゼーション補正のための大規模言語モデル(LLM)を後処理のステップとして使用することを検討した。
モデルがフィッシャーコーパスのホールドアウトデータセットと独立データセットのダイアリゼーション精度を向上させる能力を測定した。
論文 参考訳(メタデータ) (2024-06-07T13:33:22Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Adaptive Fine-Grained Predicates Learning for Scene Graph Generation [122.4588401267544]
一般的なシーングラフ生成(SGG)モデルは、頭部の述語を予測する傾向があり、再バランス戦略は尾のカテゴリを好む。
本稿では,SGGの難解な述語を識別することを目的とした適応的微粒述語学習(FGPL-A)を提案する。
提案したモデル非依存戦略は,VG-SGGおよびGQA-SGGデータセットのベンチマークモデルの性能を最大175%,Mean Recall@100では76%向上させ,新たな最先端性能を実現する。
論文 参考訳(メタデータ) (2022-07-11T03:37:57Z) - A Self-Refinement Strategy for Noise Reduction in Grammatical Error
Correction [54.569707226277735]
既存の文法的誤り訂正(GEC)のアプローチは、手動で作成したGECデータセットによる教師あり学習に依存している。
誤りが不適切に編集されたり、修正されなかったりする「ノイズ」は無視できないほどある。
本稿では,既存のモデルの予測整合性を利用して,これらのデータセットをデノマイズする自己補充手法を提案する。
論文 参考訳(メタデータ) (2020-10-07T04:45:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。