論文の概要: $C^3$: Confidence Calibration Model Cascade for Inference-Efficient
Cross-Lingual Natural Language Understanding
- arxiv url: http://arxiv.org/abs/2402.15991v1
- Date: Sun, 25 Feb 2024 05:07:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 16:04:39.713094
- Title: $C^3$: Confidence Calibration Model Cascade for Inference-Efficient
Cross-Lingual Natural Language Understanding
- Title(参考訳): C^3$: 推論効率の良い言語間自然言語理解のための信頼校正モデルカスケード
- Authors: Taixi Lu, Haoyu Wang, Huajie Shao, Jing Gao, Huaxiu Yao
- Abstract要約: 言語間自然言語理解(NLU)は自然言語処理(NLP)において重要な課題である
近年,多言語事前学習言語モデル (mPLM) の進歩により,これらのタスクの性能が著しく向上している。
既存のモデルカスケード法は、様々なモデルから電流入力を処理できる最も軽量なモデルを選択して、推論効率を向上させる。
- 参考スコア(独自算出の注目度): 28.853593305486832
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-lingual natural language understanding (NLU) is a critical task in
natural language processing (NLP). Recent advancements have seen multilingual
pre-trained language models (mPLMs) significantly enhance the performance of
these tasks. However, mPLMs necessitate substantial resources and incur high
computational costs during inference, posing challenges for deployment in
real-world and real-time systems. Existing model cascade methods seek to
enhance inference efficiency by greedily selecting the lightest model capable
of processing the current input from a variety of models, based on model
confidence scores. Nonetheless, deep models tend to exhibit overconfidence, and
confidence distributions vary across languages. This leads to the emission of
confident but incorrect predictions by smaller models, hindering their ability
to generalize effectively across test languages. In this study, we introduce a
confidence calibration model cascade ($C^3$) method. This approach, simple yet
effective, involves calibration prior to cascade inference, thereby enhancing
cascade accuracy through more reliable predictions. Extensive experiments
conducted on three cross-lingual benchmarks demonstrate that $C^3$
significantly outperforms all state-of-the-art baselines.
- Abstract(参考訳): 言語間自然言語理解(NLU)は自然言語処理(NLP)において重要な課題である。
近年,多言語事前学習言語モデル (mPLM) はこれらのタスクの性能を大幅に向上させた。
しかし、mplmsは十分なリソースを必要とし、推論中に高い計算コストを発生させ、実世界およびリアルタイムシステムへのデプロイに挑戦する。
既存のモデルカスケード法は、モデル信頼スコアに基づいて、様々なモデルから電流入力を処理できる最も軽量なモデルを選択して推論効率を向上させる。
それでも、深いモデルは自信過剰を示す傾向があり、信頼度分布は言語によって異なる。
これにより、より小さなモデルによる自信あるが誤った予測が放出され、テスト言語をまたいで効果的に一般化する能力が妨げられる。
本研究では,信頼性キャリブレーションモデルカスケード(C^3$)法を提案する。
このアプローチは単純だが効果的であり、カスケード推論に先立ってキャリブレーションを行い、より信頼性の高い予測によってカスケード精度を向上させる。
3つの言語間ベンチマークで実施された大規模な実験は、C^3$が最先端のベースライン全てを著しく上回ることを示した。
関連論文リスト
- Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - Observational Scaling Laws and the Predictability of Language Model Performance [51.2336010244645]
本稿では、モデルトレーニングを回避し、100のパブリックモデルからスケーリング法則を構築する観察的アプローチを提案する。
いくつかの創発現象が滑らかでシグモダルな挙動を辿り、小さなモデルから予測可能であることを示す。
言語モデル機能の改善が進むにつれて、Chain-of-ThoughtやSelf-Consistencyといったポストトレーニング介入の影響を予測する方法を示す。
論文 参考訳(メタデータ) (2024-05-17T17:49:44Z) - Calibrating the Confidence of Large Language Models by Eliciting Fidelity [52.47397325111864]
RLHFのようなテクニックで最適化された大規模な言語モデルは、有用で無害な点において優れた整合性を実現している。
調整後、これらの言語モデルはしばしば過剰な自信を示し、表現された自信は正確さの度合いで正確に校正しない。
本稿では,言語モデルの信頼度を推定するプラグイン・アンド・プレイ手法を提案する。
論文 参考訳(メタデータ) (2024-04-03T11:36:12Z) - Headless Language Models: Learning without Predicting with Contrastive
Weight Tying [0.11510009152620666]
言語モデルの自己教師付き事前訓練は通常、広範囲なトークン語彙上の確率分布を予測する。
確率予測から脱却し、コンストラッシブウェイトタイリング(CWT)を介してコントラッシブな方法で入力埋め込みを再構築することに焦点を当てた革新的な手法を提案する。
同様の計算予算における古典的 LM と比較して, 有意な +1.6 GLUE スコアの増加と, 顕著な +2.7 LAMBADA の精度向上が観察された。
論文 参考訳(メタデータ) (2023-09-15T12:20:00Z) - Cabrita: closing the gap for foreign languages [0.0]
特定の言語やドメインのスクラッチからモデルをトレーニングする戦略は、2つの重要な目的に役立ちます。
このコスト課題を克服する主な解決策は、利用可能なトレーニング済みモデルに依存することである。
本稿では,性能と効率的なトークン化問題に対処する手法であるCabritaを提案する。
論文 参考訳(メタデータ) (2023-08-23T02:49:35Z) - Preserving Pre-trained Features Helps Calibrate Fine-tuned Language
Models [23.881825575095945]
大規模事前学習型言語モデル(PLM)は、微調整により自然言語理解(NLU)タスクに強い性能を示す。
しかし、微調整されたモデルは、特にドメイン外設定において、過度に自信過剰な予測に悩まされている。
本研究では,PLMがマスキング言語モデリングタスクにおいて,ドメインシフトの下で頑健な予測信頼度を有することを実証する。
事前学習した特徴の保存は、微調整言語モデルの校正を改善することができることを示す。
論文 参考訳(メタデータ) (2023-05-30T17:35:31Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - BabyBear: Cheap inference triage for expensive language models [9.023847175654602]
自然言語処理(NLP)タスクのカスケードモデルのためのフレームワークであるBabyBearを紹介する。
一般的なNLPタスクでは、ディープラーニングモデルを観察して学習した、安価で高速なモデルによって、推論負荷の高い割合を達成することができる。
これにより、大規模分類ジョブの計算コストを、全体的な精度を維持しながら50%以上削減できる。
論文 参考訳(メタデータ) (2022-05-24T03:21:07Z) - From Good to Best: Two-Stage Training for Cross-lingual Machine Reading
Comprehension [51.953428342923885]
モデル性能を向上させるための2段階のアプローチを開発する。
我々は、トップk予測が正確な答えを含む確率を最大化するために、ハードラーニング(HL)アルゴリズムを設計する。
第2段階では, 正解と他の候補との微妙な違いを学習するために, 解答を意識したコントラスト学習機構が開発された。
論文 参考訳(メタデータ) (2021-12-09T07:31:15Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。