Fugu-MT 論文翻訳(概要): On the Calibration of Massively Multilingual Language Models

論文の概要: On the Calibration of Massively Multilingual Language Models

arxiv url: http://arxiv.org/abs/2210.12265v1
Date: Fri, 21 Oct 2022 21:41:56 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-25 15:51:59.733726
Title: On the Calibration of Massively Multilingual Language Models
Title（参考訳）: 多言語多言語モデルの校正について
Authors: Kabir Ahuja, Sunayana Sitaram, Sandipan Dandapat, Monojit Choudhury
Abstract要約: 超多言語言語モデル(MMLM)は、最近、言語間移動における驚くべき効果により人気を博している。まず,ゼロショット設定におけるMMLMの校正について検討し,低リソース言語における誤校正の明確な事例を観察する。また、言語の少数例はキャリブレーションエラーを減らすのに役立ちます。
参考スコア（独自算出の注目度）: 15.373725507698591
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Massively Multilingual Language Models (MMLMs) have recently gained popularity due to their surprising effectiveness in cross-lingual transfer. While there has been much work in evaluating these models for their performance on a variety of tasks and languages, little attention has been paid on how well calibrated these models are with respect to the confidence in their predictions. We first investigate the calibration of MMLMs in the zero-shot setting and observe a clear case of miscalibration in low-resource languages or those which are typologically diverse from English. Next, we empirically show that calibration methods like temperature scaling and label smoothing do reasonably well towards improving calibration in the zero-shot scenario. We also find that few-shot examples in the language can further help reduce the calibration errors, often substantially. Overall, our work contributes towards building more reliable multilingual models by highlighting the issue of their miscalibration, understanding what language and model specific factors influence it, and pointing out the strategies to improve the same.
Abstract（参考訳）: 超多言語言語モデル(MMLM)は、最近、言語間移動における驚くべき効果により人気を博している。これらのモデルをさまざまなタスクや言語でパフォーマンス評価する作業は数多くあったが、予測に対する信頼度に関して、これらのモデルの校正がいかに良好であるかにはほとんど注意が払われていない。まず,ゼロショット設定におけるMMLMの校正について検討し,低リソース言語や類型的に英語と異なる言語における誤校正の明確な事例を観察する。次に,温度スケーリングやラベル平滑化などのキャリブレーション手法がゼロショットシナリオのキャリブレーション改善に適していることを示す。また、この言語の数少ない例が、キャリブレーションのエラーを減らすのに役立つことも分かっています。全体として、我々の研究は、それらの誤解の問題を強調し、言語とモデル固有の要因がそれに影響するかを理解し、それを改善するための戦略を指摘することによって、より信頼性の高い多言語モデルの構築に寄与します。

関連論文リスト

The Reliability Paradox: Exploring How Shortcut Learning Undermines Language Model Calibration [5.616884466478886]
プレトレーニング言語モデル(PLM)は、自然言語処理の分野で大きなパフォーマンス向上を実現している。近年の研究では、PLMは誤校正に悩まされており、これらのモデルによる信頼度推定の精度の欠如が示唆されている。本稿では,低校正誤差が言語モデルの信頼性決定ルールを意味するか否かを考察する。
論文参考訳（メタデータ） (2024-12-17T08:04:28Z)
Investigating Language-Specific Calibration For Pruning Multilingual Large Language Models [11.421452042888523]
多様な言語,タスク,モデル,および SotA プルーニング技術を用いて,多言語モデルをプルーニングするためのキャリブレーション言語を比較した。例えば、ターゲット言語を校正することで、効率的に言語モデリング能力を維持することができるが、必ずしも下流タスクに利益をもたらすとは限らない。
論文参考訳（メタデータ） (2024-08-26T16:29:13Z)
The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文参考訳（メタデータ） (2024-05-02T14:49:50Z)
Calibrating Large Language Models with Sample Consistency [76.23956851098598]
本稿では,複数サンプルモデル生成系の分布から信頼度を導出する可能性について,一貫性の3つの尺度を用いて検討する。その結果、一貫性に基づくキャリブレーション手法は、既存のポストホック手法よりも優れていることがわかった。種々のLMの特性に合わせて,キャリブレーションに適した整合性指標を選択するための実用的なガイダンスを提供する。
論文参考訳（メタデータ） (2024-02-21T16:15:20Z)
On the Calibration of Large Language Models and Alignment [63.605099174744865]
信頼性キャリブレーションは、ディープモデルの信頼性を高める重要なツールである。構築プロセス全体を通して、アライメント言語モデルの校正を体系的に検討する。我々の研究は、人気のあるLCMが十分に校正されているか、トレーニングプロセスがモデルの校正にどのように影響するかに光を当てています。
論文参考訳（メタデータ） (2023-11-22T08:57:55Z)
On the Calibration of Multilingual Question Answering LLMs [57.296161186129545]
複数の多言語大言語モデル(MLLM)のキャリブレーションを様々な質問応答タスクでベンチマークする。本研究では,分布内,分布外,言語間移動設定におけるキャリブレーションの異なる次元について検討する。 LlaMa2のようなデコーダのみのLLMでは、コンテキスト内学習は多言語データの信頼性校正を改善する。
論文参考訳（メタデータ） (2023-11-15T03:29:02Z)
Evaluating the Capability of Large-scale Language Models on Chinese Grammatical Error Correction Task [10.597024796304016]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて顕著な能力を示している。本報告では,中国語の文法的誤り訂正タスクにおける大規模言語モデルの性能について検討する。
論文参考訳（メタデータ） (2023-07-08T13:10:59Z)
Preserving Pre-trained Features Helps Calibrate Fine-tuned Language Models [23.881825575095945]
大規模事前学習型言語モデル(PLM)は、微調整により自然言語理解(NLU)タスクに強い性能を示す。しかし、微調整されたモデルは、特にドメイン外設定において、過度に自信過剰な予測に悩まされている。本研究では,PLMがマスキング言語モデリングタスクにおいて,ドメインシフトの下で頑健な予測信頼度を有することを実証する。事前学習した特徴の保存は、微調整言語モデルの校正を改善することができることを示す。
論文参考訳（メタデータ） (2023-05-30T17:35:31Z)
A Multi-dimensional Evaluation of Tokenizer-free Multilingual Pretrained Models [87.7086269902562]
サブワードベースのモデルは、多くの設定において依然として最も実用的な選択肢であることを示している。我々は,新しいモデルを設計し,評価する際のこれらの要因を検討するために,トークンフリーな手法の今後の取り組みを奨励する。
論文参考訳（メタデータ） (2022-10-13T15:47:09Z)
Comparison of Interactive Knowledge Base Spelling Correction Models for Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文参考訳（メタデータ） (2020-10-20T17:31:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。