Fugu-MT 論文翻訳(概要): On the Calibration of Multilingual Question Answering LLMs

論文の概要: On the Calibration of Multilingual Question Answering LLMs

arxiv url: http://arxiv.org/abs/2311.08669v2
Date: Mon, 15 Apr 2024 14:44:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-17 23:55:11.805573
Title: On the Calibration of Multilingual Question Answering LLMs
Title（参考訳）: LLMにおける多言語質問応答の校正について
Authors: Yahan Yang, Soham Dan, Dan Roth, Insup Lee,
Abstract要約: 複数の多言語大言語モデル(MLLM)のキャリブレーションを様々な質問応答タスクでベンチマークする。本研究では,分布内,分布外,言語間移動設定におけるキャリブレーションの異なる次元について検討する。 LlaMa2のようなデコーダのみのLLMでは、コンテキスト内学習は多言語データの信頼性校正を改善する。
参考スコア（独自算出の注目度）: 57.296161186129545
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multilingual pre-trained Large Language Models (LLMs) are incredibly effective at Question Answering (QA), a core task in Natural Language Understanding, achieving high accuracies on several multilingual benchmarks. However, little is known about how well their confidences are calibrated. In this paper, we comprehensively benchmark the calibration of several multilingual LLMs (MLLMs) on a variety of QA tasks. We perform extensive experiments, spanning encoder-only, encoder-decoder, and decoder-only QA models (size varying from 110M to 7B parameters) and diverse languages, including both high- and low-resource ones. We study different dimensions of calibration in in-distribution, out-of-distribution, and cross-lingual transfer settings, and investigate strategies to improve it, including post-hoc methods and regularized fine-tuning. For decoder-only LLMs such as LlaMa2, we additionally find that in-context learning improves confidence calibration on multilingual data. We also conduct several ablation experiments to study the effect of language distances, language corpus size, and model size on calibration, and how multilingual models compare with their monolingual counterparts for diverse tasks and languages. Our experiments suggest that the multilingual QA models are poorly calibrated for languages other than English and incorporating a small set of cheaply translated multilingual samples during fine-tuning/calibration effectively enhances the calibration performance.
Abstract（参考訳）: 多言語事前学習された大規模言語モデル(LLM)は、自然言語理解のコアタスクである質問回答(QA)において驚くほど効果的であり、複数の多言語ベンチマークで高い精度を達成する。しかし、彼らの信頼度がどの程度校正されているかは分かっていない。本稿では,多言語LLM(MLLM)のキャリブレーションを,様々なQAタスクに対して総合的にベンチマークする。我々は、エンコーダのみ、エンコーダのみ、およびデコーダのみのQAモデル(110Mから7Bパラメータ)と、高リソースと低リソースの両方を含む多種多様な言語にまたがる広範な実験を行う。本研究では, 分布内, 分布外, 言語間移動設定におけるキャリブレーションの異なる次元について検討し, ポストホック法や正規化微調整など, その改善策について検討する。 LlaMa2のようなデコーダのみのLLMでは、コンテキスト内学習は多言語データの信頼性校正を改善する。また, 言語距離, 言語コーパスサイズ, モデルサイズがキャリブレーションに与える影響, および多言語モデルが, 多様なタスクや言語に対するモノリンガルモデルと比較する方法について, いくつかのアブレーション実験を行った。実験により,多言語QAモデルでは英語以外の言語では校正が不十分であることが示唆され,微調整・校正中に安価に翻訳された小セットの多言語サンプルが組み込まれ,校正性能が向上することが示唆された。

関連論文リスト

MuRating: A High Quality Data Selecting Approach to Multilingual Large Language Model Pretraining [27.952041404675846]
高品質な英語データ品質の信号を17のターゲット言語に対して単一のレーダに転送するフレームワークであるMuRatingを紹介した。 MuRatingは、ペア比較を通じて複数の英語の「レーダ」を集約し、統一された文書品質スコアを学習する。その後、翻訳を通じてこれらの判断を投影し、モノリンガル、クロスランガル、およびパラレルテキストペア上で多言語評価器を訓練する。
論文参考訳（メタデータ） (2025-07-02T15:11:12Z)
MuBench: Assessment of Multilingual Capabilities of Large Language Models Across 61 Languages [33.450081592217074]
MuBenchは61の言語をカバーし、幅広い機能を評価するベンチマークです。我々は、最先端の多言語LLMを評価し、請求項と実際の言語カバレッジとの間に顕著なギャップを見いだした。
論文参考訳（メタデータ） (2025-06-24T09:53:00Z)
M-Prometheus: A Suite of Open Multilingual LLM Judges [64.22940792713713]
M-Prometheusは,多言語出力の直接評価とペア比較フィードバックを両立できるオープンウェイトLLM判定器のスイートである。 M-Prometheusモデルは、20以上の言語にまたがる多言語報酬ベンチマークや、4つの言語対をカバーする文語機械翻訳(MT)評価において、最先端のLLM判事より優れている。
論文参考訳（メタデータ） (2025-04-07T11:37:26Z)
Qtok: A Comprehensive Framework for Evaluating Multilingual Tokenizer Quality in Large Language Models [0.0]
トークン化の品質は、モデルが多様な言語を効果的に扱う能力に大きな影響を及ぼす可能性がある。 Qtokは、多言語環境でのパフォーマンスに特に重点を置いて、トークン化ツールの品質を評価するために設計されたツールである。 Qtokはこれらのメトリクスを適用して、58の公開モデルから13の異なるトークン化子を評価し、異なる言語コンテキストでアウトプットを分析する。
論文参考訳（メタデータ） (2024-10-16T19:34:34Z)
Scaling Laws for Multilingual Language Models [41.6318470003173]
多言語スケーリングの研究における主要な課題は、言語間移動による個々の言語性能の分析が困難であることである。本稿では,各言語群に対するクロスエントロピー損失が,それぞれのサンプリング比でのみ決定されるという仮説を導入し,検証する。性能とデータセットサイズ,モデルサイズ,サンプリング比率を関連づける,ゆるい関係を導出する。
論文参考訳（メタデータ） (2024-10-15T20:29:38Z)
Investigating Language-Specific Calibration For Pruning Multilingual Large Language Models [11.421452042888523]
多様な言語,タスク,モデル,および SotA プルーニング技術を用いて,多言語モデルをプルーニングするためのキャリブレーション言語を比較した。例えば、ターゲット言語を校正することで、効率的に言語モデリング能力を維持することができるが、必ずしも下流タスクに利益をもたらすとは限らない。
論文参考訳（メタデータ） (2024-08-26T16:29:13Z)
The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文参考訳（メタデータ） (2024-05-02T14:49:50Z)
Multilingual Brain Surgeon: Large Language Models Can be Compressed Leaving No Language Behind [14.433894552549337]
大規模言語モデル (LLMs) は自然言語処理の新しい時代を迎えたが、その巨大なサイズは実用性のために効果的な圧縮技術を必要としている。本稿では,多言語LLM圧縮のための新しい校正データサンプリング手法であるMultilingual Brain Surgeon (MBS)を紹介する。 MBSは、モデルトレーニングデータセットの言語分布に比例して、様々な言語からの校正データをサンプリングすることで、既存の手法の英語中心の制限を克服する。
論文参考訳（メタデータ） (2024-04-06T22:16:32Z)
Extrapolating Large Language Models to Non-English by Aligning Languages [109.09051737966178]
既存の大きな言語モデルは、異なる言語間で異なる能力を示す。本稿では,言語間のセマンティックアライメントを構築することで,英語以外の言語に事前学習したLLMを強化する。
論文参考訳（メタデータ） (2023-08-09T13:32:06Z)
On the Calibration of Massively Multilingual Language Models [15.373725507698591]
超多言語言語モデル(MMLM)は、最近、言語間移動における驚くべき効果により人気を博している。まず,ゼロショット設定におけるMMLMの校正について検討し,低リソース言語における誤校正の明確な事例を観察する。また、言語の少数例はキャリブレーションエラーを減らすのに役立ちます。
論文参考訳（メタデータ） (2022-10-21T21:41:56Z)
High-resource Language-specific Training for Multilingual Neural Machine Translation [109.31892935605192]
負の干渉を軽減するために,HLT-MT(High-Resource Language-specific Training)を用いた多言語翻訳モデルを提案する。具体的には、まずマルチ言語モデルを高リソースペアでトレーニングし、デコーダの上部にある言語固有のモジュールを選択する。 HLT-MTは、高リソース言語から低リソース言語への知識伝達のために、利用可能なすべてのコーパスでさらに訓練されている。
論文参考訳（メタデータ） (2022-07-11T14:33:13Z)
Breaking Down Multilingual Machine Translation [74.24795388967907]
マルチ言語学習は一般にエンコーダにとって有益であるが,ローソース言語(LRL)ではデコーダにのみ有益であることを示す。 LRLの多言語モデルと一対多モデルは、Aharoniらによって報告された最良の結果よりも優れています。
論文参考訳（メタデータ） (2021-10-15T14:57:12Z)
Are Multilingual Models Effective in Code-Switching? [57.78477547424949]
多言語モデルの有効性を検討し,複合言語設定の能力と適応性について検討する。この結果から,事前学習した多言語モデルでは,コードスイッチングにおける高品質な表現が必ずしも保証されないことが示唆された。
論文参考訳（メタデータ） (2021-03-24T16:20:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。