論文の概要: Investigating the Multilingual Calibration Effects of Language Model Instruction-Tuning
- arxiv url: http://arxiv.org/abs/2601.01362v1
- Date: Sun, 04 Jan 2026 04:29:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.254737
- Title: Investigating the Multilingual Calibration Effects of Language Model Instruction-Tuning
- Title(参考訳): 言語モデル学習の多言語校正効果の検討
- Authors: Jerry Huang, Peng Lu, Qiuhao Zeng, Yusuke Iwasawa, Yutaka Matsuo, Sarath Chandar, Edison Marrese-Taylor, Irene Li,
- Abstract要約: 本研究は,多言語設定における大規模言語モデル(LLM)の校正における重要なギャップについて考察する。
低リソース言語であっても、高リソース言語SFTデータセットのインストラクションチューニング後にモデルの信頼性が著しく向上する可能性がある。
しかし、精度の改善は限界的あるいは存在しないものであり、多言語言語における標準SFTの重大な欠点を浮き彫りにしている。
- 参考スコア(独自算出の注目度): 58.355275813623685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ensuring that deep learning models are well-calibrated in terms of their predictive uncertainty is essential in maintaining their trustworthiness and reliability, yet despite increasing advances in foundation model research, the relationship between such large language models (LLMs) and their calibration remains an open area of research. In this work, we look at a critical gap in the calibration of LLMs within multilingual settings, in an attempt to better understand how the data scarcity can potentially lead to different calibration effects and how commonly used techniques can apply in these settings. Our analysis on two multilingual benchmarks, over 29 and 42 languages respectively, reveals that even in low-resource languages, model confidence can increase significantly after instruction-tuning on high-resource language SFT datasets. However, improvements in accuracy are marginal or non-existent, resulting in mis-calibration, highlighting a critical shortcoming of standard SFT for multilingual languages. Furthermore, we observe that the use of label smoothing to be a reasonable method alleviate this concern, again without any need for low-resource SFT data, maintaining better calibration across all languages. Overall, this highlights the importance of multilingual considerations for both training and tuning LLMs in order to improve their reliability and fairness in downstream use.
- Abstract(参考訳): しかし、基礎モデル研究の進歩にもかかわらず、そのような大規模言語モデル(LLM)とそれらの校正との関係は研究のオープンな領域のままである。
本研究では,多言語設定におけるLCMの校正における重要なギャップについて考察し,データ不足がキャリブレーション効果にどのように影響するか,また,これらの設定にどのようによく用いられる技術が適用できるかをよりよく理解しようとする。
2つの多言語ベンチマーク(29言語以上、42言語以上)を解析した結果、低リソース言語においても、高リソース言語SFTデータセットのインストラクションチューニング後にモデルの信頼性が著しく向上することが判明した。
しかし、精度の改善には限界があるか存在しないため、誤校正が生じ、多言語言語における標準SFTの重大な欠点が浮き彫りになる。
さらに,ラベルスムーシングは,低リソースのSFTデータを必要とせず,全ての言語でのキャリブレーションを向上し,この問題を緩和する有効な手法であることを示す。
全体として、下流使用における信頼性と公平性を改善するため、LLMのトレーニングとチューニングの両面での多言語的考察の重要性を強調している。
関連論文リスト
- Beyond the Final Layer: Intermediate Representations for Better Multilingual Calibration in Large Language Models [50.34755385896279]
大規模言語モデル(LLM)の信頼性確保には信頼度校正が不可欠である
6つのモデルファミリーと100以上の言語にまたがる多言語キャリブレーションの大規模かつ体系的な研究を行う。
非英語言語は体系的に悪い校正に苦しむ。
論文 参考訳(メタデータ) (2025-10-03T16:07:15Z) - The Reliability Paradox: Exploring How Shortcut Learning Undermines Language Model Calibration [5.616884466478886]
プレトレーニング言語モデル(PLM)は、自然言語処理の分野で大きなパフォーマンス向上を実現している。
近年の研究では、PLMは誤校正に悩まされており、これらのモデルによる信頼度推定の精度の欠如が示唆されている。
本稿では,低校正誤差が言語モデルの信頼性決定ルールを意味するか否かを考察する。
論文 参考訳(メタデータ) (2024-12-17T08:04:28Z) - A Comparative Study of Translation Bias and Accuracy in Multilingual Large Language Models for Cross-Language Claim Verification [1.566834021297545]
本研究は,言語間クレーム検証における翻訳バイアスと大規模言語モデルの有効性を体系的に評価する。
本稿では,事前翻訳と自己翻訳の2つの異なる翻訳手法について検討する。
その結果,低リソース言語では表現不足による直接推論の精度が著しく低いことが明らかとなった。
論文 参考訳(メタデータ) (2024-10-14T09:02:42Z) - Quality or Quantity? On Data Scale and Diversity in Adapting Large Language Models for Low-Resource Translation [62.202893186343935]
低リソース言語に大規模言語モデルを適用するのに何が必要かについて検討する。
我々は、事前トレーニングとスーパーバイザードファインチューニング(SFT)の間に並列データが重要であることを示す。
2つの低リソース言語群にまたがる3つの LLM 実験により,本研究の一般化可能性を示す一貫した傾向が示された。
論文 参考訳(メタデータ) (2024-08-23T00:59:38Z) - On the Calibration of Multilingual Question Answering LLMs [57.296161186129545]
複数の多言語大言語モデル(MLLM)のキャリブレーションを様々な質問応答タスクでベンチマークする。
本研究では,分布内,分布外,言語間移動設定におけるキャリブレーションの異なる次元について検討する。
LlaMa2のようなデコーダのみのLLMでは、コンテキスト内学習は多言語データの信頼性校正を改善する。
論文 参考訳(メタデータ) (2023-11-15T03:29:02Z) - On the Calibration of Massively Multilingual Language Models [15.373725507698591]
超多言語言語モデル(MMLM)は、最近、言語間移動における驚くべき効果により人気を博している。
まず,ゼロショット設定におけるMMLMの校正について検討し,低リソース言語における誤校正の明確な事例を観察する。
また、言語の少数例はキャリブレーションエラーを減らすのに役立ちます。
論文 参考訳(メタデータ) (2022-10-21T21:41:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。