論文の概要: Beyond the Final Layer: Intermediate Representations for Better Multilingual Calibration in Large Language Models
- arxiv url: http://arxiv.org/abs/2510.03136v1
- Date: Fri, 03 Oct 2025 16:07:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.475274
- Title: Beyond the Final Layer: Intermediate Representations for Better Multilingual Calibration in Large Language Models
- Title(参考訳): 最終層を超えて:大規模言語モデルにおける多言語キャリブレーション改善のための中間表現
- Authors: Ej Zhou, Caiqi Zhang, Tiancheng Hu, Chengzu Li, Nigel Collier, Ivan Vulić, Anna Korhonen,
- Abstract要約: 大規模言語モデル(LLM)の信頼性確保には信頼度校正が不可欠である
6つのモデルファミリーと100以上の言語にまたがる多言語キャリブレーションの大規模かつ体系的な研究を行う。
非英語言語は体系的に悪い校正に苦しむ。
- 参考スコア(独自算出の注目度): 50.34755385896279
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Confidence calibration, the alignment of a model's predicted confidence with its actual accuracy, is crucial for the reliable deployment of Large Language Models (LLMs). However, this critical property remains largely under-explored in multilingual contexts. In this work, we conduct the first large-scale, systematic studies of multilingual calibration across six model families and over 100 languages, revealing that non-English languages suffer from systematically worse calibration. To diagnose this, we investigate the model's internal representations and find that the final layer, biased by English-centric training, provides a poor signal for multilingual confidence. In contrast, our layer-wise analysis uncovers a key insight that late-intermediate layers consistently offer a more reliable and better-calibrated signal. Building on this, we introduce a suite of training-free methods, including Language-Aware Confidence Ensemble (LACE), which adaptively selects an optimal ensemble of layers for each specific language. Our study highlights the hidden costs of English-centric alignment and offer a new path toward building more globally equitable and trustworthy LLMs by looking beyond the final layer.
- Abstract(参考訳): 信頼性キャリブレーション(Confidence calibration)は、モデルが予測する信頼性と実際の精度を一致させることで、Large Language Models (LLM) の信頼性の確保に不可欠である。
しかし、この重要な性質は多言語文脈においてほとんど探索されていない。
本研究では、6つのモデルファミリーと100以上の言語にまたがる多言語キャリブレーションの大規模かつ体系的な研究を行い、非英語言語が体系的に悪いキャリブレーションに悩まされることを明らかにする。
これを診断するために、モデルの内部表現を調査し、最終層が英語中心の訓練に偏り、多言語的信頼のためには不十分な信号であることを示す。
対照的に、我々の層解析は、後期中間層が常により信頼性が高くより良い校正信号を提供するという重要な洞察を明らかにする。
そこで我々はLACE(Language-Aware Confidence Ensemble)など,各言語に対して最適なレイヤのアンサンブルを適応的に選択する,トレーニング不要な一連の手法を紹介した。
本研究は、英語中心のアライメントの隠れたコストを強調し、最終層を超えて、よりグローバルに公平で信頼性の高いLCMを構築するための新たな道筋を提供する。
関連論文リスト
- Can Large Language Models Express Uncertainty Like Human? [71.27418419522884]
我々は,人間に注釈を付けた信頼スコアを持つヘッジ式の最初の多種多様な大規模データセットをリリースする。
現代大言語モデルにまたがる言語信頼に関する最初の体系的研究を行う。
論文 参考訳(メタデータ) (2025-09-29T02:34:30Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - Cross-Lingual Consistency of Factual Knowledge in Multilingual Language Models [7.478369203246005]
本研究では,多言語PLMにおける事実知識の言語間整合性(CLC)について検討する。
本稿では,言語間の知識一貫性を精度から独立して評価するために,ランク付けに基づく一貫性尺度(RankC)を提案する。
論文 参考訳(メタデータ) (2023-10-16T13:19:17Z) - Analyzing the Mono- and Cross-Lingual Pretraining Dynamics of
Multilingual Language Models [73.11488464916668]
本研究では,多言語事前学習プロセスのダイナミクスについて検討する。
我々は,XLM-Rプレトレーニング全体から抽出したチェックポイントを,一連の言語的タスクを用いて探索する。
分析の結果,より複雑なものよりも低レベルな言語スキルが得られ,早期に高い言語性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-05-24T03:35:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。