Fugu-MT 論文翻訳(概要): Understanding Calibration for Multilingual Question Answering Models

論文の概要: Understanding Calibration for Multilingual Question Answering Models

arxiv url: http://arxiv.org/abs/2311.08669v1
Date: Wed, 15 Nov 2023 03:29:02 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-16 17:27:22.558422
Title: Understanding Calibration for Multilingual Question Answering Models
Title（参考訳）: 多言語質問応答モデルに対するキャリブレーションの理解
Authors: Yahan Yang, Soham Dan, Dan Roth, Insup Lee
Abstract要約: 本研究では,様々な質問応答タスクにおいて,事前学習した多言語大言語モデルの校正特性について検討する。本研究では,分布内,分布外,言語間移動設定におけるキャリブレーションの異なる次元について検討する。モデルキャリブレーションを改善するための高効率な手法として,自動翻訳データ拡張を実演する。
参考スコア（独自算出の注目度）: 62.59193996769162
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multilingual pre-trained language models are incredibly effective at Question Answering (QA), a core task in Natural Language Understanding, achieving high accuracies on several multilingual benchmarks. However, little is known about how well they are calibrated. In this paper, we study the calibration properties of several pre-trained multilingual large language models (LLMs) on a variety of question-answering tasks. We perform extensive experiments, spanning both extractive and generative QA model designs and diverse languages, spanning both high-resource and low-resource ones. We study different dimensions of calibration in in-distribution, out-of-distribution, and cross-lingual transfer settings, and investigate strategies to improve it, including post-hoc methods and regularized fine-tuning. We demonstrate automatically translated data augmentation as a highly effective technique to improve model calibration. We also conduct a number of ablation experiments to study the effect of model size on calibration and how multilingual models compare with their monolingual counterparts for diverse tasks and languages.
Abstract（参考訳）: 多言語事前学習言語モデルは、自然言語理解のコアタスクである質問回答(QA)において驚くほど効果的であり、複数のマルチ言語ベンチマークで高い精度を達成する。しかし、どのように校正されているかは分かっていない。本稿では,複数の事前学習された多言語大言語モデル(LLM)の様々な質問応答課題に対する校正特性について検討する。抽出型および生成型qaモデル設計と多種多様な言語の両方にまたがる広範な実験を行い、高リソースと低リソースの両方にまたがる。分布, 分布域外, 言語間移動におけるキャリブレーションの異なる次元について検討し, ポストホック法, 正規化微調整法など, 改善戦略について検討した。モデルキャリブレーションを改善するための高効率な手法として,自動翻訳データ拡張を示す。また、モデルサイズがキャリブレーションに与える影響や、多言語モデルが様々なタスクや言語に対するモノリンガルモデルと比較する方法について、多数のアブレーション実験を行った。

関連論文リスト

MuRating: A High Quality Data Selecting Approach to Multilingual Large Language Model Pretraining [27.952041404675846]
高品質な英語データ品質の信号を17のターゲット言語に対して単一のレーダに転送するフレームワークであるMuRatingを紹介した。 MuRatingは、ペア比較を通じて複数の英語の「レーダ」を集約し、統一された文書品質スコアを学習する。その後、翻訳を通じてこれらの判断を投影し、モノリンガル、クロスランガル、およびパラレルテキストペア上で多言語評価器を訓練する。
論文参考訳（メタデータ） (2025-07-02T15:11:12Z)
MuBench: Assessment of Multilingual Capabilities of Large Language Models Across 61 Languages [33.450081592217074]
MuBenchは61の言語をカバーし、幅広い機能を評価するベンチマークです。我々は、最先端の多言語LLMを評価し、請求項と実際の言語カバレッジとの間に顕著なギャップを見いだした。
論文参考訳（メタデータ） (2025-06-24T09:53:00Z)
M-Prometheus: A Suite of Open Multilingual LLM Judges [64.22940792713713]
M-Prometheusは,多言語出力の直接評価とペア比較フィードバックを両立できるオープンウェイトLLM判定器のスイートである。 M-Prometheusモデルは、20以上の言語にまたがる多言語報酬ベンチマークや、4つの言語対をカバーする文語機械翻訳(MT)評価において、最先端のLLM判事より優れている。
論文参考訳（メタデータ） (2025-04-07T11:37:26Z)
Qtok: A Comprehensive Framework for Evaluating Multilingual Tokenizer Quality in Large Language Models [0.0]
トークン化の品質は、モデルが多様な言語を効果的に扱う能力に大きな影響を及ぼす可能性がある。 Qtokは、多言語環境でのパフォーマンスに特に重点を置いて、トークン化ツールの品質を評価するために設計されたツールである。 Qtokはこれらのメトリクスを適用して、58の公開モデルから13の異なるトークン化子を評価し、異なる言語コンテキストでアウトプットを分析する。
論文参考訳（メタデータ） (2024-10-16T19:34:34Z)
Scaling Laws for Multilingual Language Models [41.6318470003173]
多言語スケーリングの研究における主要な課題は、言語間移動による個々の言語性能の分析が困難であることである。本稿では,各言語群に対するクロスエントロピー損失が,それぞれのサンプリング比でのみ決定されるという仮説を導入し,検証する。性能とデータセットサイズ,モデルサイズ,サンプリング比率を関連づける,ゆるい関係を導出する。
論文参考訳（メタデータ） (2024-10-15T20:29:38Z)
Investigating Language-Specific Calibration For Pruning Multilingual Large Language Models [11.421452042888523]
多様な言語,タスク,モデル,および SotA プルーニング技術を用いて,多言語モデルをプルーニングするためのキャリブレーション言語を比較した。例えば、ターゲット言語を校正することで、効率的に言語モデリング能力を維持することができるが、必ずしも下流タスクに利益をもたらすとは限らない。
論文参考訳（メタデータ） (2024-08-26T16:29:13Z)
The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文参考訳（メタデータ） (2024-05-02T14:49:50Z)
Multilingual Brain Surgeon: Large Language Models Can be Compressed Leaving No Language Behind [14.433894552549337]
大規模言語モデル (LLMs) は自然言語処理の新しい時代を迎えたが、その巨大なサイズは実用性のために効果的な圧縮技術を必要としている。本稿では,多言語LLM圧縮のための新しい校正データサンプリング手法であるMultilingual Brain Surgeon (MBS)を紹介する。 MBSは、モデルトレーニングデータセットの言語分布に比例して、様々な言語からの校正データをサンプリングすることで、既存の手法の英語中心の制限を克服する。
論文参考訳（メタデータ） (2024-04-06T22:16:32Z)
Extrapolating Large Language Models to Non-English by Aligning Languages [109.09051737966178]
既存の大きな言語モデルは、異なる言語間で異なる能力を示す。本稿では,言語間のセマンティックアライメントを構築することで,英語以外の言語に事前学習したLLMを強化する。
論文参考訳（メタデータ） (2023-08-09T13:32:06Z)
On the Calibration of Massively Multilingual Language Models [15.373725507698591]
超多言語言語モデル(MMLM)は、最近、言語間移動における驚くべき効果により人気を博している。まず,ゼロショット設定におけるMMLMの校正について検討し,低リソース言語における誤校正の明確な事例を観察する。また、言語の少数例はキャリブレーションエラーを減らすのに役立ちます。
論文参考訳（メタデータ） (2022-10-21T21:41:56Z)
High-resource Language-specific Training for Multilingual Neural Machine Translation [109.31892935605192]
負の干渉を軽減するために,HLT-MT(High-Resource Language-specific Training)を用いた多言語翻訳モデルを提案する。具体的には、まずマルチ言語モデルを高リソースペアでトレーニングし、デコーダの上部にある言語固有のモジュールを選択する。 HLT-MTは、高リソース言語から低リソース言語への知識伝達のために、利用可能なすべてのコーパスでさらに訓練されている。
論文参考訳（メタデータ） (2022-07-11T14:33:13Z)
Breaking Down Multilingual Machine Translation [74.24795388967907]
マルチ言語学習は一般にエンコーダにとって有益であるが,ローソース言語(LRL)ではデコーダにのみ有益であることを示す。 LRLの多言語モデルと一対多モデルは、Aharoniらによって報告された最良の結果よりも優れています。
論文参考訳（メタデータ） (2021-10-15T14:57:12Z)
Are Multilingual Models Effective in Code-Switching? [57.78477547424949]
多言語モデルの有効性を検討し,複合言語設定の能力と適応性について検討する。この結果から,事前学習した多言語モデルでは,コードスイッチングにおける高品質な表現が必ずしも保証されないことが示唆された。
論文参考訳（メタデータ） (2021-03-24T16:20:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。