論文の概要: PoETa v2: Toward More Robust Evaluation of Large Language Models in Portuguese
- arxiv url: http://arxiv.org/abs/2511.17808v2
- Date: Wed, 26 Nov 2025 20:44:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 13:46:31.767054
- Title: PoETa v2: Toward More Robust Evaluation of Large Language Models in Portuguese
- Title(参考訳): PoETa v2: ポルトガルにおける大規模言語モデルのロバストな評価に向けて
- Authors: Thales Sales Almeida, Ramon Pires, Hugo Abonizio, Rodrigo Nogueira, Hélio Pedrini,
- Abstract要約: ポルトガル語におけるLarge Language Models (LLM) の最も広範な評価について述べる。
トレーニングスケールと計算リソースの幅広い範囲をカバーする20以上のモデルを評価する。
このベンチマークと分析を通じて、PoETa v2はポルトガル語のモデリングと評価に関する将来の研究の基礎を成している。
- 参考スコア(独自算出の注目度): 13.666117502565827
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) exhibit significant variations in performance across linguistic and cultural contexts, underscoring the need for systematic evaluation in diverse languages. In this work, we present the most extensive evaluation of LLMs for the Portuguese language to date. Leveraging our newly introduced PoETa v2 benchmark -- a comprehensive suite of over 40 tasks in Portuguese -- we assess more than 20 models covering a broad spectrum of training scales and computational resources. Our study reveals how computational investment and language-specific adaptation impact performance in Portuguese, while also analyzing performance gaps in comparison to equivalent tasks in English. Through this benchmark and analysis, PoETa v2 lays the groundwork for future research on Portuguese language modeling and evaluation. The benchmark is available at https://github.com/PoETaV2/PoETaV2.
- Abstract(参考訳): 大規模言語モデル(LLM)は言語や文化の文脈において、様々な言語における体系的な評価の必要性を浮き彫りにしている。
本稿では,ポルトガル語におけるLLMの最も広範な評価について述べる。
ポルトガルで40以上のタスクからなる包括的なスイートである、新たに導入されたPoETa v2ベンチマークを活用して、幅広いトレーニングスケールと計算リソースをカバーする20以上のモデルを評価します。
本研究は、ポルトガル語における計算投資と言語固有の適応が、英語の同等のタスクと比較して、パフォーマンスのギャップを解析しながら、ポルトガル語のパフォーマンスにどのように影響するかを明らかにする。
このベンチマークと分析を通じて、PoETa v2はポルトガル語のモデリングと評価に関する将来の研究の基礎を成している。
ベンチマークはhttps://github.com/PoETaV2/PoETaV2で公開されている。
関連論文リスト
- Analysis of Indic Language Capabilities in LLMs [0.3599866690398789]
本報告では,テキスト入力による大規模言語モデル(LLM)の性能評価を行い,Indic言語を理解・生成する。
ヒンディー語はモデルの中で最も広く表現されている言語である。
モデルパフォーマンスは、上位5言語の話者数と大まかに相関するが、その後の評価は様々である。
論文 参考訳(メタデータ) (2025-01-23T18:49:33Z) - P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P -M
P-MMEvalは、さまざまなデータセットにわたって一貫した言語カバレッジを提供し、並列サンプルを提供する。
我々は、モデルとタスク間の性能を比較するために、代表的多言語モデル系列に関する広範な実験を行う。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - From Brazilian Portuguese to European Portuguese [2.048226951354646]
ブラジル・ポルトガル語とヨーロッパ・ポルトガル語は同じ言語の2つの変種である。
2つの変種間での資源の入手にはかなりの不均衡がある。
この不平等は、ヨーロッパのポルトガル語話者が利用できる翻訳サービスの質に影響を与える可能性がある。
論文 参考訳(メタデータ) (2024-08-14T10:58:48Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - Gl\'orIA - A Generative and Open Large Language Model for Portuguese [4.782288068552145]
ポルトガルの堅牢なデコーダLLMであるGl'orIAを紹介する。
Gl'orIAを事前訓練するために,様々なソースから35億個のトークンからなる包括的PT-PTテキストコーパスを組み立てた。
Gl'orIAは、言語モデリングにおいて、既存のオープンPTデコーダモデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2024-02-20T12:36:40Z) - LLaMA Beyond English: An Empirical Study on Language Capability Transfer [49.298360366468934]
我々は、言語生成の能力と指示を英語以外の言語に効果的に伝達する方法に焦点をあてる。
本稿では,語彙拡張や事前学習,トランスファーに対する指導指導などの重要な要因が与える影響について分析する。
C-Eval、MMLU、AGI-Eval、GAokao-Benchの4つの広く使われている標準テストベンチマークを採用しています。
論文 参考訳(メタデータ) (2024-01-02T06:29:02Z) - MEGAVERSE: Benchmarking Large Language Models Across Languages, Modalities, Models and Tasks [12.665447518524187]
本研究の目的は、同一の多言語データセットで比較することで、SoTA LLMの非英語能力の徹底的な評価を行うことである。
私たちのベンチマークは、低リソースのアフリカ言語を含む83の言語をカバーする22のデータセットで構成されています。
また、データ汚染に関する研究を行い、複数のモデルが多言語評価ベンチマークで汚染される可能性が示唆された。
論文 参考訳(メタデータ) (2023-11-13T16:45:37Z) - XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating
Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。
我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文 参考訳(メタデータ) (2020-03-24T19:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。