Fugu-MT 論文翻訳(概要): CLARIN-PT-LDB: An Open LLM Leaderboard for Portuguese to assess Language, Culture and Civility

論文の概要: CLARIN-PT-LDB: An Open LLM Leaderboard for Portuguese to assess Language, Culture and Civility

arxiv url: http://arxiv.org/abs/2603.12872v1
Date: Fri, 13 Mar 2026 10:18:27 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-16 17:38:12.047209
Title: CLARIN-PT-LDB: An Open LLM Leaderboard for Portuguese to assess Language, Culture and Civility
Title（参考訳）: CLARIN-PT-LDB: ポルトガル語による言語・文化・市民評価のためのオープンLLMリーダーボード
Authors: João Silva, Luís Gomes, António Branco,
Abstract要約: 本稿では,ヨーロッパポルトガル語(PT-PT)のためのオープン言語モデル(LLM)のリーダーボードの開発について報告する。このリーダーボードは、ヨーロッパポルトガル語に対するLLMの評価のギャップを解消する手段として提供され、これまでのところこの言語の変種に特化したリーダーボードは存在しなかった。
参考スコア（独自算出の注目度）: 2.5205815072896134
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper reports on the development of a leaderboard of Open Large Language Models (LLM) for European Portuguese (PT-PT), and on its associated benchmarks. This leaderboard comes as a way to address a gap in the evaluation of LLM for European Portuguese, which so far had no leaderboard dedicated to this variant of the language. The paper also reports on novel benchmarks, including some that address aspects of performance that so far have not been available in benchmarks for European Portuguese, namely model safeguards and alignment to Portuguese culture. The leaderboard is available at https://huggingface.co/spaces/PORTULAN/portuguese-llm-leaderboard.
Abstract（参考訳）: 本稿では,ヨーロッパポルトガル語 (PT-PT) のためのオープン言語モデル (LLM) のリーダーボードの開発とそのベンチマークについて報告する。このリーダーボードは、ヨーロッパポルトガル語に対するLLMの評価のギャップを解消する手段として提供され、これまでのところ、この言語の変種に特化したリーダーボードは存在しなかった。また、欧州ポルトガル語のベンチマークでは利用できないパフォーマンスの側面、すなわち、モデルの保護とポルトガル文化との整合性に対処する新しいベンチマークについても報告している。リーダーボードはhttps://huggingface.co/spaces/portULAN/portuguese-llm- Leaderboardで入手できる。

関連論文リスト

La Leaderboard: A Large Language Model Leaderboard for Spanish Varieties and Languages of Spain and Latin America [33.48097838499165]
生成型大規模言語モデルを評価するための,初のオープンソースリーダボードであるLa Leaderboardを紹介します。この初期バージョンはバスク語、カタルーニャ語、ガリシア語、および様々なスペイン語の66のデータセットを組み合わせている。ダウンストリームタスク毎に最適な評価設定を選択するためのガイダンスを含め、我々の方法論を説明します。
論文参考訳（メタデータ） (2025-07-01T17:50:48Z)
Enhancing Portuguese Variety Identification with Cross-Domain Approaches [2.31011809034817]
ヨーロッパとブラジルのポルトガル語を識別するクロスドメイン言語バラエティ識別子(LVI)を開発した。この研究はポルトガルの2つの品種に焦点を当てているが、我々の貢献は他の品種や言語にも拡張できる。
論文参考訳（メタデータ） (2025-02-20T09:31:48Z)
EuroLLM: Multilingual Language Models for Europe [76.89545643715368]
オープンウェイトな多言語LLMの開発を目的としたEuroLLMプロジェクトを紹介した。これまでの進捗状況を概説し、データ収集とフィルタリングプロセスについて詳述する。マルチリンガル・ジェネラル・ベンチマークと機械翻訳の性能について報告する。
論文参考訳（メタデータ） (2024-09-24T16:51:36Z)
From Brazilian Portuguese to European Portuguese [2.048226951354646]
ブラジル・ポルトガル語とヨーロッパ・ポルトガル語は同じ言語の2つの変種である。 2つの変種間での資源の入手にはかなりの不均衡がある。この不平等は、ヨーロッパのポルトガル語話者が利用できる翻訳サービスの質に影響を与える可能性がある。
論文参考訳（メタデータ） (2024-08-14T10:58:48Z)
Language Ranker: A Metric for Quantifying LLM Performance Across High and Low-Resource Languages [48.40607157158246]
大規模言語モデル(LLM)は、英語、ドイツ語、フランス語のような高リソース言語で、低リソース言語の能力は依然として不十分である。内部表現を用いたLLM性能に基づいて,言語をベンチマークし,ランク付けするための固有測度であるLanguage Rankerを提案する。分析の結果,高リソース言語は英語との類似度が高く,性能が優れ,低リソース言語は類似度が低いことがわかった。
論文参考訳（メタデータ） (2024-04-17T16:53:16Z)
Introducing Bode: A Fine-Tuned Large Language Model for Portuguese Prompt-Based Task [1.158680734110387]
この研究は、ポルトガルのプロンプト「ボーデ」のための微調整されたLLaMA 2ベースのモデルを提案する。 In-context Learningを用いたゼロショット手法を用いて分類タスクにおけるこのモデルの性能を評価する。
論文参考訳（メタデータ） (2024-01-05T17:15:01Z)
Extrapolating Large Language Models to Non-English by Aligning Languages [109.09051737966178]
既存の大きな言語モデルは、異なる言語間で異なる能力を示す。本稿では,言語間のセマンティックアライメントを構築することで,英語以外の言語に事前学習したLLMを強化する。
論文参考訳（メタデータ） (2023-08-09T13:32:06Z)
BLUEX: A benchmark based on Brazilian Leading Universities Entrance eXams [4.9069311006119865]
ブラジルの2大大学(UNI CAMPとUSP)の入学試験のデータセットであるBLUEXを紹介する。データセットには、さまざまな主題におけるNLPモデルの性能を評価するための注釈付きメタデータが含まれている。我々は、最先端のLMを用いた実験を通じて、ポルトガル語の自然言語理解と推論の最先端化の可能性を実証するベンチマークを構築した。
論文参考訳（メタデータ） (2023-07-11T16:25:09Z)
CUGE: A Chinese Language Understanding and Generation Evaluation Benchmark [144.05723617401674]
汎用言語インテリジェンス評価は、自然言語処理の長年の目標である。汎用言語インテリジェンス評価には,ベンチマーク自体が包括的で体系的なものである必要がある,と我々は主張する。以下に示す機能を備えた中国語理解・生成評価ベンチマークであるCUGEを提案する。
論文参考訳（メタデータ） (2021-12-27T11:08:58Z)
Unsupervised Transfer Learning in Multilingual Neural Machine Translation with Cross-Lingual Word Embeddings [72.69253034282035]
我々は、言語独立多言語文表現を活用し、新しい言語に容易に一般化する。複数のロマンス言語を含むベースシステムを用いてポルトガル語から盲目的に復号し、ポルトガル語では36.4 BLEU、ロシア語では12.8 BLEUのスコアを得た。非反復的逆翻訳によるより実用的な適応アプローチを探求し、高品質の翻訳を生産するモデルの能力を活用します。
論文参考訳（メタデータ） (2021-03-11T14:22:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。