論文の概要: FIN-bench-v2: A Unified and Robust Benchmark Suite for Evaluating Finnish Large Language Models
- arxiv url: http://arxiv.org/abs/2512.13330v1
- Date: Mon, 15 Dec 2025 13:41:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.680595
- Title: FIN-bench-v2: A Unified and Robust Benchmark Suite for Evaluating Finnish Large Language Models
- Title(参考訳): FIN-bench-v2:フィンランドの大規模言語モデル評価のための統一的でロバストなベンチマークスイート
- Authors: Joona Kytöniemi, Jousia Piha, Akseli Reunamo, Fedor Vitiugin, Farrokh Mehryary, Sampo Pyysalo,
- Abstract要約: FIN-bench-v2はフィンランドの大規模言語モデルを評価するための統一ベンチマークスイートである。
広く使われているベンチマークのフィンランド版と、オリジナルのFINベンチの更新および拡張版を統合した。
- 参考スコア(独自算出の注目度): 2.7752454749431306
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce FIN-bench-v2, a unified benchmark suite for evaluating large language models in Finnish. FIN-bench-v2 consolidates Finnish versions of widely used benchmarks together with an updated and expanded version of the original FIN-bench into a single, consistently formatted collection, covering multiple-choice and generative tasks across reading comprehension, commonsense reasoning, sentiment analysis, world knowledge, and alignment. All datasets are converted to HuggingFace Datasets, which include both cloze and multiple-choice prompt formulations with five variants per task, and we incorporate human annotation or review for machine-translated resources such as GoldenSwag and XED. To select robust tasks, we pretrain a set of 2.15B-parameter decoder-only models and use their learning curves to compute monotonicity, signal-to-noise, non-random performance, and model ordering consistency, retaining only tasks that satisfy all criteria. We further evaluate a set of larger instruction-tuned models to characterize performance across tasks and prompt formulations. All datasets, prompts, and evaluation configurations are publicly available via our fork of the Language Model Evaluation Harness at https://github.com/LumiOpen/lm-evaluation-harness. Supplementary resources are released in a separate repository at https://github.com/TurkuNLP/FIN-bench-v2.
- Abstract(参考訳): FIN-bench-v2はフィンランドの大規模言語モデルを評価するための統一ベンチマークスイートである。
FIN-bench-v2は、フィンランドの広く使われているベンチマークと、オリジナルのFIN-benchの更新および拡張されたバージョンを、一貫したフォーマットのコレクションに統合する。
すべてのデータセットはHuggingFace Datasetsに変換される。このデータセットには、クローゼと複数選択のプロンプトの定式化が含まれており、タスク毎に5つのバリエーションがあり、人間のアノテーションやGoldenSwagやXEDといった機械翻訳リソースのレビューが組み込まれています。
頑健なタスクを選択するために、2.15Bパラメータデコーダのみのモデルのセットを事前訓練し、学習曲線を用いて単調性、信号対雑音、非ランダム性能、モデルの順序整合性を計算し、全ての基準を満たすタスクのみを保持する。
さらに,タスク間の性能を特徴付けるために,より大規模な命令調整モデルについて評価し,より迅速な定式化を行う。
すべてのデータセット、プロンプト、評価設定は、https://github.com/LumiOpen/lm-evaluation-harnessのLanguage Model Evaluation Harnessのフォークを通じて公開されています。
追加リソースはhttps://github.com/TurkuNLP/FIN-bench-v2.comの別リポジトリでリリースされている。
関連論文リスト
- skLEP: A Slovak General Language Understanding Benchmark [0.030113849517062304]
skLEPはスロバキアの自然言語理解(NLU)モデルを評価するために特別に設計された最初の包括的なベンチマークである。
このベンチマークを作成するために、スロバキア向けに調整された新しいオリジナルデータセットをキュレートし、精密に英語のNLUリソースを翻訳した。
本稿では,スロバキア固有の言語モデル,多言語言語モデル,および英語事前学習言語モデルの体系的および広範囲な評価を行う。
論文 参考訳(メタデータ) (2025-06-26T17:35:04Z) - P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P -M
P-MMEvalは、さまざまなデータセットにわたって一貫した言語カバレッジを提供し、並列サンプルを提供する。
我々は、モデルとタスク間の性能を比較するために、代表的多言語モデル系列に関する広範な実験を行う。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of Open Information Extraction [49.15931834209624]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - An Open Dataset and Model for Language Identification [84.15194457400253]
マクロ平均F1スコア0.93、偽陽性率0.033を201言語で達成するLIDモデルを提案する。
モデルとデータセットの両方を研究コミュニティに公開しています。
論文 参考訳(メタデータ) (2023-05-23T08:43:42Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - Predicting the Performance of Multilingual NLP Models [16.250791929966685]
本稿では,特定のタスクがテストセットを持つ言語上で,既存のモデルの性能スコアを利用する言語間でのモデル評価のための代替ソリューションを提案する。
我々はこれらの性能スコアの予測器を訓練し、この予測器を用いて異なる評価設定でモデルの性能を予測する。
提案手法は,既存の言語群に対する評価のギャップを埋めるのに有効であるが,未知の言語に一般化したい場合,さらなる改善が必要である可能性が示唆された。
論文 参考訳(メタデータ) (2021-10-17T17:36:53Z) - X-FACT: A New Benchmark Dataset for Multilingual Fact Checking [21.2633064526968]
本稿では,X-FACTについて紹介する。X-FACTは,自然に存在する実世界のクレームの事実検証のための,多言語データセットとして最大である。
データセットには25の言語で短いステートメントが含まれており、専門家のファクトチェッカーによって正確性を示すラベルが付けられている。
論文 参考訳(メタデータ) (2021-06-17T05:09:54Z) - TextFlint: Unified Multilingual Robustness Evaluation Toolkit for
Natural Language Processing [73.16475763422446]
NLPタスク(TextFlint)のための多言語ロバスト性評価プラットフォームを提案する。
普遍的なテキスト変換、タスク固有の変換、敵攻撃、サブポピュレーション、およびそれらの組み合わせを取り入れ、包括的な堅牢性分析を提供する。
TextFlintは、モデルの堅牢性の欠点に対処するために、完全な分析レポートとターゲットとした拡張データを生成します。
論文 参考訳(メタデータ) (2021-03-21T17:20:38Z) - KLEJ: Comprehensive Benchmark for Polish Language Understanding [4.702729080310267]
ポーランド語理解のための総合的なマルチタスクベンチマークを導入する。
また、ポーランド語に特化して訓練されたトランスフォーマーベースのモデルであるHerBERTもリリースしました。
論文 参考訳(メタデータ) (2020-05-01T21:55:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。