論文の概要: FilBench: Can LLMs Understand and Generate Filipino?
- arxiv url: http://arxiv.org/abs/2508.03523v1
- Date: Tue, 05 Aug 2025 14:48:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:56.027312
- Title: FilBench: Can LLMs Understand and Generate Filipino?
- Title(参考訳): FilBench: LLMはフィリピンの理解と生成が可能なのか?
- Authors: Lester James V. Miranda, Elyanah Aco, Conner Manuel, Jan Christian Blaise Cruz, Joseph Marvin Imperial,
- Abstract要約: FilBenchはフィリピン中心のベンチマークであり、フィリピン、タガログ、セブアーノにおける様々なタスクと能力のセットでLCMを評価するように設計されている。
FilBench 上で27の最先端 LLM を評価することで,複数の LLM が読解能力や翻訳能力に悩まされていることがわかった。
我々の研究は、フィリピンのNLPの進歩を促進するために、言語固有のベンチマークをキュレートすることの価値を実証している。
- 参考スコア(独自算出の注目度): 2.029906424353094
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the impressive performance of LLMs on English-based tasks, little is known about their capabilities in specific languages such as Filipino. In this work, we address this gap by introducing FilBench, a Filipino-centric benchmark designed to evaluate LLMs across a diverse set of tasks and capabilities in Filipino, Tagalog, and Cebuano. We carefully curate the tasks in FilBench to reflect the priorities and trends of NLP research in the Philippines such as Cultural Knowledge, Classical NLP, Reading Comprehension, and Generation. By evaluating 27 state-of-the-art LLMs on FilBench, we find that several LLMs suffer from reading comprehension and translation capabilities. Our results indicate that FilBench is challenging, with the best model, GPT-4o, achieving only a score of 72.23%. Moreover, we also find that models trained specifically for Southeast Asian languages tend to underperform on FilBench, with the highest-performing model, SEA-LION v3 70B, achieving only a score of 61.07%. Our work demonstrates the value of curating language-specific LLM benchmarks to aid in driving progress on Filipino NLP and increasing the inclusion of Philippine languages in LLM development.
- Abstract(参考訳): LLMの英語ベースのタスクにおける印象的なパフォーマンスにもかかわらず、フィリピンのような特定の言語での能力についてはほとんど知られていない。
FilBenchは、フィリピン、タガログ、セブアーノにおける様々なタスクと能力の多岐にわたるLSMを評価するために設計された、フィリピン中心のベンチマークである。
我々は,フィリピンにおけるNLP研究の優先順位と動向を反映したFilBenchの課題を,文化知識,古典的NLP,読解理解,生成など,慎重に整理する。
FilBench 上で27の最先端 LLM を評価することで,複数の LLM が読解能力や翻訳能力に悩まされていることがわかった。
以上の結果から,FilBenchの最適モデルであるGPT-4oは72.23%のスコアしか得られていないことが示唆された。
さらに、東南アジアの言語に特化して訓練されたモデルは、最高性能のSEA-LION v3 70Bで、FilBenchではパフォーマンスが劣る傾向にあり、スコアは61.07%に過ぎなかった。
我々の研究は、フィリピンのNLPの進歩とLLM開発へのフィリピン語の導入を促進するために、言語固有のLLMベンチマークをキュレートすることの価値を実証している。
関連論文リスト
- FiLLM -- A Filipino-optimized Large Language Model based on Southeast Asia Large Language Model (SEALLM) [0.873811641236639]
本研究では,フィリピン語を最適化した大規模言語モデルFiLLMを提案する。
SeaLLM-7B 2.5モデルに基づいて構築されたFiLLMは、タスク固有の性能を維持しながらメモリ効率を最適化するためにローランド適応(LoRA)ファインチューニングを利用する。
このモデルは、NER(Named Entity Recognition)、POS(Part-of-Speech)タグ付け(Part-of-Speech)、依存性解析(Dependency Parsing)、テキスト要約(Text Summarization)など、主要なNLPタスクに対応するために、さまざまなフィリピンのデータセットでトレーニングされ評価された。
論文 参考訳(メタデータ) (2025-05-25T06:36:26Z) - PolyMath: Evaluating Mathematical Reasoning in Multilingual Contexts [79.84059473102778]
PolyMathは18の言語と4つの難易度をカバーする多言語数学的推論ベンチマークである。
我々のベンチマークは、包括性、言語多様性、高品質な翻訳の難しさを保証する。
論文 参考訳(メタデータ) (2025-04-25T15:39:04Z) - MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation [86.7047714187813]
MMLU-ProXは29の言語をカバーするベンチマークであり、英語のベンチマーク上に構築されている。
それぞれの言語バージョンは11,829の同一の質問で構成されており、直接言語間比較を可能にする。
効率的な評価ニーズを満たすため,言語毎の質問数は658件である。
論文 参考訳(メタデータ) (2025-03-13T15:59:20Z) - Batayan: A Filipino NLP benchmark for evaluating Large Language Models [0.0]
バタヤンは8つのタスクを統合し、そのうち3つはフィリピンのコーパスの前には存在していなかった。
フィリピンの複雑な形態的・構文的構造に対して,我々の厳密でネイティブな話者主導の適応と検証プロセスは,流布と信頼性を保証する。
表現不足言語に文化的・言語的に忠実な資源を構築するための原則的ソリューションを提案する。
論文 参考訳(メタデータ) (2025-02-19T07:03:15Z) - Kalahi: A handcrafted, grassroots cultural LLM evaluation suite for Filipino [8.305146753192858]
フィリピン生まれの話者が共同で作成した,文化的LLM評価スイートであるKalahiを紹介する。
カラヒにおける強力なLLMパフォーマンスは、ある状況下で平均的なフィリピン人が言うのと同じような反応をモデルが生成する能力を示している。
論文 参考訳(メタデータ) (2024-09-20T15:01:21Z) - Language Ranker: A Metric for Quantifying LLM Performance Across High and Low-Resource Languages [48.40607157158246]
大規模言語モデル(LLM)は、英語、ドイツ語、フランス語のような高リソース言語で、低リソース言語の能力は依然として不十分である。
内部表現を用いたLLM性能に基づいて,言語をベンチマークし,ランク付けするための固有測度であるLanguage Rankerを提案する。
分析の結果,高リソース言語は英語との類似度が高く,性能が優れ,低リソース言語は類似度が低いことがわかった。
論文 参考訳(メタデータ) (2024-04-17T16:53:16Z) - D\'olares or Dollars? Unraveling the Bilingual Prowess of Financial LLMs
Between Spanish and English [67.48541936784501]
Tois'on de Oro は、英語とのスペイン語共同で、命令データセット、微調整 LLM 、および金融 LLM の評価ベンチマークを確立する最初のフレームワークである。
7つのタスクをカバーする15のデータセットから144万以上のスペイン語と英語のサンプルを含む、厳格にキュレートされたバイリンガル命令データセットを構築した。
FLARE-ESは9つのタスクをカバーする21のデータセットを持つ最初の総合的バイリンガル評価ベンチマークである。
論文 参考訳(メタデータ) (2024-02-12T04:50:31Z) - Large Language Models: A Survey [66.39828929831017]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - BenLLMEval: A Comprehensive Evaluation into the Potentials and Pitfalls of Large Language Models on Bengali NLP [17.362068473064717]
大規模言語モデル(LLM)は、NLPにおいて最も重要なブレークスルーの1つである。
本稿では,ベンガル語での性能をベンチマークするために,LLMを総合的に評価するBenLLM-Evalを紹介する。
実験の結果、ベンガルのNLPタスクではゼロショットLLMは、現在のSOTA微調整モデルよりも性能が向上することが示された。
論文 参考訳(メタデータ) (2023-09-22T20:29:34Z) - CMMLU: Measuring massive multitask language understanding in Chinese [133.70911295934746]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。
CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文 参考訳(メタデータ) (2023-06-15T15:49:51Z) - Don't Trust ChatGPT when Your Question is not in English: A Study of
Multilingual Abilities and Types of LLMs [16.770697902481107]
大規模言語モデル(LLM)は、例外的な自然言語理解能力を示している。
本論文では,多言語環境下でのLLMの性能格差を体系的に評価する方法を提案する。
その結果,GPTは多言語設定において高い翻訳的振る舞いを示すことがわかった。
論文 参考訳(メタデータ) (2023-05-24T02:05:03Z) - Multilingual Machine Translation with Large Language Models: Empirical Results and Analysis [103.89753784762445]
大規模言語モデル(LLM)は多言語機械翻訳(MMT)の処理において顕著な可能性を示した。
本稿では, MMT における LLM の利点と課題を体系的に検討する。
また,ChatGPTとGPT-4を含む8つのLLMを徹底的に評価した。
論文 参考訳(メタデータ) (2023-04-10T15:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。