論文の概要: CAPITU: A Benchmark for Evaluating Instruction-Following in Brazilian Portuguese with Literary Context
- arxiv url: http://arxiv.org/abs/2603.22576v1
- Date: Mon, 23 Mar 2026 21:16:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.191011
- Title: CAPITU: A Benchmark for Evaluating Instruction-Following in Brazilian Portuguese with Literary Context
- Title(参考訳): CAPITU: 文学的文脈によるブラジルポルトガル語のインストラクションフォロー評価ベンチマーク
- Authors: Giovana Kerche Bonás, Roseval Malaquias Junior, Marcos Piau, Thiago Laitz, Thales Sales Almeida, Hugo Abonizio, Celio Larcher, Ramon Pires, Rodrigo Nogueira,
- Abstract要約: CAPITUは、ブラジルポルトガル語でLLM(Large Language Models)の命令追従能力を評価するためのベンチマークである。
ベンチマークは59の命令タイプを7つのカテゴリに分類し、すべて自動的に検証できるように設計されている。
シングルターンおよびマルチターン設定における18の最先端モデルを評価する。
- 参考スコア(独自算出の注目度): 8.678622777553267
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce CAPITU, a benchmark for evaluating instruction-following capabilities of Large Language Models (LLMs) in Brazilian Portuguese. Unlike existing benchmarks that focus on English or use generic prompts, CAPITU contextualizes all tasks within eight canonical works of Brazilian literature, combining verifiable instruction constraints with culturally-grounded content. The benchmark comprises 59 instruction types organized into seven categories, all designed to be automatically verifiable without requiring LLM judges or human evaluation. Instruction types include Portuguese-specific linguistic constraints (word termination patterns like -ando/-endo/-indo, -inho/-inha, -mente) and structural requirements. We evaluate 18 state-of-the-art models across single-turn and multi-turn settings. Our results show that frontier reasoning models achieve strong performance (GPT-5.2 with reasoning: 98.5% strict accuracy), while Portuguese-specialized models offer competitive cost-efficiency (Sabiazinho-4: 87.0% at \$0.13 vs Claude-Haiku-4.5: 73.5% at \$1.12). Multi-turn evaluation reveals significant variation in constraint persistence, with conversation-level accuracy ranging from 60% to 96% across models. We identify specific challenges in morphological constraints, exact counting, and constraint persistence degradation across turns. We release the complete benchmark, evaluation code, and baseline results to facilitate research on instruction-following in Portuguese.
- Abstract(参考訳): ブラジルポルトガル語におけるLarge Language Models(LLM)の命令追従能力を評価するためのベンチマークであるCAPITUを紹介する。
英語やジェネリックプロンプトにフォーカスする既存のベンチマークとは異なり、CAPITUはブラジル文学の8つの標準作品の全てのタスクを文脈的に分類し、検証可能な命令制約と文化的な内容を組み合わせる。
このベンチマークは59の命令タイプを7つのカテゴリに分類し、全てLLMの審査員や人間による評価を必要とせずに自動的に検証できるように設計されている。
命令型には、ポルトガル語固有の言語制約(-ando/-endo/-indo、-inho/-inha、-menteのような単語終端パターン)と構造的要件が含まれる。
シングルターンおよびマルチターン設定における18の最先端モデルを評価する。
その結果,フロンティア推論モデルは高い性能(GPT-5.2は厳密な精度:98.5%)を達成し,ポルトガル特化モデルは競争コスト効率(サビアジンホ-4:87.0%=0.13対クロード・ハイク4.5:73.5%=1.12)を実現した。
マルチターン評価は、モデル全体で60%から96%の会話レベルの精度で、制約持続性の著しい変化を示す。
我々は, 形態的制約, 正確な計数, ターン間の制約持続性劣化など, 具体的な課題を特定する。
ポルトガル語の指示追従の研究を容易にするため、完全なベンチマーク、評価コード、ベースライン結果をリリースする。
関連論文リスト
- Evaluating Large Language Models on the 2026 Korean CSAT Mathematics Exam: Measuring Mathematical Ability in a Zero-Data-Leakage Setting [5.313647446600863]
本研究は,2026年の韓国・カレッジ・スコラスティック能力テスト(CSAT)を用いた大規模言語モデル(LLM)の数学的推論能力について,体系的に評価した。
既存のベンチマークにおけるデータ漏洩問題に対処するため、試験公開から2時間以内に46の質問(22件、24件)をすべてデジタル化した。
論文 参考訳(メタデータ) (2025-11-23T23:09:33Z) - Evaluating Modern Large Language Models on Low-Resource and Morphologically Rich Languages:A Cross-Lingual Benchmark Across Cantonese, Japanese, and Turkish [12.286855282078305]
GPT-4o, GPT-4, Claude3.5Sonnet, LLaMA3.1, MistralLarge2, LLaMA-2Chat13B, Mistral7B Instructを評価した。
我々のベンチマークは、オープンドメイン質問応答、文書要約、英語からXへの翻訳、文化的根拠のある対話の4つのタスクにまたがっている。
論文 参考訳(メタデータ) (2025-11-05T22:09:53Z) - The Digital Sous Chef -- A Comparative Study on Fine-Tuning Language Models for Recipe Generation [2.497854684676663]
本稿では,GPT-2大モデル(774M)とGPT-2小モデル(124M)と,RecipeDB 5-cuisineコーパス上の従来のLSTM/RNNベースラインとを比較検討した。
キーとなるコントリビューションは、23個の共通分数トークンとカスタム構造マーカーで語彙を拡大するトークン化戦略です。
論文 参考訳(メタデータ) (2025-08-20T13:53:13Z) - KoBALT: Korean Benchmark For Advanced Linguistic Tasks [0.6971903955510721]
KoBALT (Korean Benchmark for Advanced Linguistic Tasks) は700の質問からなる言語的に動機付けられたベンチマークである。
韓国語における大規模言語モデル(LLM)の評価を推し進めるために設計された。
韓国の標準コーパスとn-gramの重複が最小限に抑えられた専門家による言語的動機付けの質問スイートを導入している。
論文 参考訳(メタデータ) (2025-05-22T02:03:07Z) - A Multi-Dimensional Constraint Framework for Evaluating and Improving Instruction Following in Large Language Models [48.361839372110246]
本研究では,制約拡張,競合検出,命令書き換えを行う自動命令生成パイプラインを開発する。
我々は、19の大規模言語モデルを評価し、制約形式間の性能のかなりの変動を明らかにする。
詳細な分析では、これらの利得は主にモデルのアテンションモジュールパラメータの変更に起因していることを示している。
論文 参考訳(メタデータ) (2025-05-12T14:16:55Z) - MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation [86.7047714187813]
MMLU-ProXは29の言語をカバーするベンチマークであり、英語のベンチマーク上に構築されている。
それぞれの言語バージョンは11,829の同一の質問で構成されており、直接言語間比較を可能にする。
効率的な評価ニーズを満たすため,言語毎の質問数は658件である。
論文 参考訳(メタデータ) (2025-03-13T15:59:20Z) - XIFBench: Evaluating Large Language Models on Multilingual Instruction Following [59.549015333755186]
大規模言語モデル(LLM)は、様々なアプリケーションにまたがる優れた命令追従機能を示している。
既存の評価には、様々な言語的文脈におけるきめ細かい制約分析が欠如している。
我々は,LLMの多言語命令追従能力を評価するための総合ベンチマークであるXIFBenchを紹介する。
論文 参考訳(メタデータ) (2025-03-10T17:07:52Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Few-shot Learning with Multilingual Language Models [66.49496434282564]
多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。
私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。
本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
論文 参考訳(メタデータ) (2021-12-20T16:52:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。