論文の概要: Challenging the Abilities of Large Language Models in Italian: a Community Initiative
- arxiv url: http://arxiv.org/abs/2512.04759v1
- Date: Thu, 04 Dec 2025 12:50:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.169626
- Title: Challenging the Abilities of Large Language Models in Italian: a Community Initiative
- Title(参考訳): イタリア語における大規模言語モデルの能力の維持:コミュニティイニシアチブ
- Authors: Malvina Nissim, Danilo Croce, Viviana Patti, Pierpaolo Basile, Giuseppe Attanasio, Elio Musacchio, Matteo Rinaldi, Federico Borazio, Maria Francis, Jacopo Gili, Daniel Scalena, Begoña Altuna, Ekhi Azurmendi, Valerio Basile, Luisa Bentivogli, Arianna Bisazza, Marianna Bolognesi, Dominique Brunato, Tommaso Caselli, Silvia Casola, Maria Cassese, Mauro Cettolo, Claudia Collacciani, Leonardo De Cosmo, Maria Pia Di Buono, Andrea Esuli, Julen Etxaniz, Chiara Ferrando, Alessia Fidelangeli, Simona Frenda, Achille Fusco, Marco Gaido, Andrea Galassi, Federico Galli, Luca Giordano, Mattia Goffetti, Itziar Gonzalez-Dios, Lorenzo Gregori, Giulia Grundler, Sandro Iannaccone, Chunyang Jiang, Moreno La Quatra, Francesca Lagioia, Soda Marem Lo, Marco Madeddu, Bernardo Magnini, Raffaele Manna, Fabio Mercorio, Paola Merlo, Arianna Muti, Vivi Nastase, Matteo Negri, Dario Onorati, Elena Palmieri, Sara Papi, Lucia Passaro, Giulia Pensa, Andrea Piergentili, Daniele Potertì, Giovanni Puccetti, Federico Ranaldi, Leonardo Ranaldi, Andrea Amelio Ravelli, Martina Rosola, Elena Sofia Ruzzetti, Giuseppe Samo, Andrea Santilli, Piera Santin, Gabriele Sarti, Giovanni Sartor, Beatrice Savoldi, Antonio Serino, Andrea Seveso, Lucia Siciliani, Paolo Torroni, Rossella Varvara, Andrea Zaninello, Asya Zanollo, Fabio Massimo Zanzotto, Kamyar Zeinalipour, Andrea Zugarini,
- Abstract要約: The Abilities of LAnguage Models in ITAlian (CALAMITA)は、イタリアにおける大規模共同ベンチマークイニシアチブである。
学術、産業、公共部門から80人以上のコントリビュータを集め、多様なタスクの設計、文書化、評価を行っている。
我々は,4つのオープンウェイトLDMの結果を報告し,能力の体系的強度と弱点を強調した。
- 参考スコア(独自算出の注目度): 63.94242079171895
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid progress of Large Language Models (LLMs) has transformed natural language processing and broadened its impact across research and society. Yet, systematic evaluation of these models, especially for languages beyond English, remains limited. "Challenging the Abilities of LAnguage Models in ITAlian" (CALAMITA) is a large-scale collaborative benchmarking initiative for Italian, coordinated under the Italian Association for Computational Linguistics. Unlike existing efforts that focus on leaderboards, CALAMITA foregrounds methodology: it federates more than 80 contributors from academia, industry, and the public sector to design, document, and evaluate a diverse collection of tasks, covering linguistic competence, commonsense reasoning, factual consistency, fairness, summarization, translation, and code generation. Through this process, we not only assembled a benchmark of over 20 tasks and almost 100 subtasks, but also established a centralized evaluation pipeline that supports heterogeneous datasets and metrics. We report results for four open-weight LLMs, highlighting systematic strengths and weaknesses across abilities, as well as challenges in task-specific evaluation. Beyond quantitative results, CALAMITA exposes methodological lessons: the necessity of fine-grained, task-representative metrics, the importance of harmonized pipelines, and the benefits and limitations of broad community engagement. CALAMITA is conceived as a rolling benchmark, enabling continuous integration of new tasks and models. This makes it both a resource -- the most comprehensive and diverse benchmark for Italian to date -- and a framework for sustainable, community-driven evaluation. We argue that this combination offers a blueprint for other languages and communities seeking inclusive and rigorous LLM evaluation practices.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩は、自然言語処理を変革し、研究や社会全体にその影響を広げている。
しかし、これらのモデルの体系的な評価、特に英語以外の言語についてはまだ限られている。
The Abilities of LAnguage Models in ITAlian (CALAMITA) は、イタリアの計算言語学会(英語版)の下で調整された、イタリアの大規模共同ベンチマークイニシアチブである。
CALAMITAは、リーダーボードにフォーカスする既存の取り組みとは違って、学術、産業、公共部門から80人以上のコントリビュータを集め、言語能力、常識推論、事実整合性、公正性、要約、翻訳、コード生成など、さまざまなタスクのコレクションを設計、文書化、評価する。
このプロセスを通じて、20以上のタスクと100近いサブタスクのベンチマークを組み立てるだけでなく、異種データセットとメトリクスをサポートする集中的な評価パイプラインを構築しました。
我々は,4つのオープンウェイトLCMの結果を報告するとともに,能力の体系的長所と短所,タスク固有の評価の課題について報告する。
定量的な結果に加えて、CALAMITAは、細粒度でタスクを表現可能なメトリクスの必要性、調和されたパイプラインの重要性、幅広いコミュニティの関与のメリットと制限といった方法論的な教訓を公開している。
CALAMITAは、新しいタスクとモデルの継続的統合を可能にする、ローリングベンチマークとして考えられている。
これは、これまでイタリアでもっとも包括的で多様なベンチマークであるリソースと、持続可能なコミュニティ主導の評価のためのフレームワークである。
この組み合わせは、包括的で厳密なLLM評価プラクティスを求める他の言語やコミュニティの青写真を提供する、と我々は主張する。
関連論文リスト
- Beyond Monolingual Assumptions: A Survey of Code-Switched NLP in the Era of Large Language Models [1.175067374181304]
単一発話における言語とスクリプトの交替であるコードスイッチングは、多言語NLPの根本的な課題である。
ほとんどの大規模言語モデル(LLM)は、混合言語入力、限られたCSWデータセット、評価バイアスに悩まされている。
この調査は、CSWを意識したLSM研究の総合的な分析を初めて提供する。
論文 参考訳(メタデータ) (2025-10-08T14:04:14Z) - IberBench: LLM Evaluation on Iberian Languages [2.3034630097498883]
大規模言語モデル(LLM)は、特に英語以外の言語に対しては、包括的な評価が難しい。
IberBench は基本的な NLP タスクと産業関連 NLP タスクの両方において LLM 性能を評価するために設計されたベンチマークである。
1億から1400億のパラメータから23のLSMを評価し、その強度と限界に関する実証的な洞察を提供する。
論文 参考訳(メタデータ) (2025-04-23T17:48:25Z) - Evalita-LLM: Benchmarking Large Language Models on Italian [3.3334839725239798]
Evalita-LLM(エヴァリタ-LLM)は、イタリア語のタスクでLarge Language Models(LLM)を評価するために設計されたベンチマークである。
すべてのタスクはネイティブなイタリア語であり、イタリア語からの翻訳の問題や潜在的な文化的偏見を避ける。
ベンチマークには生成タスクが含まれており、LLMとのより自然なインタラクションを可能にする。
論文 参考訳(メタデータ) (2025-02-04T12:58:19Z) - All Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages [73.93600813999306]
ALM-benchは、100言語にわたるLMMを評価するための、これまでで最大かつ最も包括的な取り組みである。
様々な言語でテキストと組み合わせた文化的に多様なイメージを理解し、推論する能力をテストすることで、既存のモデルに挑戦する。
このベンチマークは、真/偽、複数選択、オープンな質問など、さまざまな質問フォーマットを備えた、堅牢でニュアンスの高い評価フレームワークを提供する。
論文 参考訳(メタデータ) (2024-11-25T15:44:42Z) - Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - DIALIGHT: Lightweight Multilingual Development and Evaluation of
Task-Oriented Dialogue Systems with Large Language Models [76.79929883963275]
DIALIGHTは多言語タスク指向対話(ToD)システムの開発と評価のためのツールキットである。
ローカル発話レベルとグローバル対話レベルの両方において、人間のきめ細かい評価のためのセキュアでユーザフレンドリーなWebインターフェースを備えている。
評価の結果, PLMの微調整により精度とコヒーレンスが向上する一方, LLMベースのシステムは多様で類似した応答を生成するのに優れていた。
論文 参考訳(メタデータ) (2024-01-04T11:27:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。