論文の概要: Linguini: A benchmark for language-agnostic linguistic reasoning
- arxiv url: http://arxiv.org/abs/2409.12126v1
- Date: Wed, 18 Sep 2024 16:51:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-19 16:35:11.523546
- Title: Linguini: A benchmark for language-agnostic linguistic reasoning
- Title(参考訳): Linguini:言語に依存しない言語推論のためのベンチマーク
- Authors: Eduardo Sánchez, Belen Alastruey, Christophe Ropers, Pontus Stenetorp, Mikel Artetxe, Marta R. Costa-jussà,
- Abstract要約: 本稿では,既存の言語固有の知識に頼らずに,言語モデルの言語推論スキルを測定するための新しいベンチマークを提案する。
このテストでは、75の(ほとんどが)極低リソース言語にわたる160の問題でグループ化された864の質問をカバーしている。
解析されたすべてのモデルが25%以下の精度でランク付けされているのに対して、オープンモデルとクローズドモデルの間には大きなギャップがある。
- 参考スコア(独自算出の注目度): 37.73108306825993
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We propose a new benchmark to measure a language model's linguistic reasoning skills without relying on pre-existing language-specific knowledge. The test covers 894 questions grouped in 160 problems across 75 (mostly) extremely low-resource languages, extracted from the International Linguistic Olympiad corpus. To attain high accuracy on this benchmark, models don't need previous knowledge of the tested language, as all the information needed to solve the linguistic puzzle is presented in the context. We find that, while all analyzed models rank below 25% accuracy, there is a significant gap between open and closed models, with the best-performing proprietary model at 24.05% and the best-performing open model at 8.84%.
- Abstract(参考訳): 本稿では,既存の言語固有の知識に頼らずに,言語モデルの言語推論スキルを測定するための新しいベンチマークを提案する。
このテストは、国際言語オリンピアドコーパスから抽出された75言語(ほとんどが)の超低リソース言語にまたがる160の問題でグループ化された864の質問をカバーしている。
このベンチマークで高い精度を達成するために、モデルはテストされた言語の以前の知識を必要としない。
すべての分析されたモデルは25%以下の精度でランク付けされているが、オープンモデルとクローズドモデルの間には大きなギャップがあり、最高のパフォーマンスのプロプライエタリモデルが24.05%、最高のパフォーマンスのオープンモデルが8.84%である。
関連論文リスト
- LINGOLY: A Benchmark of Olympiad-Level Linguistic Reasoning Puzzles in Low-Resource and Extinct Languages [8.754506364968394]
LingOlyベンチマークは、大規模言語モデルにおける高度な推論能力のための新しいベンチマークである。
非常に低リソースまたは絶滅した言語における言語パターンの文脈内同定と一般化の能力を評価する。
直接精度と非文脈ベースラインとの比較により,暗記を暗記する性能を評価する。
論文 参考訳(メタデータ) (2024-06-10T11:50:29Z) - IrokoBench: A New Benchmark for African Languages in the Age of Large Language Models [18.260317326787035]
本報告では,16種類の低リソースアフリカ言語を対象とした人文翻訳ベンチマークデータセットであるIrokoBenchについて紹介する。
IrokoBenchを使って10のオープンおよび4つのプロプライエタリ言語モデルでゼロショット、少数ショット、および翻訳テストの設定(テストセットを英語に翻訳する)を評価します。
オープンモデルとプロプライエタリモデルの間には大きなパフォーマンスギャップが見られ、最高パフォーマンスのオープンモデルであるAya-101は、最高のパフォーマンスのプロプライエタリモデルであるGPT-4oのパフォーマンスの58%に過ぎません。
論文 参考訳(メタデータ) (2024-06-05T15:23:08Z) - SERENGETI: Massively Multilingual Language Models for Africa [5.945320097465418]
SERENGETIは517のアフリカの言語と言語を包含する多言語言語モデルである。
我々は、20のデータセットにまたがる8つの自然言語理解タスクに関する新しいモデルを評価し、4-23のアフリカの言語をカバーする4mPLMと比較した。
論文 参考訳(メタデータ) (2022-12-21T05:54:14Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Language Identification for Austronesian Languages [0.0]
本稿では,太平洋地域の低リソース・低リソース言語を対象とした言語識別モデルを提案する。
我々は、29のオーストロネシア語と171の非オーストロネシア語を組み合わせて評価セットを作成します。
さらなる実験では、これらの言語識別モデルをコードスイッチング検出に適用し、29言語すべてで高い精度を達成する。
論文 参考訳(メタデータ) (2022-06-09T08:08:18Z) - Few-shot Learning with Multilingual Language Models [66.49496434282564]
多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。
私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。
本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
論文 参考訳(メタデータ) (2021-12-20T16:52:35Z) - Language Models are Few-shot Multilingual Learners [66.11011385895195]
我々は、非英語言語における多言語分類を行う際に、GPTモデルとT5モデルの多言語的スキルを評価する。
文脈としての英語の例を見ると、事前学習された言語モデルは、英語のテストサンプルだけでなく、英語以外のサンプルも予測できることが示されている。
論文 参考訳(メタデータ) (2021-09-16T03:08:22Z) - AmericasNLI: Evaluating Zero-shot Natural Language Understanding of
Pretrained Multilingual Models in Truly Low-resource Languages [75.08199398141744]
我々は、XNLI(Conneau et al)の拡張である AmericasNLI を提示する。
は、アメリカ大陸の10の原住民の言語である。
XLM-Rで実験を行い、複数のゼロショットおよび翻訳ベースのアプローチをテストします。
XLM-Rのゼロショット性能は全10言語で低調であり、平均性能は38.62%である。
論文 参考訳(メタデータ) (2021-04-18T05:32:28Z) - Learning to Learn Morphological Inflection for Resource-Poor Languages [105.11499402984482]
本稿では,メタラーニング問題として資源不足言語に対する形態的インフレクション(補題を表象形にマッピングする)の課題を提案する。
それぞれの言語を個別のタスクとして扱うことで、高速ソース言語からのデータを使ってモデルパラメータの集合を学習する。
3つのファミリーから29のターゲット言語を対象とする2つのモデルアーキテクチャの実験により、提案手法がすべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2020-04-28T05:13:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。