論文の概要: LINGOLY: A Benchmark of Olympiad-Level Linguistic Reasoning Puzzles in Low-Resource and Extinct Languages
- arxiv url: http://arxiv.org/abs/2406.06196v3
- Date: Thu, 31 Oct 2024 10:14:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 16:58:01.559159
- Title: LINGOLY: A Benchmark of Olympiad-Level Linguistic Reasoning Puzzles in Low-Resource and Extinct Languages
- Title(参考訳): lingOLY: 低リソースおよび外部言語におけるオリンピアス・レベル言語推論パズルのベンチマーク
- Authors: Andrew M. Bean, Simi Hellsten, Harry Mayne, Jabez Magomere, Ethan A. Chi, Ryan Chi, Scott A. Hale, Hannah Rose Kirk,
- Abstract要約: LingOlyベンチマークは、大規模言語モデルにおける高度な推論能力のための新しいベンチマークである。
非常に低リソースまたは絶滅した言語における言語パターンの文脈内同定と一般化の能力を評価する。
直接精度と非文脈ベースラインとの比較により,暗記を暗記する性能を評価する。
- 参考スコア(独自算出の注目度): 8.754506364968394
- License:
- Abstract: In this paper, we present the LingOly benchmark, a novel benchmark for advanced reasoning abilities in large language models. Using challenging Linguistic Olympiad puzzles, we evaluate (i) capabilities for in-context identification and generalisation of linguistic patterns in very low-resource or extinct languages, and (ii) abilities to follow complex task instructions. The LingOly benchmark covers more than 90 mostly low-resource languages, minimising issues of data contamination, and contains 1,133 problems across 6 formats and 5 levels of human difficulty. We assess performance with both direct accuracy and comparison to a no-context baseline to penalise memorisation. Scores from 11 state-of-the-art LLMs demonstrate the benchmark to be challenging, and models perform poorly on the higher difficulty problems. On harder problems, even the top model only achieved 38.7% accuracy, a 24.7% improvement over the no-context baseline. Large closed models typically outperform open models, and in general, the higher resource the language, the better the scores. These results indicate, in absence of memorisation, true multi-step out-of-domain reasoning remains a challenge for current language models.
- Abstract(参考訳): 本稿では,LingOlyベンチマークを提案する。LingOlyベンチマークは,大規模言語モデルにおける高度な推論能力のベンチマークである。
難解な言語オリンピアードパズルを用いて評価する
一 極低資源又は絶滅した言語における言語パターンの文脈内識別及び一般化の能力及び
(ii)複雑なタスク指示に従う能力。
LingOlyベンチマークは90以上の低リソース言語をカバーし、データ汚染の問題を最小化している。
直接精度と非文脈ベースラインとの比較により,暗記を暗記する性能を評価する。
11の最先端LCMのスコアは、このベンチマークが困難であることを示し、モデルがより高い難易度問題に対して不十分であることを示している。
難しい問題では、トップモデルでさえ38.7%の精度しか達成せず、非コンテキストベースラインよりも24.7%改善した。
大型のクローズドモデルは一般にオープンモデルよりも優れており、一般に、言語が高いほどスコアが良くなる。
これらの結果は、記憶がなければ、真のマルチステップのドメイン外推論は、現在の言語モデルにとって依然として課題であることを示している。
関連論文リスト
- Omni-MATH: A Universal Olympiad Level Mathematic Benchmark For Large Language Models [63.31878920079154]
Olympiadレベルでの大規模言語モデルの数学的推論を評価するためのベンチマークを提案する。
既存のOlympiad関連のベンチマークとは異なり、我々のデータセットは数学にのみ焦点をあてている。
実験の結果,最も先進的なモデルであるOpenAI o1-miniとOpenAI o1-previewでさえ,高度に難解なオリンピアドレベルの問題に悩まされていることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-10T14:39:33Z) - Linguini: A benchmark for language-agnostic linguistic reasoning [37.73108306825993]
本稿では,既存の言語固有の知識に頼らずに,言語モデルの言語推論スキルを測定するための新しいベンチマークを提案する。
このテストでは、75の(ほとんどが)極低リソース言語にわたる160の問題でグループ化された864の質問をカバーしている。
解析されたすべてのモデルが25%以下の精度でランク付けされているのに対して、オープンモデルとクローズドモデルの間には大きなギャップがある。
論文 参考訳(メタデータ) (2024-09-18T16:51:02Z) - modeLing: A Novel Dataset for Testing Linguistic Reasoning in Language Models [23.105555180223487]
modeLingはLinguistics Olympiadスタイルのパズルの新しいベンチマークで、AIシステムで数発の推論をテストする。
我々は,大規模なオープンソース言語モデルとGPTをベンチマークで評価した。
論文 参考訳(メタデータ) (2024-06-24T18:00:59Z) - One Thousand and One Pairs: A "novel" challenge for long-context language models [56.60667988954638]
NoChaは、67冊の架空の書籍に関する1,001対の真偽の主張のデータセットである。
当社のアノテータは、NoChaにおけるペアの最大シェアは、本全体に対するグローバルな推論を必要としていることを確認しています。
平均的なモデルでは、文レベルの検索しか必要としないペアの方が、グローバルな推論よりもはるかに優れています。
論文 参考訳(メタデータ) (2024-06-24T02:03:57Z) - IrokoBench: A New Benchmark for African Languages in the Age of Large Language Models [18.260317326787035]
本報告では,16種類の低リソースアフリカ言語を対象とした人文翻訳ベンチマークデータセットであるIrokoBenchについて紹介する。
IrokoBenchを使って10のオープンおよび4つのプロプライエタリ言語モデルでゼロショット、少数ショット、および翻訳テストの設定(テストセットを英語に翻訳する)を評価します。
オープンモデルとプロプライエタリモデルの間には大きなパフォーマンスギャップが見られ、最高パフォーマンスのオープンモデルであるAya-101は、最高のパフォーマンスのプロプライエタリモデルであるGPT-4oのパフォーマンスの58%に過ぎません。
論文 参考訳(メタデータ) (2024-06-05T15:23:08Z) - Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - LMentry: A Language Model Benchmark of Elementary Language Tasks [39.71352171304755]
LMentryは、人間にとって自明なタスクのコンパクトなセットに焦点を当てたベンチマークである。
大きな言語モデルの能力と堅牢性に関する洞察を提供する。
論文 参考訳(メタデータ) (2022-11-03T18:01:12Z) - Making Large Language Models Better Reasoners with Step-Aware Verifier [49.16750018427259]
DIVERSE(Diverse Verifier on Reasoning Step)は、言語モデルの推論能力をさらに強化する新しいアプローチである。
最新の言語モデルであるcode-davinci 上で DIVERSE を評価し,8つの推論ベンチマークのうち6つで新たな最先端結果が得られることを示す。
論文 参考訳(メタデータ) (2022-06-06T03:38:36Z) - Few-shot Learning with Multilingual Language Models [66.49496434282564]
多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。
私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。
本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
論文 参考訳(メタデータ) (2021-12-20T16:52:35Z) - Learning to Learn Morphological Inflection for Resource-Poor Languages [105.11499402984482]
本稿では,メタラーニング問題として資源不足言語に対する形態的インフレクション(補題を表象形にマッピングする)の課題を提案する。
それぞれの言語を個別のタスクとして扱うことで、高速ソース言語からのデータを使ってモデルパラメータの集合を学習する。
3つのファミリーから29のターゲット言語を対象とする2つのモデルアーキテクチャの実験により、提案手法がすべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2020-04-28T05:13:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。