Fugu-MT 論文翻訳(概要): modeLing: A Novel Dataset for Testing Linguistic Reasoning in Language Models

論文の概要: modeLing: A Novel Dataset for Testing Linguistic Reasoning in Language Models

arxiv url: http://arxiv.org/abs/2406.17038v1
Date: Mon, 24 Jun 2024 18:00:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-26 18:40:56.034990
Title: modeLing: A Novel Dataset for Testing Linguistic Reasoning in Language Models
Title（参考訳）: modeLing: 言語モデルにおける言語推論をテストするための新しいデータセット
Authors: Nathan A. Chi, Teodor Malchev, Riley Kong, Ryan A. Chi, Lucas Huang, Ethan A. Chi, R. Thomas McCoy, Dragomir Radev,
Abstract要約: modeLingはLinguistics Olympiadスタイルのパズルの新しいベンチマークで、AIシステムで数発の推論をテストする。我々は,大規模なオープンソース言語モデルとGPTをベンチマークで評価した。
参考スコア（独自算出の注目度）: 23.105555180223487
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: We introduce modeLing, a novel benchmark of Linguistics Olympiad-style puzzles which tests few-shot reasoning in AI systems. Solving these puzzles necessitates inferring aspects of a language's grammatical structure from a small number of examples. Such puzzles provide a natural testbed for language models, as they require compositional generalization and few-shot inductive reasoning. Consisting solely of new puzzles written specifically for this work, modeLing has no risk of appearing in the training data of existing AI systems: this ameliorates the risk of data leakage, a potential confounder for many prior evaluations of reasoning. Evaluating several large open source language models and GPT on our benchmark, we observe non-negligible accuracy, demonstrating few-shot emergent reasoning ability which cannot merely be attributed to shallow memorization. However, imperfect model performance suggests that modeLing can be used to measure further progress in linguistic reasoning.
Abstract（参考訳）: 我々は、AIシステムにおける少数ショット推論をテストするLinguistics Olympiadスタイルパズルの新しいベンチマークであるModeLingを紹介する。これらのパズルを解くには、少数の例から言語の文法構造の側面を推測する必要がある。このようなパズルは、合成一般化と少数ショット帰納的推論を必要とするため、言語モデルに対する自然なテストベッドを提供する。この作業専用に書かれた新しいパズルのみで構成されているModeLingには、既存のAIシステムのトレーニングデータに現れるリスクはない。提案するベンチマークでは,複数の大規模オープンソース言語モデルとGPTの評価を行い,浅暗記に起因しない創発的推論能力を示す。しかし、不完全なモデル性能は、モデムLingが言語推論のさらなる進歩を測定するのに使えることを示唆している。

関連論文リスト

Randomly Sampled Language Reasoning Problems Reveal Limits of LLMs [8.146860674148044]
我々は,データセットリコールのリスクを回避しつつ,モデルの言語理解能力の測定を試みる。決定論的有限オートマトン(DFA)により認識される言語タスクの多種族をパラメータ化する。 3 状態 DFA の驚くほど単純な設定であっても、LLM は言語認識と合成の両タスクにおいてパラメータ化されていない ngram モデルより劣ることがわかった。
論文参考訳（メタデータ） (2025-01-06T07:57:51Z)
Small Language Models Like Small Vocabularies: Probing the Linguistic Abilities of Grapheme- and Phoneme-Based Baby Llamas [7.585433383340306]
我々は,Llamaアーキテクチャに基づく小型モデルは,標準構文および新しい語彙/音声のベンチマークにおいて,強力な言語性能が得られることを示す。本研究は,言語習得と処理の計算研究に適する言語学的に妥当な言語モデルを作成するための,有望な方向性を示唆するものである。
論文参考訳（メタデータ） (2024-10-02T12:36:08Z)
Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。 Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文参考訳（メタデータ） (2024-06-28T17:03:51Z)
Evidence from counterfactual tasks supports emergent analogical reasoning in large language models [3.9189409002585562]
大規模な言語モデルでは、ゼロショット方式で幅広いテキストベースの類似問題を解くことができるという証拠を報告する。最近の2つの注釈は、アルファベットの標準配列が任意に置換されるいわゆる反事実的タスクの証拠を引用して、これらの結果に異議を唱えている。ここでは、これらの批判に回答し、本研究で使用した試験材料に関する誤解を明らかにし、言語モデルがこれらの新しい対実的タスク変種に一般化できることを示す。
論文参考訳（メタデータ） (2024-04-14T21:51:02Z)
APOLLO: A Simple Approach for Adaptive Pretraining of Language Models for Logical Reasoning [73.3035118224719]
本稿では,論理的推論能力を改善した適応事前学習型言語モデルAPOLLOを提案する。 APOLLOはReClorで比較可能であり、LogiQAでベースラインを上回ります。
論文参考訳（メタデータ） (2022-12-19T07:40:02Z)
ALERT: Adapting Language Models to Reasoning Tasks [43.8679673685468]
ALERTは、言語モデルの推論能力を評価するためのベンチマークと分析スイートである。 ALERTは、あらゆる言語モデルに対して、きめ細かい推論スキルを評価するためのテストベッドを提供する。言語モデルは、事前学習状態と比較して、微調整段階の推論スキルを学習する。
論文参考訳（メタデータ） (2022-12-16T05:15:41Z)
Reflection of Thought: Inversely Eliciting Numerical Reasoning in Language Models via Solving Linear Systems [42.782260686177395]
本稿では,事前学習言語モデルに隠された数値推論知識を抽出し,活用するための新しい手法を提案する。まず、単純な数値をアンカーとして利用して、暗黙的に推論された算術表現を言語モデルから探索する。我々は、解析的に解決可能な線形システムとしてタスクを変換し、定式化する。
論文参考訳（メタデータ） (2022-10-11T00:57:19Z)
Testing the Ability of Language Models to Interpret Figurative Language [69.59943454934799]
比喩的・比喩的な言語は言論において一般的である。現代の言語モデルが非リテラルなフレーズをどの程度解釈できるかについては、未解決の疑問が残る。ウィノグラードスタイルの非文字言語理解タスクであるFig-QAを紹介する。
論文参考訳（メタデータ） (2022-04-26T23:42:22Z)
Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。類型的に多様な訓練言語のサンプルからこの分布を推測する。我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文参考訳（メタデータ） (2021-08-06T23:49:18Z)
Comparison of Interactive Knowledge Base Spelling Correction Models for Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文参考訳（メタデータ） (2020-10-20T17:31:07Z)
Learning Spoken Language Representations with Neural Lattice Language Modeling [39.50831917042577]
本稿では,音声言語理解タスクのための文脈表現を提供するために,ニューラルネットワーク言語モデルを訓練するフレームワークを提案する。提案する2段階事前学習手法は,音声データの要求を低減し,効率を向上する。
論文参考訳（メタデータ） (2020-07-06T10:38:03Z)
Information-Theoretic Probing for Linguistic Structure [74.04862204427944]
本稿では,相互情報を推定するための情報理論による探索運用手法を提案する。我々は,NLP研究でしばしば不足している10の型的多様言語について評価した。
論文参考訳（メタデータ） (2020-04-07T01:06:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。