論文の概要: I am a Strange Dataset: Metalinguistic Tests for Language Models
- arxiv url: http://arxiv.org/abs/2401.05300v2
- Date: Tue, 6 Aug 2024 19:24:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-08 18:13:59.302390
- Title: I am a Strange Dataset: Metalinguistic Tests for Language Models
- Title(参考訳): I am a Strange Dataset: Metalinguistic Tests for Language Models
- Authors: Tristan Thrush, Jared Moore, Miguel Monares, Christopher Potts, Douwe Kiela,
- Abstract要約: I am a Strange dataset"は、大規模言語モデルがメタ言語を扱えるかどうかという問題に対処する新しいデータセットである。
データセットは専門家によって手作りされ、専門家でないアノテーションによって検証される。
すべてのモデルは、サブタスクと、自己参照的でないメタinguistic Controlデータの両方で、ほぼ偶然に実行されます。
- 参考スコア(独自算出の注目度): 42.572604781768
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Statements involving metalinguistic self-reference ("This paper has six sections.") are prevalent in many domains. Can current large language models (LLMs) handle such language? In this paper, we present "I am a Strange Dataset", a new dataset for addressing this question. There are two subtasks: generation and verification. In generation, models continue statements like "The penultimate word in this sentence is" (where a correct continuation is "is"). In verification, models judge the truth of statements like "The penultimate word in this sentence is sentence." (false). We also provide minimally different metalinguistic non-self-reference examples to complement the main dataset by probing for whether models can handle metalinguistic language at all. The dataset is hand-crafted by experts and validated by non-expert annotators. We test a variety of open-source LLMs (7B to 70B parameters) as well as closed-source LLMs through APIs. All models perform close to chance across both subtasks and even on the non-self-referential metalinguistic control data, though we find some steady improvement with model scale. GPT 4 is the only model to consistently do significantly better than chance, and it is still only in the 60% range, while our untrained human annotators score well in the 89-93% range. The dataset and evaluation toolkit are available at https://github.com/TristanThrush/i-am-a-strange-dataset.
- Abstract(参考訳): メタリング主義的自己参照(この論文には6つのセクションがある)を含むステートメントは、多くの領域で一般的である。
現在の大規模言語モデル(LLM)はそのような言語を扱えるだろうか?
本稿では,この問題に対処するための新しいデータセットである"I am a Strange Dataset"を提案する。
生成と検証の2つのサブタスクがある。
世代では、モデルが「この文の最後尾の単語は」(正しい継続が"is"である)などの文を継続する。
検証において、モデルは「この文の最後尾の単語は文である」といった文の真理を判断する(偽)。
また、モデルがメタプログラミング言語を全く扱えるかどうかを探索することで、メインデータセットを補完する、最小限のメタプログラミング的非自己参照例も提供します。
データセットは専門家によって手作りされ、専門家でないアノテーションによって検証される。
各種のオープンソースLLM(7Bから70Bのパラメータ)と,APIによるクローズドソースLLMをテストする。
モデルスケールは安定的に改善されているものの、すべてのモデルがサブタスクと非自己参照メタプログラミング制御データの両方でほぼ偶然に実行されます。
GPT 4は、偶然よりもずっと良く動作する唯一のモデルであり、まだ60%の範囲でしかなく、訓練されていない人間のアノテータは89-93%の範囲で良いスコアを得ています。
データセットと評価ツールキットはhttps://github.com/TristanThrush/i-am-a-strange-datasetで入手できる。
関連論文リスト
- Paloma: A Benchmark for Evaluating Language Model Fit [112.481957296585]
言語モデル (LM) の評価では、トレーニングから切り離されたモノリシックなデータに難易度が報告されるのが一般的である。
Paloma(Perplexity Analysis for Language Model Assessment)は、546の英語およびコードドメインに適合するLMを測定するベンチマークである。
論文 参考訳(メタデータ) (2023-12-16T19:12:45Z) - An Open Dataset and Model for Language Identification [84.15194457400253]
マクロ平均F1スコア0.93、偽陽性率0.033を201言語で達成するLIDモデルを提案する。
モデルとデータセットの両方を研究コミュニティに公開しています。
論文 参考訳(メタデータ) (2023-05-23T08:43:42Z) - Learn What Is Possible, Then Choose What Is Best: Disentangling
One-To-Many Relations in Language Through Text-based Games [3.615981646205045]
望ましい振る舞いをエミュレートできる言語モデルをトレーニングするアプローチを提案する。
テキストベースのゲームをテストベッドとして使用することで、PASAは個別の潜伏変数を用いて異なる動作範囲をキャプチャする。
その結果,従来の最先端モデルよりも49%の実証的改善が得られた。
論文 参考訳(メタデータ) (2023-04-14T17:11:26Z) - Predicting the Performance of Multilingual NLP Models [16.250791929966685]
本稿では,特定のタスクがテストセットを持つ言語上で,既存のモデルの性能スコアを利用する言語間でのモデル評価のための代替ソリューションを提案する。
我々はこれらの性能スコアの予測器を訓練し、この予測器を用いて異なる評価設定でモデルの性能を予測する。
提案手法は,既存の言語群に対する評価のギャップを埋めるのに有効であるが,未知の言語に一般化したい場合,さらなる改善が必要である可能性が示唆された。
論文 参考訳(メタデータ) (2021-10-17T17:36:53Z) - Deduplicating Training Data Makes Language Models Better [50.22588162039083]
既存の言語モデリングデータセットには、多くのほぼ重複した例と長い反復が含まれている。
これらのデータセットでトレーニングされた言語モデルの未学習出力の1%以上が、トレーニングデータから冗長にコピーされている。
トレーニングデータセットを分離する2つのツールを開発しています。
論文 参考訳(メタデータ) (2021-07-14T06:06:52Z) - X-FACT: A New Benchmark Dataset for Multilingual Fact Checking [21.2633064526968]
本稿では,X-FACTについて紹介する。X-FACTは,自然に存在する実世界のクレームの事実検証のための,多言語データセットとして最大である。
データセットには25の言語で短いステートメントが含まれており、専門家のファクトチェッカーによって正確性を示すラベルが付けられている。
論文 参考訳(メタデータ) (2021-06-17T05:09:54Z) - Self-Training Pre-Trained Language Models for Zero- and Few-Shot
Multi-Dialectal Arabic Sequence Labeling [7.310390479801139]
データスカース変種の性能を改善するため、ゼロおよび少数ショットシナリオで事前訓練された言語モデル。
我々の研究は、MSAリソースのみを活用するDAモデルを開発する機会を開く。
論文 参考訳(メタデータ) (2021-01-12T21:29:30Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Words aren't enough, their order matters: On the Robustness of Grounding
Visual Referring Expressions [87.33156149634392]
視覚的参照表現認識のための標準ベンチマークであるRefCOgを批判的に検討する。
83.7%のケースでは言語構造に関する推論は不要である。
比較学習とマルチタスク学習の2つの手法を提案し,ViLBERTのロバスト性を高める。
論文 参考訳(メタデータ) (2020-05-04T17:09:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。