論文の概要: I am a Strange Dataset: Metalinguistic Tests for Language Models
- arxiv url: http://arxiv.org/abs/2401.05300v1
- Date: Wed, 10 Jan 2024 18:06:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-11 14:09:59.290080
- Title: I am a Strange Dataset: Metalinguistic Tests for Language Models
- Title(参考訳): 私は奇妙なデータセットです - 言語モデルのメタ言語テスト
- Authors: Tristan Thrush, Jared Moore, Miguel Monares, Christopher Potts, Douwe
Kiela
- Abstract要約: I am a Strange dataset"は、大規模言語モデルがメタ言語を扱えるかどうかという問題に対処する新しいデータセットである。
データセットは専門家によって手作りされ、専門家でないアノテーションによって検証される。
すべてのモデルは、サブタスクと、自己参照的でないメタinguistic Controlデータの両方で、ほぼ偶然に実行されます。
- 参考スコア(独自算出の注目度): 45.67384679619348
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Statements involving metalinguistic self-reference ("This paper has six
sections.") are prevalent in many domains. Can large language models (LLMs)
handle such language? In this paper, we present "I am a Strange Dataset", a new
dataset for addressing this question. There are two subtasks: generation and
verification. In generation, models continue statements like "The penultimate
word in this sentence is" (where a correct continuation is "is"). In
verification, models judge the truth of statements like "The penultimate word
in this sentence is sentence." (false). We also provide minimally different
metalinguistic non-self-reference examples to complement the main dataset by
probing for whether models can handle metalinguistic language at all. The
dataset is hand-crafted by experts and validated by non-expert annotators. We
test a variety of open-source LLMs (7B to 70B parameters) as well as
closed-source LLMs through APIs. All models perform close to chance across both
subtasks and even on the non-self-referential metalinguistic control data,
though we find some steady improvement with model scale. GPT 4 is the only
model to consistently do significantly better than chance, and it is still only
in the 60% range, while our untrained human annotators score well in the 89-93%
range. The dataset and evaluation toolkit are available at
https://github.com/TristanThrush/i-am-a-strange-dataset.
- Abstract(参考訳): メタリング主義的自己参照("this paper has six section.")は、多くの領域で一般的である。
大きな言語モデル(LLM)はそのような言語を扱えるのか?
本稿では,この問題に対処するための新しいデータセットである"I am a Strange Dataset"を提案する。
生成と検証の2つのサブタスクがある。
世代では、モデルが「この文の最後尾の単語は」(正しい継続が"is"である)などの文を継続する。
検証において、モデルは「この文の最後尾の単語は文である」といった文の真理を判断する(偽)。
また、モデルが金属言語をまったく扱うことができるかどうかを調べることによって、メインデータセットを補完するために、最小のメタリング主義的非自己参照例も提供します。
データセットは専門家によって手作りされ、専門家でないアノテーションによって検証される。
各種のオープンソースLLM(7Bから70Bのパラメータ)と,APIによるクローズドソースLLMをテストする。
モデルスケールは安定的に改善されているものの、すべてのモデルがサブタスクと非自己参照メタプログラミング制御データの両方でほぼ偶然に実行されます。
GPT 4は、偶然よりもずっと良く動作する唯一のモデルであり、まだ60%の範囲でしかなく、訓練されていない人間のアノテータは89-93%の範囲で良いスコアを得ています。
データセットと評価ツールキットはhttps://github.com/TristanThrush/i-am-a-strange-datasetで入手できる。
関連論文リスト
- CompoundPiece: Evaluating and Improving Decompounding Performance of
Language Models [77.45934004406283]
複合語を構成語に分割する作業である「分解」を体系的に研究する。
We introduced a dataset of 255k compound and non-compound words across 56 various languages obtained from Wiktionary。
分割のための専用モデルを訓練するための新しい手法を導入する。
論文 参考訳(メタデータ) (2023-05-23T16:32:27Z) - An Open Dataset and Model for Language Identification [84.15194457400253]
マクロ平均F1スコア0.93、偽陽性率0.033を201言語で達成するLIDモデルを提案する。
モデルとデータセットの両方を研究コミュニティに公開しています。
論文 参考訳(メタデータ) (2023-05-23T08:43:42Z) - Learn What Is Possible, Then Choose What Is Best: Disentangling
One-To-Many Relations in Language Through Text-based Games [3.615981646205045]
望ましい振る舞いをエミュレートできる言語モデルをトレーニングするアプローチを提案する。
テキストベースのゲームをテストベッドとして使用することで、PASAは個別の潜伏変数を用いて異なる動作範囲をキャプチャする。
その結果,従来の最先端モデルよりも49%の実証的改善が得られた。
論文 参考訳(メタデータ) (2023-04-14T17:11:26Z) - Predicting the Performance of Multilingual NLP Models [16.250791929966685]
本稿では,特定のタスクがテストセットを持つ言語上で,既存のモデルの性能スコアを利用する言語間でのモデル評価のための代替ソリューションを提案する。
我々はこれらの性能スコアの予測器を訓練し、この予測器を用いて異なる評価設定でモデルの性能を予測する。
提案手法は,既存の言語群に対する評価のギャップを埋めるのに有効であるが,未知の言語に一般化したい場合,さらなる改善が必要である可能性が示唆された。
論文 参考訳(メタデータ) (2021-10-17T17:36:53Z) - Deduplicating Training Data Makes Language Models Better [50.22588162039083]
既存の言語モデリングデータセットには、多くのほぼ重複した例と長い反復が含まれている。
これらのデータセットでトレーニングされた言語モデルの未学習出力の1%以上が、トレーニングデータから冗長にコピーされている。
トレーニングデータセットを分離する2つのツールを開発しています。
論文 参考訳(メタデータ) (2021-07-14T06:06:52Z) - X-FACT: A New Benchmark Dataset for Multilingual Fact Checking [21.2633064526968]
本稿では,X-FACTについて紹介する。X-FACTは,自然に存在する実世界のクレームの事実検証のための,多言語データセットとして最大である。
データセットには25の言語で短いステートメントが含まれており、専門家のファクトチェッカーによって正確性を示すラベルが付けられている。
論文 参考訳(メタデータ) (2021-06-17T05:09:54Z) - Self-Training Pre-Trained Language Models for Zero- and Few-Shot
Multi-Dialectal Arabic Sequence Labeling [7.310390479801139]
データスカース変種の性能を改善するため、ゼロおよび少数ショットシナリオで事前訓練された言語モデル。
我々の研究は、MSAリソースのみを活用するDAモデルを開発する機会を開く。
論文 参考訳(メタデータ) (2021-01-12T21:29:30Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - MTOP: A Comprehensive Multilingual Task-Oriented Semantic Parsing
Benchmark [31.91964553419665]
我々はMTOPと呼ばれる新しい多言語データセットを提案し、11ドメインの6言語で100kの注釈付き発話を合成する。
既存の2つの多言語データセットに対して、Slot F1上の+6.3ポイントの平均的な改善を、実験で報告された最良の結果よりも達成する。
本稿では,事前学習モデルと自動翻訳とアライメントを組み合わせたゼロショット性能と,スロットラベル投影におけるノイズ低減のための遠隔監視手法を提案する。
論文 参考訳(メタデータ) (2020-08-21T07:02:11Z) - Words aren't enough, their order matters: On the Robustness of Grounding
Visual Referring Expressions [87.33156149634392]
視覚的参照表現認識のための標準ベンチマークであるRefCOgを批判的に検討する。
83.7%のケースでは言語構造に関する推論は不要である。
比較学習とマルチタスク学習の2つの手法を提案し,ViLBERTのロバスト性を高める。
論文 参考訳(メタデータ) (2020-05-04T17:09:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。