論文の概要: oLMpics -- On what Language Model Pre-training Captures
- arxiv url: http://arxiv.org/abs/1912.13283v2
- Date: Thu, 19 Nov 2020 08:24:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-16 20:06:52.153566
- Title: oLMpics -- On what Language Model Pre-training Captures
- Title(参考訳): olmpics -- 事前学習する言語モデルについて
- Authors: Alon Talmor, Yanai Elazar, Yoav Goldberg, Jonathan Berant
- Abstract要約: 本研究では,比較,協調,合成などの操作を必要とする8つの推論タスクを提案する。
基本的な課題は、タスク上でのLMのパフォーマンスが、事前訓練された表現やタスクデータの微調整のプロセスに起因すべきかどうかを理解することである。
- 参考スコア(独自算出の注目度): 84.60594612120173
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent success of pre-trained language models (LMs) has spurred widespread
interest in the language capabilities that they possess. However, efforts to
understand whether LM representations are useful for symbolic reasoning tasks
have been limited and scattered. In this work, we propose eight reasoning
tasks, which conceptually require operations such as comparison, conjunction,
and composition. A fundamental challenge is to understand whether the
performance of a LM on a task should be attributed to the pre-trained
representations or to the process of fine-tuning on the task data. To address
this, we propose an evaluation protocol that includes both zero-shot evaluation
(no fine-tuning), as well as comparing the learning curve of a fine-tuned LM to
the learning curve of multiple controls, which paints a rich picture of the LM
capabilities. Our main findings are that: (a) different LMs exhibit
qualitatively different reasoning abilities, e.g., RoBERTa succeeds in
reasoning tasks where BERT fails completely; (b) LMs do not reason in an
abstract manner and are context-dependent, e.g., while RoBERTa can compare
ages, it can do so only when the ages are in the typical range of human ages;
(c) On half of our reasoning tasks all models fail completely. Our findings and
infrastructure can help future work on designing new datasets, models and
objective functions for pre-training.
- Abstract(参考訳): 近年、訓練済み言語モデル(LM)の成功により、彼らが持つ言語能力への関心が高まっている。
しかし, LM表現が記号的推論タスクに有用かどうかを理解するための努力は限定的であり, 散在している。
本研究では,比較,協調,構成などの操作を概念的に要求する8つの推論タスクを提案する。
基本的な課題は、タスク上のLMのパフォーマンスが、事前訓練された表現やタスクデータの微調整のプロセスに起因するかどうかを理解することである。
そこで本研究では,ゼロショット評価(微調整なし)と,微調整LMの学習曲線と複数制御の学習曲線を比較した評価プロトコルを提案する。
私たちの主な発見は
(a)異なるLMは定性的に異なる推論能力を示し、例えばRoBERTaはBERTが完全に失敗するタスクの推論に成功する。
(b)lmsは、抽象的な方法では理性を持たず、例えば、ロベルタは年齢を比較することができるが、年齢が人間の年齢の典型的な範囲にある場合に限る。
(c) 推論タスクの半分では、すべてのモデルは完全に失敗します。
我々の発見とインフラは、新しいデータセット、モデル、および事前トレーニングのための客観的関数を設計するための将来の作業に役立つ。
関連論文リスト
- Aggregation Artifacts in Subjective Tasks Collapse Large Language Models' Posteriors [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理の主要な手法となっている。
本研究は,低アグリゲーション,異質なアノテーションを組み合わせたアグリゲーションの結果が,プロンプトに有害なノイズを生じさせるアノテーションのアーティファクトに繋がるかどうかを考察する。
この結果から,アグリゲーションは主観的タスクのモデル化において不明瞭な要因であり,代わりに個人をモデリングすることを重視することが示唆された。
論文 参考訳(メタデータ) (2024-10-17T17:16:00Z) - Latent Causal Probing: A Formal Perspective on Probing with Causal Models of Data [3.376269351435396]
構造因果モデル(SCM)を用いた探索の形式的視点を開発する。
我々は,合成グリッドワールドナビゲーションタスクの文脈において,最近のLMの研究を拡張した。
我々の手法は、LMがテキストの根底にある潜在概念を誘発する能力を示す、堅牢な実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-07-18T17:59:27Z) - Enabling Natural Zero-Shot Prompting on Encoder Models via Statement-Tuning [55.265138447400744]
ステートメントチューニングは、有限文の集合として識別タスクをモデル化し、エンコーダモデルを訓練し、潜在的なステートメントを識別してラベルを決定するテクニックである。
その結果, ステートメント・チューニングは, パラメータが著しく少ない最先端のLCMと比較して, 競争性能が向上することを示した。
この研究は、いくつかの設計選択が少ショットとゼロショットの一般化に与える影響を調査し、ステートメントチューニングが控えめなトレーニングデータで高いパフォーマンスを達成できることを明らかにした。
論文 参考訳(メタデータ) (2024-04-19T14:05:03Z) - Learning to Generate Explainable Stock Predictions using Self-Reflective
Large Language Models [54.21695754082441]
説明可能なストック予測を生成するために,LLM(Large Language Models)を教えるフレームワークを提案する。
反射剤は自己推論によって過去の株価の動きを説明する方法を学ぶ一方、PPOトレーナーは最も可能性の高い説明を生成するためにモデルを訓練する。
我々のフレームワークは従来のディープラーニング法とLLM法の両方を予測精度とマシューズ相関係数で上回ることができる。
論文 参考訳(メタデータ) (2024-02-06T03:18:58Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Concept-aware Training Improves In-context Learning Ability of Language
Models [0.0]
トランスフォーマーファミリーの最近の言語モデル(LM)の多くは、いわゆるインコンテキスト学習(ICL)能力を示している。
テキスト内情報をよりよく活用できるLMを作成する手法を提案する。
概念認識トレーニングのデータサンプリングはモデルの推論能力を継続的に改善する。
論文 参考訳(メタデータ) (2023-05-23T07:44:52Z) - Limitations of Language Models in Arithmetic and Symbolic Induction [20.49118435604774]
大規模な事前訓練された言語モデル(LM)は、自然言語処理(NLP)タスクで非常によく機能する。
これらのモデルには、コピー、リバース、追加といった特定の基本的な記号操作タスクに制限があることがわかった。
この現象の背後にある潜在的な原因について検討し、明示的な位置マーカー、きめ細かい計算ステップ、呼び出し可能なプログラムを持つLMなどを含む一連の手法について検討する。
論文 参考訳(メタデータ) (2022-08-09T21:47:01Z) - An Interpretability Evaluation Benchmark for Pre-trained Language Models [37.16893581395874]
英語と中国語の両方の注釈付きデータを提供する新しい評価ベンチマークを提案する。
複数の次元(文法、意味論、知識、推論、計算など)でLMの能力をテストする。
各元のインスタンスに対する摂動インスタンスを含み、摂動の下での有理整合を忠実性の計量として使う。
論文 参考訳(メタデータ) (2022-07-28T08:28:09Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。