論文の概要: Critical Thinking for Language Models
- arxiv url: http://arxiv.org/abs/2009.07185v2
- Date: Thu, 17 Dec 2020 14:42:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 05:20:45.448784
- Title: Critical Thinking for Language Models
- Title(参考訳): 言語モデルの批判的思考
- Authors: Gregor Betz and Christian Voigt and Kyle Richardson
- Abstract要約: 本稿では,ニューラル自動回帰言語モデルの批判的思考カリキュラムに向けて第一歩を踏み出す。
我々は、GPT-2を訓練し、評価するために、人工的な議論文を生成する。
NLUベンチマークに対して一貫した有望な結果が得られる。
- 参考スコア(独自算出の注目度): 6.963299759354333
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper takes a first step towards a critical thinking curriculum for
neural auto-regressive language models. We introduce a synthetic corpus of
deductively valid arguments, and generate artificial argumentative texts to
train and evaluate GPT-2. Significant transfer learning effects can be
observed: Training a model on three simple core schemes allows it to accurately
complete conclusions of different, and more complex types of arguments, too.
The language models generalize the core argument schemes in a correct way.
Moreover, we obtain consistent and promising results for NLU benchmarks. In
particular, pre-training on the argument schemes raises zero-shot accuracy on
the GLUE diagnostics by up to 15 percentage points. The findings suggest that
intermediary pre-training on texts that exemplify basic reasoning abilities
(such as typically covered in critical thinking textbooks) might help language
models to acquire a broad range of reasoning skills. The synthetic
argumentative texts presented in this paper are a promising starting point for
building such a "critical thinking curriculum for language models."
- Abstract(参考訳): 本稿では,ニューラル自動回帰言語モデルの批判的思考カリキュラムに向けて第一歩を踏み出す。
本稿では,帰納的有効引数の合成コーパスを導入し,gpt-2の学習と評価のための人工的議論テキストを生成する。
3つの単純なコアスキームでモデルをトレーニングすることで、異なる、より複雑なタイプの引数の結論を正確に達成することができます。
言語モデルは、コア引数スキームを正しい方法で一般化する。
さらに,NLUベンチマークに対して一貫した有望な結果が得られる。
特に、議論スキームの事前訓練は、GLUE診断のゼロショット精度を最大15ポイント向上させる。
この結果は、基本的な推論能力(批判的思考教科書など)を実証するテキストの中間的事前学習が、言語モデルが幅広い推論スキルを獲得するのに役立つことを示唆している。
本稿では,このような「言語モデルのための批判的思考カリキュラム」を構築する上で有望な出発点である。
関連論文リスト
- Reasoning Elicitation in Language Models via Counterfactual Feedback [17.908819732623716]
事実と反事実の質問において精度のバランスをとる新しい指標を導出する。
本稿では,より優れた推論機構を実現するための微調整手法を提案する。
各種現実シナリオにおける微調整言語モデルの性能評価を行った。
論文 参考訳(メタデータ) (2024-10-02T15:33:30Z) - Lean-STaR: Learning to Interleave Thinking and Proving [53.923617816215774]
証明の各ステップに先立って,非公式な思考を生成するために,言語モデルをトレーニングするフレームワークであるLean-STaRを紹介します。
Lean-STaRは、Lean定理証明環境内のminiF2F-testベンチマークで最先端の結果を達成する。
論文 参考訳(メタデータ) (2024-07-14T01:43:07Z) - Conceptual and Unbiased Reasoning in Language Models [98.90677711523645]
本稿では,抽象的質問に対する概念的推論をモデルに強制する,新しい概念化フレームワークを提案する。
既存の大規模言語モデルは概念的推論では不足しており、様々なベンチマークでは9%から28%に低下している。
ハイレベルな抽象的推論が不偏で一般化可能な意思決定の鍵となるので、モデルがどのように改善できるかについて議論する。
論文 参考訳(メタデータ) (2024-03-30T00:53:53Z) - "You Are An Expert Linguistic Annotator": Limits of LLMs as Analyzers of
Abstract Meaning Representation [60.863629647985526]
文意味構造の解析において, GPT-3, ChatGPT, および GPT-4 モデルの成功と限界について検討した。
モデルはAMRの基本形式を確実に再現でき、しばしばコアイベント、引数、修飾子構造をキャプチャできる。
全体としては,これらのモデルではセマンティック構造の側面を捉えることができるが,完全に正確なセマンティック解析や解析をサポートする能力には重要な制限が残されている。
論文 参考訳(メタデータ) (2023-10-26T21:47:59Z) - Investigating the Efficacy of Large Language Models in Reflective
Assessment Methods through Chain of Thoughts Prompting [0.2552922646705803]
複雑な推論タスクにおけるLLMの習熟度を高める手段として、Chain of Thought(CoT)プロンプト法が提案されている。
本研究の主な目的は、4つの言語モデルが3年制医学生の振り返りエッセイをいかに評価できるかを評価することである。
論文 参考訳(メタデータ) (2023-09-30T06:25:27Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Language Models as Inductive Reasoners [125.99461874008703]
本稿では,帰納的推論のための新しいパラダイム(タスク)を提案し,自然言語の事実から自然言語規則を誘導する。
タスクのための1.2kルールファクトペアを含むデータセットDEERを作成し,ルールと事実を自然言語で記述する。
我々は、事前訓練された言語モデルが自然言語の事実から自然言語規則をいかに誘導できるかを、初めてかつ包括的な分析を行う。
論文 参考訳(メタデータ) (2022-12-21T11:12:14Z) - ALERT: Adapting Language Models to Reasoning Tasks [43.8679673685468]
ALERTは、言語モデルの推論能力を評価するためのベンチマークと分析スイートである。
ALERTは、あらゆる言語モデルに対して、きめ細かい推論スキルを評価するためのテストベッドを提供する。
言語モデルは、事前学習状態と比較して、微調整段階の推論スキルを学習する。
論文 参考訳(メタデータ) (2022-12-16T05:15:41Z) - Chain of Thought Prompting Elicits Reasoning in Large Language Models [56.811278668446825]
本稿では,コヒーレントな思考連鎖を生成する言語モデルについて考察する。
実験により、プロンプトによって思考の連鎖を誘導することで、十分な大きな言語モデルが推論タスクをよりよく実行できるようになることが示されている。
論文 参考訳(メタデータ) (2022-01-28T02:33:07Z) - AMPERSAND: Argument Mining for PERSuAsive oNline Discussions [41.06165177604387]
本稿では,オンライン議論フォーラムにおける議論マイニングのための計算モデルを提案する。
我々のアプローチは、議論スレッド内の引数のコンポーネント間の関係を識別することに依存します。
我々のモデルは最近の最先端のアプローチと比較して大幅に改善されている。
論文 参考訳(メタデータ) (2020-04-30T10:33:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。