論文の概要: Examining the Emergence of Deductive Reasoning in Generative Language
Models
- arxiv url: http://arxiv.org/abs/2306.01009v1
- Date: Wed, 31 May 2023 21:29:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 18:41:18.633926
- Title: Examining the Emergence of Deductive Reasoning in Generative Language
Models
- Title(参考訳): 生成言語モデルにおける推論推論の創発性の検討
- Authors: Peter Belcak, Luca A. Lanzend\"orfer, Roger Wattenhofer
- Abstract要約: 異なるトレーニング設定から得られるモデルの性能に顕著な違いが見られ、縮退的推論能力はスケールとともに増大することがわかった。
本研究は,1億7700万から1750億のパラメータを含む,多種多様なトランスフォーマーデコーダモデルについて考察する。
- 参考スコア(独自算出の注目度): 8.873449722727026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We conduct a preliminary inquiry into the ability of generative transformer
models to deductively reason from premises provided. We observe notable
differences in the performance of models coming from different training setups
and find that the deductive reasoning ability increases with scale. Further, we
discover that the performance generally does not decrease with the length of
the deductive chain needed to reach the conclusion, with the exception of
OpenAI GPT-3 and GPT-3.5 models. Our study considers a wide variety of
transformer-decoder models, ranging from 117 million to 175 billion parameters
in size.
- Abstract(参考訳): 我々は,生成変圧器モデルが前提から推論する能力について予備的考察を行う。
異なるトレーニング設定から得られるモデルのパフォーマンスの顕著な違いを観察し,その推論能力がスケールとともに増加することを見出した。
さらに,OpenAI GPT-3 モデルと GPT-3.5 モデルを除いて,結論に達するのに必要な導出鎖の長さで性能が低下しないことがわかった。
本研究は,1億7700万から1750億のパラメータを含む,多種多様なトランスフォーマーデコーダモデルについて考察する。
関連論文リスト
- Trainable Transformer in Transformer [48.754918968374334]
本稿では,Transformer in Transformer(略してTinT)の効率的な構築法を提案する。
TinTは多くの変圧器の変種に対応しており、その設計思想は変圧器内部の単純なモデルの過去のインスタンス化の効率も改善している。
これらの結果から,大規模事前学習言語モデルでは複雑な推論が可能であることが示唆された。
論文 参考訳(メタデータ) (2023-07-03T17:53:39Z) - A Comprehensive Capability Analysis of GPT-3 and GPT-3.5 Series Models [71.42197262495056]
GPTシリーズモデルは、その例外的な自然言語処理能力により、かなりの注目を集めている。
2つのGPT-3系列モデルと4つのGPT-3.5系列モデルからなる6つの代表モデルを選択する。
21個のデータセットを用いて,9つの自然言語理解タスク(NLU)の性能評価を行った。
実験の結果,NLUタスクにおけるGPTシリーズモデルの全体的な能力は,モデルが進化するにつれて徐々に向上しないことがわかった。
論文 参考訳(メタデータ) (2023-03-18T14:02:04Z) - Multi-Aspect Explainable Inductive Relation Prediction by Sentence
Transformer [60.75757851637566]
本稿では,モデル学習に先立って信頼できない経路をフィルタリングし,モデル性能を高めるための関係経路カバレッジと関係経路信頼の概念を紹介する。
知識グラフにおける帰納関係を予測するために,知識推論文変換器(KRST)を提案する。
論文 参考訳(メタデータ) (2023-01-04T15:33:49Z) - Emergent Analogical Reasoning in Large Language Models [1.5469452301122177]
GPT-3は、多くの設定において、抽象的なパターン誘導、マッチング、さらには人間の能力を超える、驚くほど強力な能力を持っていることを示す。
以上の結果から, GPT-3のような大規模言語モデルでは, 幅広い類似問題に対するゼロショット解を求める能力が得られている。
論文 参考訳(メタデータ) (2022-12-19T00:04:56Z) - Leveraging Pre-trained Models for Failure Analysis Triplets Generation [0.0]
我々は、故障解析トリプレット(FAT)を生成する下流タスクにおいて、トランスフォーマーモデルのような事前訓練された因果言語モデルの注意機構を活用する。
生成事前学習型変換器2(GPT2)は、故障解析三重項生成(FATG)タスクにおいて、他の変換器モデルよりも優れていた。
特に, GPT2(1.5Bパラメータで学習)は, ROUGEにおいて, トレーニング済みBERT, BART, GPT3よりも高い性能を示した。
論文 参考訳(メタデータ) (2022-10-31T17:21:15Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Scale Efficiently: Insights from Pre-training and Fine-tuning
Transformers [57.931830650323]
本稿では,事前学習および微調整型変圧器によるスケーリングの洞察について述べる。
モデルのサイズだけでなく、モデル形状が下流の微調整に重要であることを示す。
再設計したモデルにより、下流の微調整品質が向上する。
論文 参考訳(メタデータ) (2021-09-22T12:29:15Z) - Multi-Unit Transformers for Neural Machine Translation [51.418245676894465]
マルチユニット変換器 (MUTE) を提案し, 変換器の表現性を向上する。
具体的には、複数の並列ユニットを使用し、複数のユニットによるモデリングがモデル性能を改善し、多様性を導入することを示す。
論文 参考訳(メタデータ) (2020-10-21T03:41:49Z) - Learning Invariances for Interpretability using Supervised VAE [0.0]
我々はモデルを解釈する手段としてモデル不変性を学習する。
可変オートエンコーダ(VAE)の教師型形式を提案する。
我々は、我々のモデルと特徴属性の手法を組み合わせることで、モデルの意思決定プロセスについてよりきめ細やかな理解を得られることを示す。
論文 参考訳(メタデータ) (2020-07-15T10:14:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。