Fugu-MT 論文翻訳(概要): Examining the Emergence of Deductive Reasoning in Generative Language Models

論文の概要: Examining the Emergence of Deductive Reasoning in Generative Language Models

arxiv url: http://arxiv.org/abs/2306.01009v1
Date: Wed, 31 May 2023 21:29:49 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-05 18:41:18.633926
Title: Examining the Emergence of Deductive Reasoning in Generative Language Models
Title（参考訳）: 生成言語モデルにおける推論推論の創発性の検討
Authors: Peter Belcak, Luca A. Lanzend\"orfer, Roger Wattenhofer
Abstract要約: 異なるトレーニング設定から得られるモデルの性能に顕著な違いが見られ、縮退的推論能力はスケールとともに増大することがわかった。本研究は,1億7700万から1750億のパラメータを含む,多種多様なトランスフォーマーデコーダモデルについて考察する。
参考スコア（独自算出の注目度）: 8.873449722727026
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We conduct a preliminary inquiry into the ability of generative transformer models to deductively reason from premises provided. We observe notable differences in the performance of models coming from different training setups and find that the deductive reasoning ability increases with scale. Further, we discover that the performance generally does not decrease with the length of the deductive chain needed to reach the conclusion, with the exception of OpenAI GPT-3 and GPT-3.5 models. Our study considers a wide variety of transformer-decoder models, ranging from 117 million to 175 billion parameters in size.
Abstract（参考訳）: 我々は,生成変圧器モデルが前提から推論する能力について予備的考察を行う。異なるトレーニング設定から得られるモデルのパフォーマンスの顕著な違いを観察し,その推論能力がスケールとともに増加することを見出した。さらに,OpenAI GPT-3 モデルと GPT-3.5 モデルを除いて,結論に達するのに必要な導出鎖の長さで性能が低下しないことがわかった。本研究は,1億7700万から1750億のパラメータを含む,多種多様なトランスフォーマーデコーダモデルについて考察する。

関連論文リスト

Scaling Transformers for Discriminative Recommendation via Generative Pretraining [15.796591192359044]
オーバーフィット問題に対処するため,GPSD (textbfGenerative textbfPretraining for textbfScalable textbfDiscriminative Recommendation) というフレームワークを提案する。産業規模のデータセットと一般公開データセットの両方で実施された大規模な実験は、GPSDの優れた性能を示している。
論文参考訳（メタデータ） (2025-06-04T08:31:33Z)
Trainable Transformer in Transformer [48.754918968374334]
本稿では,Transformer in Transformer(略してTinT)の効率的な構築法を提案する。 TinTは多くの変圧器の変種に対応しており、その設計思想は変圧器内部の単純なモデルの過去のインスタンス化の効率も改善している。これらの結果から,大規模事前学習言語モデルでは複雑な推論が可能であることが示唆された。
論文参考訳（メタデータ） (2023-07-03T17:53:39Z)
A Comprehensive Capability Analysis of GPT-3 and GPT-3.5 Series Models [71.42197262495056]
GPTシリーズモデルは、その例外的な自然言語処理能力により、かなりの注目を集めている。 2つのGPT-3系列モデルと4つのGPT-3.5系列モデルからなる6つの代表モデルを選択する。 21個のデータセットを用いて,9つの自然言語理解タスク(NLU)の性能評価を行った。実験の結果,NLUタスクにおけるGPTシリーズモデルの全体的な能力は,モデルが進化するにつれて徐々に向上しないことがわかった。
論文参考訳（メタデータ） (2023-03-18T14:02:04Z)
Multi-Aspect Explainable Inductive Relation Prediction by Sentence Transformer [60.75757851637566]
本稿では,モデル学習に先立って信頼できない経路をフィルタリングし,モデル性能を高めるための関係経路カバレッジと関係経路信頼の概念を紹介する。知識グラフにおける帰納関係を予測するために,知識推論文変換器(KRST)を提案する。
論文参考訳（メタデータ） (2023-01-04T15:33:49Z)
Emergent Analogical Reasoning in Large Language Models [1.5469452301122177]
GPT-3は、多くの設定において、抽象的なパターン誘導、マッチング、さらには人間の能力を超える、驚くほど強力な能力を持っていることを示す。以上の結果から, GPT-3のような大規模言語モデルでは, 幅広い類似問題に対するゼロショット解を求める能力が得られている。
論文参考訳（メタデータ） (2022-12-19T00:04:56Z)
Leveraging Pre-trained Models for Failure Analysis Triplets Generation [0.0]
我々は、故障解析トリプレット(FAT)を生成する下流タスクにおいて、トランスフォーマーモデルのような事前訓練された因果言語モデルの注意機構を活用する。生成事前学習型変換器2(GPT2)は、故障解析三重項生成(FATG)タスクにおいて、他の変換器モデルよりも優れていた。特に, GPT2(1.5Bパラメータで学習)は, ROUGEにおいて, トレーニング済みBERT, BART, GPT3よりも高い性能を示した。
論文参考訳（メタデータ） (2022-10-31T17:21:15Z)
MoEfication: Conditional Computation of Transformer Models for Efficient Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文参考訳（メタデータ） (2021-10-05T02:14:38Z)
Scale Efficiently: Insights from Pre-training and Fine-tuning Transformers [57.931830650323]
本稿では,事前学習および微調整型変圧器によるスケーリングの洞察について述べる。モデルのサイズだけでなく、モデル形状が下流の微調整に重要であることを示す。再設計したモデルにより、下流の微調整品質が向上する。
論文参考訳（メタデータ） (2021-09-22T12:29:15Z)
Multi-Unit Transformers for Neural Machine Translation [51.418245676894465]
マルチユニット変換器 (MUTE) を提案し, 変換器の表現性を向上する。具体的には、複数の並列ユニットを使用し、複数のユニットによるモデリングがモデル性能を改善し、多様性を導入することを示す。
論文参考訳（メタデータ） (2020-10-21T03:41:49Z)
Learning Invariances for Interpretability using Supervised VAE [0.0]
我々はモデルを解釈する手段としてモデル不変性を学習する。可変オートエンコーダ(VAE)の教師型形式を提案する。我々は、我々のモデルと特徴属性の手法を組み合わせることで、モデルの意思決定プロセスについてよりきめ細やかな理解を得られることを示す。
論文参考訳（メタデータ） (2020-07-15T10:14:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。