論文の概要: Reasoning Like Program Executors
- arxiv url: http://arxiv.org/abs/2201.11473v1
- Date: Thu, 27 Jan 2022 12:28:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-28 13:33:21.821976
- Title: Reasoning Like Program Executors
- Title(参考訳): プログラム実行者のような推論
- Authors: Xinyu Pi, Qian Liu, Bei Chen, Morteza Ziyadi, Zeqi Lin, Yan Gao, Qiang
Fu, Jian-Guang Lou, Weizhu Chen
- Abstract要約: POETは言語モデルにデータ駆動アプローチを通じてプログラム実行者にある推論知識を抽出する権限を与える。
PoETは自然言語推論におけるモデルパフォーマンスを大幅に向上させることができる。
PoETは推論の事前トレーニングに新たなゲートを開く。
- 参考スコア(独自算出の注目度): 48.819113224699976
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reasoning over natural language is a long-standing goal for the research
community. However, studies have shown that existing language models are
inadequate in reasoning. To address the issue, we present POET, a new
pre-training paradigm. Through pre-training language models with programs and
their execution results, POET empowers language models to harvest the reasoning
knowledge possessed in program executors via a data-driven approach. POET is
conceptually simple and can be instantiated by different kinds of programs. In
this paper, we show three empirically powerful instances, i.e., POET-Math,
POET-Logic, and POET-SQL. Experimental results on six benchmarks demonstrate
that POET can significantly boost model performance on natural language
reasoning, such as numerical reasoning, logical reasoning, and multi-hop
reasoning. Taking the DROP benchmark as a representative example, POET improves
the F1 metric of BART from 69.2% to 80.6%. Furthermore, POET shines in giant
language models, pushing the F1 metric of T5-11B to 87.6% and achieving a new
state-of-the-art performance on DROP. POET opens a new gate on
reasoning-enhancement pre-training and we hope our analysis would shed light on
the future research of reasoning like program executors.
- Abstract(参考訳): 自然言語に対する推論は、研究コミュニティにとって長年の目標です。
しかし、既存の言語モデルは推論に不十分であることが研究で示されている。
この問題に対処するため,新しい事前学習パラダイムであるPOETを提案する。
プログラムによる言語モデルの事前学習と実行結果を通じて、POETはプログラム実行者が持つ推論知識をデータ駆動アプローチで獲得する言語モデルに権限を与える。
POETは概念的にはシンプルで、様々な種類のプログラムでインスタンス化できる。
本稿では,POET-Math,POET-Logic,POET-SQLの3つの実例を示す。
6つのベンチマークによる実験結果から,数値推論や論理推論,マルチホップ推論など,自然言語推論におけるモデルパフォーマンスが大幅に向上することが示された。
DROPベンチマークを代表例として、POETはBARTのF1メトリックを69.2%から80.6%に改善した。
さらに、POETは巨大な言語モデルで輝き、T5-11BのF1メートル法を87.6%に押し上げ、DROPで新しい最先端のパフォーマンスを達成する。
POETは推論の事前訓練に関する新たな門を開き、我々の分析がプログラム実行者のような推論に関する将来の研究に光を当ててくれることを期待しています。
関連論文リスト
- CLOMO: Counterfactual Logical Modification with Large Language Models [113.72984199026094]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
生成モデルのカウンターファクトの能力を効果的に評価するために,革新的な評価指標であるLogicAware Counterfactual Scoreを提案する。
分析の結果,提案手法は人間の好みとよく一致していることがわかった。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical
Reasoning Capabilities of Language Models [58.76688462256284]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
一つのタスクトレーニング,複数タスクトレーニング,および思考知識の蒸留微調整手法の連鎖について検討し,異なる論理的推論カテゴリにおけるモデルの性能を評価する。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - Automatic Model Selection with Large Language Models for Reasoning [33.93807127935167]
Chain-of-Thought (CoT) と Program-Aided Language Models (PAL) は2つの異なる推論方法を表す。
本稿では,大言語モデルを用いて両世界の長所を結合するモデル選択手法を提案する。
提案手法は,8つの推論データセット間で有意な性能向上を示す。
論文 参考訳(メタデータ) (2023-05-23T17:57:59Z) - On the Reliability and Explainability of Language Models for Program
Generation [15.569926313298337]
自動プログラム生成手法の能力と限界について検討する。
私たちは、コード変換に大きく貢献するトークンを強調するために、高度な説明可能なAIアプローチを採用しています。
解析の結果,言語モデルではコード文法や構造情報を認識できるが,入力シーケンスの変化に対するロバスト性は限られていることがわかった。
論文 参考訳(メタデータ) (2023-02-19T14:59:52Z) - Making Large Language Models Better Reasoners with Step-Aware Verifier [49.16750018427259]
DIVERSE(Diverse Verifier on Reasoning Step)は、言語モデルの推論能力をさらに強化する新しいアプローチである。
最新の言語モデルであるcode-davinci 上で DIVERSE を評価し,8つの推論ベンチマークのうち6つで新たな最先端結果が得られることを示す。
論文 参考訳(メタデータ) (2022-06-06T03:38:36Z) - PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。
我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。
数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文 参考訳(メタデータ) (2022-04-05T16:11:45Z) - ANNA: Enhanced Language Representation for Question Answering [5.713808202873983]
事前学習モデルでは,各アプローチが個別にパフォーマンスにどう影響するかを示し,そのアプローチが共同で検討されている。
本稿では,事前学習タスクの拡張と,近隣のトークンにもっと参加して,事前学習言語モデリングのコンテキストの豊かさを把握できる新しい近隣認識機構を提案する。
我々の最良のモデルは、SQuAD 1.1上で95.7% F1と90.6% EMの新たな最先端結果を実現し、RoBERTa、ALBERT、ELECTRA、XLNetといった既存のトレーニング済み言語モデルよりも優れている。
論文 参考訳(メタデータ) (2022-03-28T05:26:52Z) - An Application of Pseudo-Log-Likelihoods to Natural Language Scoring [5.382454613390483]
比較的少ないパラメータとトレーニングステップを持つ言語モデルは、最近の大規模なデータセットでそれを上回るパフォーマンスを得ることができる。
二項選択タスクにおける常識推論のための絶対的最先端結果を生成する。
より小さなモデルの堅牢性は、構成性の観点から理解されるべきである。
論文 参考訳(メタデータ) (2022-01-23T22:00:54Z) - Enforcing Consistency in Weakly Supervised Semantic Parsing [68.2211621631765]
本稿では,関連する入力に対する出力プログラム間の整合性を利用して,スプリアスプログラムの影響を低減することを提案する。
より一貫性のあるフォーマリズムは、一貫性に基づくトレーニングを必要とせずに、モデルパフォーマンスを改善することにつながります。
論文 参考訳(メタデータ) (2021-07-13T03:48:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。