Fugu-MT 論文翻訳(概要): Reasoning Like Program Executors

論文の概要: Reasoning Like Program Executors

arxiv url: http://arxiv.org/abs/2201.11473v1
Date: Thu, 27 Jan 2022 12:28:24 GMT
ステータス: 翻訳完了
システム内更新日: 2022-01-28 13:33:21.821976
Title: Reasoning Like Program Executors
Title（参考訳）: プログラム実行者のような推論
Authors: Xinyu Pi, Qian Liu, Bei Chen, Morteza Ziyadi, Zeqi Lin, Yan Gao, Qiang Fu, Jian-Guang Lou, Weizhu Chen
Abstract要約: POETは言語モデルにデータ駆動アプローチを通じてプログラム実行者にある推論知識を抽出する権限を与える。 PoETは自然言語推論におけるモデルパフォーマンスを大幅に向上させることができる。 PoETは推論の事前トレーニングに新たなゲートを開く。
参考スコア（独自算出の注目度）: 48.819113224699976
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Reasoning over natural language is a long-standing goal for the research community. However, studies have shown that existing language models are inadequate in reasoning. To address the issue, we present POET, a new pre-training paradigm. Through pre-training language models with programs and their execution results, POET empowers language models to harvest the reasoning knowledge possessed in program executors via a data-driven approach. POET is conceptually simple and can be instantiated by different kinds of programs. In this paper, we show three empirically powerful instances, i.e., POET-Math, POET-Logic, and POET-SQL. Experimental results on six benchmarks demonstrate that POET can significantly boost model performance on natural language reasoning, such as numerical reasoning, logical reasoning, and multi-hop reasoning. Taking the DROP benchmark as a representative example, POET improves the F1 metric of BART from 69.2% to 80.6%. Furthermore, POET shines in giant language models, pushing the F1 metric of T5-11B to 87.6% and achieving a new state-of-the-art performance on DROP. POET opens a new gate on reasoning-enhancement pre-training and we hope our analysis would shed light on the future research of reasoning like program executors.
Abstract（参考訳）: 自然言語に対する推論は、研究コミュニティにとって長年の目標です。しかし、既存の言語モデルは推論に不十分であることが研究で示されている。この問題に対処するため,新しい事前学習パラダイムであるPOETを提案する。プログラムによる言語モデルの事前学習と実行結果を通じて、POETはプログラム実行者が持つ推論知識をデータ駆動アプローチで獲得する言語モデルに権限を与える。 POETは概念的にはシンプルで、様々な種類のプログラムでインスタンス化できる。本稿では,POET-Math,POET-Logic,POET-SQLの3つの実例を示す。 6つのベンチマークによる実験結果から,数値推論や論理推論,マルチホップ推論など,自然言語推論におけるモデルパフォーマンスが大幅に向上することが示された。 DROPベンチマークを代表例として、POETはBARTのF1メトリックを69.2%から80.6%に改善した。さらに、POETは巨大な言語モデルで輝き、T5-11BのF1メートル法を87.6%に押し上げ、DROPで新しい最先端のパフォーマンスを達成する。 POETは推論の事前訓練に関する新たな門を開き、我々の分析がプログラム実行者のような推論に関する将来の研究に光を当ててくれることを期待しています。

関連論文リスト

EquiBench: Benchmarking Code Reasoning Capabilities of Large Language Models via Equivalence Checking [54.354203142828084]
本稿では,大規模言語モデルのコード推論能力を評価する新しい手法として等価チェックの課題を提案する。 EquiBenchは、4つのプログラミング言語と6つの等価カテゴリにまたがる2400のプログラムペアのデータセットである。その結果,OpenAI o3-miniの精度は78.0%と高いことがわかった。
論文参考訳（メタデータ） (2025-02-18T02:54:25Z)
Inductive Linguistic Reasoning with Large Language Models [0.0]
言語パズルのレンズを通して抽象多言語推論を行うための大規模言語モデルの能力について検討する。 2段階のプロシージャを使用し、まず言語モデルで類似の例を生成し、それを文脈内で適用する。 ModeLing データセットの結果から,言語文法の類似性に関するモデルの知識を抽出する上で,類似的なプロンプトが有効であることが示唆された。
論文参考訳（メタデータ） (2024-12-09T03:37:11Z)
Which Programming Language and What Features at Pre-training Stage Affect Downstream Logical Inference Performance? [26.91104188917787]
大規模言語モデル(LLM)は、数学や論理的推論タスクにおいて顕著な一般化能力を示している。本研究の目的は,事前学習中の言語と特徴が論理推論性能にどのような影響を及ぼすかを検証することである。
論文参考訳（メタデータ） (2024-10-09T10:13:13Z)
Proceedings of the First International Workshop on Next-Generation Language Models for Knowledge Representation and Reasoning (NeLaMKRR 2024) [16.282850445579857]
推論は人間の知性の本質的な要素であり、批判的に考える能力において基本的な役割を果たす。自然言語処理における最近の進歩は、トランスフォーマーに基づく言語モデルの出現とともに、これらのモデルが推論能力を示す可能性を示唆している。言語モデルにおける推論について議論が続いているが、これらのモデルが実際に推論できる程度に注目することは容易ではない。
論文参考訳（メタデータ） (2024-10-07T02:31:47Z)
CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。 LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文参考訳（メタデータ） (2023-11-29T08:29:54Z)
Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文参考訳（メタデータ） (2023-07-16T15:18:25Z)
On the Reliability and Explainability of Language Models for Program Generation [15.569926313298337]
自動プログラム生成手法の能力と限界について検討する。私たちは、コード変換に大きく貢献するトークンを強調するために、高度な説明可能なAIアプローチを採用しています。解析の結果,言語モデルではコード文法や構造情報を認識できるが,入力シーケンスの変化に対するロバスト性は限られていることがわかった。
論文参考訳（メタデータ） (2023-02-19T14:59:52Z)
Making Large Language Models Better Reasoners with Step-Aware Verifier [49.16750018427259]
DIVERSE(Diverse Verifier on Reasoning Step)は、言語モデルの推論能力をさらに強化する新しいアプローチである。最新の言語モデルであるcode-davinci 上で DIVERSE を評価し,8つの推論ベンチマークのうち6つで新たな最先端結果が得られることを示す。
論文参考訳（メタデータ） (2022-06-06T03:38:36Z)
PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文参考訳（メタデータ） (2022-04-05T16:11:45Z)
ANNA: Enhanced Language Representation for Question Answering [5.713808202873983]
事前学習モデルでは,各アプローチが個別にパフォーマンスにどう影響するかを示し,そのアプローチが共同で検討されている。本稿では,事前学習タスクの拡張と,近隣のトークンにもっと参加して,事前学習言語モデリングのコンテキストの豊かさを把握できる新しい近隣認識機構を提案する。我々の最良のモデルは、SQuAD 1.1上で95.7% F1と90.6% EMの新たな最先端結果を実現し、RoBERTa、ALBERT、ELECTRA、XLNetといった既存のトレーニング済み言語モデルよりも優れている。
論文参考訳（メタデータ） (2022-03-28T05:26:52Z)
Enforcing Consistency in Weakly Supervised Semantic Parsing [68.2211621631765]
本稿では,関連する入力に対する出力プログラム間の整合性を利用して,スプリアスプログラムの影響を低減することを提案する。より一貫性のあるフォーマリズムは、一貫性に基づくトレーニングを必要とせずに、モデルパフォーマンスを改善することにつながります。
論文参考訳（メタデータ） (2021-07-13T03:48:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。