論文の概要: APOLLO: An Optimized Training Approach for Long-form Numerical Reasoning
- arxiv url: http://arxiv.org/abs/2212.07249v1
- Date: Wed, 14 Dec 2022 14:34:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 14:18:11.335780
- Title: APOLLO: An Optimized Training Approach for Long-form Numerical Reasoning
- Title(参考訳): APOLLO: 長期数値推論のための最適化トレーニングアプローチ
- Authors: Jiashuo Sun, Hang Zhang, Chen Lin, Yeyun Gong, Jian Guo, Nan Duan
- Abstract要約: 我々は,長文の数値推論フレームワークを改善するためにAPOLLOを提案する。
検索者に対しては,検索者が重要な数値的事実に対してより識別しやすくするために,無認識の負のサンプリング戦略を採用する。
ジェネレータに対しては、一貫性に基づく強化学習と目標プログラム拡張戦略を設計する。
- 参考スコア(独自算出の注目度): 49.8599460684995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-form numerical reasoning in financial analysis aims to generate a
reasoning program to calculate the correct answer for a given question.
Previous work followed a retriever-generator framework, where the retriever
selects key facts from a long-form document, and the generator generates a
reasoning program based on retrieved facts. However, they treated all facts
equally without considering the different contributions of facts with and
without numbers. Meanwhile, the program consistency were ignored under
supervised training, resulting in lower training accuracy and diversity. To
solve these problems, we proposed APOLLO to improve the long-form numerical
reasoning framework. For the retriever, we adopt a number-aware negative
sampling strategy to enable the retriever to be more discriminative on key
numerical facts. For the generator, we design consistency-based reinforcement
learning and target program augmentation strategy based on the consistency of
program execution results. Experimental results on the FinQA and ConvFinQA
leaderboard verify the effectiveness of our proposed method, achieving the new
state-of-the-art.
- Abstract(参考訳): 金融分析におけるロングフォームな数値推論は、ある質問に対する正しい答えを計算するための推論プログラムを作成することを目的としている。
以前の研究は、レトリバー-ジェネレータフレームワークに従い、レトリバーはロングフォームドキュメントからキーファクトを選択し、ジェネレータは、検索されたファクトに基づいて推論プログラムを生成する。
しかし、全ての事実を等しく扱うことは、事実と数字の異なる貢献を考慮せずに行う。
一方、プログラムの一貫性は教師付きトレーニングでは無視され、トレーニング精度と多様性が低下した。
これらの問題を解決するため、我々は長文の数値推論フレームワークを改善するためにAPOLLOを提案した。
検索者に対しては,鍵となる数値的事実に対する識別性を高めるために,数値認識型負サンプリング戦略を採用する。
生成元に対しては,プログラム実行結果の一貫性に基づいて,一貫性に基づく強化学習と目標プログラム拡張戦略を設計する。
FinQAとConvFinQAのリーダーボードによる実験結果から,提案手法の有効性を検証し,新しい最先端技術を実現する。
関連論文リスト
- Learning Planning-based Reasoning by Trajectories Collection and Process
Reward Synthesizing [66.50096740792928]
収集された軌道上での直接選好最適化(DPO)を通して計画に基づく推論を学習するフレームワークを提案する。
論理的推論ベンチマークの挑戦的な結果から,学習フレームワークの有効性が示された。
論文 参考訳(メタデータ) (2024-02-01T15:18:33Z) - Zero-Shot Question Answering over Financial Documents using Large
Language Models [0.18749305679160366]
我々は,財務報告に対するマルチホップ数値推論を必要とする複雑な問題に答えるために,大規模言語モデル(LLM)に基づくアプローチを導入する。
LLMを誘導する新しいゼロショットプロンプトを使用して、必要な推論をPythonプログラムやドメイン固有言語にエンコードします。
論文 参考訳(メタデータ) (2023-11-19T16:23:34Z) - Let's Reinforce Step by Step [10.65244642965387]
人間のフィードバックからの強化学習をモデル推論の形式化に活用する。
以上の結果から, PRM法により得られる微粒な報酬は, 単純な数学的推論の精度を高めることが示唆された。
また、モデル性能において、報酬アグリゲーション関数が果たす重要な役割を示す。
論文 参考訳(メタデータ) (2023-11-10T01:35:51Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - Comprehensive Solution Program Centric Pretraining for Table-and-Text
Hybrid Numerical Reasoning [21.708394374594082]
財務報告のような表と表のハイブリッドパスに対する数値推論は、重大な課題を提起する。
解法プログラム全体の粗大な監督は、基礎となる数値推論過程を学習するモデルの能力を妨げる。
本稿では,プログラム全体とサブプログラムレベルの両方で動作する3つの事前学習タスクを提案する。
論文 参考訳(メタデータ) (2023-05-12T13:44:40Z) - Hierarchical Programmatic Reinforcement Learning via Learning to Compose
Programs [58.94569213396991]
プログラムポリシーを作成するための階層型プログラム強化学習フレームワークを提案する。
提案するフレームワークは,プログラム作成の学習を通じて,アウト・オブ・ディストリビュータの複雑な動作を記述するプログラムポリシーを作成することができる。
Karel ドメインの実験結果から,提案するフレームワークがベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2023-01-30T14:50:46Z) - NAPG: Non-Autoregressive Program Generation for Hybrid Tabular-Textual
Question Answering [52.10214317661547]
現在の数値推論法はプログラムシーケンスを自己回帰的にデコードする。
プログラム生成の精度は、デコードステップがエラー伝搬によって展開されるにつれて急激に低下する。
本稿では,非自己回帰型プログラム生成フレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-07T11:25:21Z) - CodeRL: Mastering Code Generation through Pretrained Models and Deep
Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。
推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。
モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文 参考訳(メタデータ) (2022-07-05T02:42:15Z) - A Robustly Optimized Long Text to Math Models for Numerical Reasoning On
FinQA [2.93888900363581]
FinQAチャレンジは、数値推論の研究を強化するために組織されている。
提案手法はFinQAにおいて71.93%の実行精度と67.03%のプログラム精度で1位となる。
論文 参考訳(メタデータ) (2022-06-29T12:10:18Z) - Enforcing Consistency in Weakly Supervised Semantic Parsing [68.2211621631765]
本稿では,関連する入力に対する出力プログラム間の整合性を利用して,スプリアスプログラムの影響を低減することを提案する。
より一貫性のあるフォーマリズムは、一貫性に基づくトレーニングを必要とせずに、モデルパフォーマンスを改善することにつながります。
論文 参考訳(メタデータ) (2021-07-13T03:48:04Z) - Ordering-Based Causal Discovery with Reinforcement Learning [31.358145789333825]
本論文では, RL を順序付けに基づくパラダイムに組み込むことにより, RL に基づく因果的発見手法を提案する。
提案手法の一貫性と計算複雑性を分析し,事前学習モデルを用いて学習を高速化できることを実証的に示す。
論文 参考訳(メタデータ) (2021-05-14T03:49:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。