論文の概要: APOLLO: An Optimized Training Approach for Long-form Numerical Reasoning
- arxiv url: http://arxiv.org/abs/2212.07249v1
- Date: Wed, 14 Dec 2022 14:34:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 14:18:11.335780
- Title: APOLLO: An Optimized Training Approach for Long-form Numerical Reasoning
- Title(参考訳): APOLLO: 長期数値推論のための最適化トレーニングアプローチ
- Authors: Jiashuo Sun, Hang Zhang, Chen Lin, Yeyun Gong, Jian Guo, Nan Duan
- Abstract要約: 我々は,長文の数値推論フレームワークを改善するためにAPOLLOを提案する。
検索者に対しては,検索者が重要な数値的事実に対してより識別しやすくするために,無認識の負のサンプリング戦略を採用する。
ジェネレータに対しては、一貫性に基づく強化学習と目標プログラム拡張戦略を設計する。
- 参考スコア(独自算出の注目度): 49.8599460684995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-form numerical reasoning in financial analysis aims to generate a
reasoning program to calculate the correct answer for a given question.
Previous work followed a retriever-generator framework, where the retriever
selects key facts from a long-form document, and the generator generates a
reasoning program based on retrieved facts. However, they treated all facts
equally without considering the different contributions of facts with and
without numbers. Meanwhile, the program consistency were ignored under
supervised training, resulting in lower training accuracy and diversity. To
solve these problems, we proposed APOLLO to improve the long-form numerical
reasoning framework. For the retriever, we adopt a number-aware negative
sampling strategy to enable the retriever to be more discriminative on key
numerical facts. For the generator, we design consistency-based reinforcement
learning and target program augmentation strategy based on the consistency of
program execution results. Experimental results on the FinQA and ConvFinQA
leaderboard verify the effectiveness of our proposed method, achieving the new
state-of-the-art.
- Abstract(参考訳): 金融分析におけるロングフォームな数値推論は、ある質問に対する正しい答えを計算するための推論プログラムを作成することを目的としている。
以前の研究は、レトリバー-ジェネレータフレームワークに従い、レトリバーはロングフォームドキュメントからキーファクトを選択し、ジェネレータは、検索されたファクトに基づいて推論プログラムを生成する。
しかし、全ての事実を等しく扱うことは、事実と数字の異なる貢献を考慮せずに行う。
一方、プログラムの一貫性は教師付きトレーニングでは無視され、トレーニング精度と多様性が低下した。
これらの問題を解決するため、我々は長文の数値推論フレームワークを改善するためにAPOLLOを提案した。
検索者に対しては,鍵となる数値的事実に対する識別性を高めるために,数値認識型負サンプリング戦略を採用する。
生成元に対しては,プログラム実行結果の一貫性に基づいて,一貫性に基づく強化学習と目標プログラム拡張戦略を設計する。
FinQAとConvFinQAのリーダーボードによる実験結果から,提案手法の有効性を検証し,新しい最先端技術を実現する。
関連論文リスト
- Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [50.485788083202124]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。
反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。
GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文 参考訳(メタデータ) (2024-10-11T23:29:20Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - Can We Further Elicit Reasoning in LLMs? Critic-Guided Planning with Retrieval-Augmentation for Solving Challenging Tasks [68.49251303172674]
最先端の大規模言語モデル(LLM)は、目覚ましい問題解決能力を示すが、複雑な推論と事実の正しさに苦慮する可能性がある。
既存の手法では、チェーン・オブ・ソートと検索強化生成(RAG)の強みを利用して、複雑な問題をより単純なステップに分解し、検索を適用して事実の正しさを向上させる。
CR-Planner(CR-Planner, CR-Planner, CR-Planner)は, 微調整された批判モデルを利用して, 推論と検索の両方のプロセスを計画を通してガイドする新しいフレームワークである。
論文 参考訳(メタデータ) (2024-10-02T11:26:02Z) - Zero-Shot Question Answering over Financial Documents using Large
Language Models [0.18749305679160366]
我々は,財務報告に対するマルチホップ数値推論を必要とする複雑な問題に答えるために,大規模言語モデル(LLM)に基づくアプローチを導入する。
LLMを誘導する新しいゼロショットプロンプトを使用して、必要な推論をPythonプログラムやドメイン固有言語にエンコードします。
論文 参考訳(メタデータ) (2023-11-19T16:23:34Z) - Comprehensive Solution Program Centric Pretraining for Table-and-Text
Hybrid Numerical Reasoning [21.708394374594082]
財務報告のような表と表のハイブリッドパスに対する数値推論は、重大な課題を提起する。
解法プログラム全体の粗大な監督は、基礎となる数値推論過程を学習するモデルの能力を妨げる。
本稿では,プログラム全体とサブプログラムレベルの両方で動作する3つの事前学習タスクを提案する。
論文 参考訳(メタデータ) (2023-05-12T13:44:40Z) - Hierarchical Programmatic Reinforcement Learning via Learning to Compose
Programs [58.94569213396991]
プログラムポリシーを作成するための階層型プログラム強化学習フレームワークを提案する。
提案するフレームワークは,プログラム作成の学習を通じて,アウト・オブ・ディストリビュータの複雑な動作を記述するプログラムポリシーを作成することができる。
Karel ドメインの実験結果から,提案するフレームワークがベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2023-01-30T14:50:46Z) - NAPG: Non-Autoregressive Program Generation for Hybrid Tabular-Textual
Question Answering [52.10214317661547]
現在の数値推論法はプログラムシーケンスを自己回帰的にデコードする。
プログラム生成の精度は、デコードステップがエラー伝搬によって展開されるにつれて急激に低下する。
本稿では,非自己回帰型プログラム生成フレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-07T11:25:21Z) - A Robustly Optimized Long Text to Math Models for Numerical Reasoning On
FinQA [2.93888900363581]
FinQAチャレンジは、数値推論の研究を強化するために組織されている。
提案手法はFinQAにおいて71.93%の実行精度と67.03%のプログラム精度で1位となる。
論文 参考訳(メタデータ) (2022-06-29T12:10:18Z) - Enforcing Consistency in Weakly Supervised Semantic Parsing [68.2211621631765]
本稿では,関連する入力に対する出力プログラム間の整合性を利用して,スプリアスプログラムの影響を低減することを提案する。
より一貫性のあるフォーマリズムは、一貫性に基づくトレーニングを必要とせずに、モデルパフォーマンスを改善することにつながります。
論文 参考訳(メタデータ) (2021-07-13T03:48:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。