論文の概要: APOLLO: An Optimized Training Approach for Long-form Numerical Reasoning
- arxiv url: http://arxiv.org/abs/2212.07249v3
- Date: Tue, 12 Mar 2024 13:30:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 02:37:06.915585
- Title: APOLLO: An Optimized Training Approach for Long-form Numerical Reasoning
- Title(参考訳): APOLLO: 長期数値推論のための最適化トレーニングアプローチ
- Authors: Jiashuo Sun, Hang Zhang, Chen Lin, Xiangdong Su, Yeyun Gong, Jian Guo
- Abstract要約: 我々は,長文の数値推論フレームワークを改善するためにAPOLLOを提案する。
検索者に対しては,検索者が重要な数値的事実に対してより識別しやすくするために,無認識の負のサンプリング戦略を採用する。
ジェネレータに対しては、一貫性に基づく強化学習と目標プログラム拡張戦略を設計する。
- 参考スコア(独自算出の注目度): 31.252979262232124
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-form numerical reasoning in financial analysis aims to generate a
reasoning program to calculate the correct answer for a given question.
Previous work followed a retriever-generator framework, where the retriever
selects key facts from a long-form document, and the generator generates a
reasoning program based on retrieved facts. However, they treated all facts
equally without considering the different contributions of facts with and
without numbers. Meanwhile, the program consistency were ignored under
supervised training, resulting in lower training accuracy and diversity. To
solve these problems, we proposed APOLLO to improve the long-form numerical
reasoning framework. For the retriever, we adopt a number-aware negative
sampling strategy to enable the retriever to be more discriminative on key
numerical facts. For the generator, we design consistency-based reinforcement
learning and target program augmentation strategy based on the consistency of
program execution results. Experimental results on the FinQA and ConvFinQA
leaderboard verify the effectiveness of our proposed method, achieving the new
state-of-the-art.
- Abstract(参考訳): 金融分析におけるロングフォームな数値推論は、ある質問に対する正しい答えを計算するための推論プログラムを作成することを目的としている。
以前の研究は、レトリバー-ジェネレータフレームワークに従い、レトリバーはロングフォームドキュメントからキーファクトを選択し、ジェネレータは、検索されたファクトに基づいて推論プログラムを生成する。
しかし、全ての事実を等しく扱うことは、事実と数字の異なる貢献を考慮せずに行う。
一方、プログラムの一貫性は教師付きトレーニングでは無視され、トレーニング精度と多様性が低下した。
これらの問題を解決するため、我々は長文の数値推論フレームワークを改善するためにAPOLLOを提案した。
検索者に対しては,鍵となる数値的事実に対する識別性を高めるために,数値認識型負サンプリング戦略を採用する。
生成元に対しては,プログラム実行結果の一貫性に基づいて,一貫性に基づく強化学習と目標プログラム拡張戦略を設計する。
FinQAとConvFinQAのリーダーボードによる実験結果から,提案手法の有効性を検証し,新しい最先端技術を実現する。
関連論文リスト
- PEA: Enhancing LLM Performance on Computational-Reasoning Tasks [21.13926189404758]
本研究では、計算推論問題と呼ばれる重要な推論タスクのクラスを記述し、解決するための形式的なアプローチを紹介する。
このフレームワークはこれらの問題を述語と列挙の構成要素に分解し、LLMを使って特定の述語、列挙、集約ルールに基づいてプログラムを合成する。
実験的な評価により、PEAはベンチマーク計算問題における基礎となるモデルの性能を大幅に向上し、平均精度が約50%向上し、効率が向上することがわかった。
論文 参考訳(メタデータ) (2025-02-16T00:27:05Z) - Bag of Tricks for Inference-time Computation of LLM Reasoning [10.366475014241407]
複雑度の異なる推論タスクに対して,様々な推論時間計算戦略を検証・ベンチマークする。
我々のアブレーション研究は、これまで見過ごされていた戦略が性能を大幅に向上させることができることを示している。
我々は,8つの推論タスクにまたがる6つの代表的手法を体系的に評価することにより,推論時間計算の標準ベンチマークを確立する。
論文 参考訳(メタデータ) (2025-02-11T02:31:11Z) - Automated Refactoring of Non-Idiomatic Python Code: A Differentiated Replication with LLMs [54.309127753635366]
本研究は, GPT-4の有効性について検討し, 慣用行動の推奨と示唆について検討した。
この結果から,従来は複雑なコード解析に基づくレコメンデータの実装が求められていた,LCMの課題達成の可能性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-01-28T15:41:54Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - Can We Further Elicit Reasoning in LLMs? Critic-Guided Planning with Retrieval-Augmentation for Solving Challenging Tasks [68.49251303172674]
最先端の大規模言語モデル(LLM)は、目覚ましい問題解決能力を示すが、複雑な推論と事実の正しさに苦慮する可能性がある。
既存の手法では、チェーン・オブ・ソートと検索強化生成(RAG)の強みを利用して、複雑な問題をより単純なステップに分解し、検索を適用して事実の正しさを向上させる。
CR-Planner(CR-Planner, CR-Planner, CR-Planner)は, 微調整された批判モデルを利用して, 推論と検索の両方のプロセスを計画を通してガイドする新しいフレームワークである。
論文 参考訳(メタデータ) (2024-10-02T11:26:02Z) - FIRST: Faster Improved Listwise Reranking with Single Token Decoding [56.727761901751194]
まず、第1生成識別子の出力ロジットを活用して、候補のランク付け順序を直接取得する新しいリストワイズLLMリグレードアプローチであるFIRSTを紹介する。
実験結果から、BEIRベンチマークの利得により、FIRSTはロバストなランキング性能を維持しつつ、推論を50%高速化することが示された。
以上の結果から,LLMリランカーはクロスエンコーダに比べて強い蒸留信号を提供できることが示唆された。
論文 参考訳(メタデータ) (2024-06-21T21:27:50Z) - Comprehensive Solution Program Centric Pretraining for Table-and-Text
Hybrid Numerical Reasoning [21.708394374594082]
財務報告のような表と表のハイブリッドパスに対する数値推論は、重大な課題を提起する。
解法プログラム全体の粗大な監督は、基礎となる数値推論過程を学習するモデルの能力を妨げる。
本稿では,プログラム全体とサブプログラムレベルの両方で動作する3つの事前学習タスクを提案する。
論文 参考訳(メタデータ) (2023-05-12T13:44:40Z) - Hierarchical Programmatic Reinforcement Learning via Learning to Compose
Programs [58.94569213396991]
プログラムポリシーを作成するための階層型プログラム強化学習フレームワークを提案する。
提案するフレームワークは,プログラム作成の学習を通じて,アウト・オブ・ディストリビュータの複雑な動作を記述するプログラムポリシーを作成することができる。
Karel ドメインの実験結果から,提案するフレームワークがベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2023-01-30T14:50:46Z) - NAPG: Non-Autoregressive Program Generation for Hybrid Tabular-Textual
Question Answering [52.10214317661547]
現在の数値推論法はプログラムシーケンスを自己回帰的にデコードする。
プログラム生成の精度は、デコードステップがエラー伝搬によって展開されるにつれて急激に低下する。
本稿では,非自己回帰型プログラム生成フレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-07T11:25:21Z) - A Robustly Optimized Long Text to Math Models for Numerical Reasoning On
FinQA [2.93888900363581]
FinQAチャレンジは、数値推論の研究を強化するために組織されている。
提案手法はFinQAにおいて71.93%の実行精度と67.03%のプログラム精度で1位となる。
論文 参考訳(メタデータ) (2022-06-29T12:10:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。