Fugu-MT 論文翻訳(概要): APOLLO: An Optimized Training Approach for Long-form Numerical Reasoning

論文の概要: APOLLO: An Optimized Training Approach for Long-form Numerical Reasoning

arxiv url: http://arxiv.org/abs/2212.07249v3
Date: Tue, 12 Mar 2024 13:30:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-14 02:37:06.915585
Title: APOLLO: An Optimized Training Approach for Long-form Numerical Reasoning
Title（参考訳）: APOLLO: 長期数値推論のための最適化トレーニングアプローチ
Authors: Jiashuo Sun, Hang Zhang, Chen Lin, Xiangdong Su, Yeyun Gong, Jian Guo
Abstract要約: 我々は,長文の数値推論フレームワークを改善するためにAPOLLOを提案する。検索者に対しては,検索者が重要な数値的事実に対してより識別しやすくするために,無認識の負のサンプリング戦略を採用する。ジェネレータに対しては、一貫性に基づく強化学習と目標プログラム拡張戦略を設計する。
参考スコア（独自算出の注目度）: 31.252979262232124
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Long-form numerical reasoning in financial analysis aims to generate a reasoning program to calculate the correct answer for a given question. Previous work followed a retriever-generator framework, where the retriever selects key facts from a long-form document, and the generator generates a reasoning program based on retrieved facts. However, they treated all facts equally without considering the different contributions of facts with and without numbers. Meanwhile, the program consistency were ignored under supervised training, resulting in lower training accuracy and diversity. To solve these problems, we proposed APOLLO to improve the long-form numerical reasoning framework. For the retriever, we adopt a number-aware negative sampling strategy to enable the retriever to be more discriminative on key numerical facts. For the generator, we design consistency-based reinforcement learning and target program augmentation strategy based on the consistency of program execution results. Experimental results on the FinQA and ConvFinQA leaderboard verify the effectiveness of our proposed method, achieving the new state-of-the-art.
Abstract（参考訳）: 金融分析におけるロングフォームな数値推論は、ある質問に対する正しい答えを計算するための推論プログラムを作成することを目的としている。以前の研究は、レトリバー-ジェネレータフレームワークに従い、レトリバーはロングフォームドキュメントからキーファクトを選択し、ジェネレータは、検索されたファクトに基づいて推論プログラムを生成する。しかし、全ての事実を等しく扱うことは、事実と数字の異なる貢献を考慮せずに行う。一方、プログラムの一貫性は教師付きトレーニングでは無視され、トレーニング精度と多様性が低下した。これらの問題を解決するため、我々は長文の数値推論フレームワークを改善するためにAPOLLOを提案した。検索者に対しては,鍵となる数値的事実に対する識別性を高めるために,数値認識型負サンプリング戦略を採用する。生成元に対しては,プログラム実行結果の一貫性に基づいて,一貫性に基づく強化学習と目標プログラム拡張戦略を設計する。 FinQAとConvFinQAのリーダーボードによる実験結果から,提案手法の有効性を検証し,新しい最先端技術を実現する。

関連論文リスト

Counting Answer Sets of Disjunctive Answer Set Programs [28.739355096774155]
本稿では,解法論理プログラムの解集合をカウントする新しいフレームワークSharpASP-SRを提案する。 SharpASP-SRは, 応答数が大きいインスタンスにおいて, 既存のカウンタを著しく上回っていることを示す。
論文参考訳（メタデータ） (2025-07-15T18:41:19Z)
Reinforced Informativeness Optimization for Long-Form Retrieval-Augmented Generation [77.10390725623125]
LFQA(Long-form Question answering)は、大規模言語モデルに固有の課題を提示する。 RioRAGは、強化情報性最適化を通じて長めのRAGを進化させる新しい強化学習フレームワークである。
論文参考訳（メタデータ） (2025-05-27T07:34:41Z)
TACO: Think-Answer Consistency for Optimized Long-Chain Reasoning and Efficient Data Learning via Reinforcement Learning in LVLMs [50.820065021136024]
DeepSeek R1には、大規模言語モデル(LLM)のためのかなり高度な複雑な推論がある。最近の手法は、R1の推論能力をマルチモーダルな設定で再現しようと試みている。視覚推論のための新しい強化学習アルゴリズムTACOを提案する。
論文参考訳（メタデータ） (2025-05-27T06:30:48Z)
Scalable Best-of-N Selection for Large Language Models via Self-Certainty [65.31658824274894]
Best-of-N選択は、大規模言語モデルの推論性能を改善するための重要なテクニックである。本稿では,外部報酬モデルを必要とすることなく,応答品質を推定する新規かつ効率的な指標である自己確実性を提案する。本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文参考訳（メタデータ） (2025-02-25T19:08:07Z)
PEA: Enhancing LLM Performance on Computational-Reasoning Tasks [21.13926189404758]
本研究では、計算推論問題と呼ばれる重要な推論タスクのクラスを記述し、解決するための形式的なアプローチを紹介する。このフレームワークはこれらの問題を述語と列挙の構成要素に分解し、LLMを使って特定の述語、列挙、集約ルールに基づいてプログラムを合成する。実験的な評価により、PEAはベンチマーク計算問題における基礎となるモデルの性能を大幅に向上し、平均精度が約50%向上し、効率が向上することがわかった。
論文参考訳（メタデータ） (2025-02-16T00:27:05Z)
Bag of Tricks for Inference-time Computation of LLM Reasoning [10.366475014241407]
複雑度の異なる推論タスクに対して,様々な推論時間計算戦略を検証・ベンチマークする。我々のアブレーション研究は、これまで見過ごされていた戦略が性能を大幅に向上させることができることを示している。我々は,8つの推論タスクにまたがる6つの代表的手法を体系的に評価することにより,推論時間計算の標準ベンチマークを確立する。
論文参考訳（メタデータ） (2025-02-11T02:31:11Z)
Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [50.485788083202124]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。 GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文参考訳（メタデータ） (2024-10-11T23:29:20Z)
Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。 LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文参考訳（メタデータ） (2024-10-05T05:21:48Z)
Can We Further Elicit Reasoning in LLMs? Critic-Guided Planning with Retrieval-Augmentation for Solving Challenging Tasks [68.49251303172674]
最先端の大規模言語モデル(LLM)は、目覚ましい問題解決能力を示すが、複雑な推論と事実の正しさに苦慮する可能性がある。既存の手法では、チェーン・オブ・ソートと検索強化生成(RAG)の強みを利用して、複雑な問題をより単純なステップに分解し、検索を適用して事実の正しさを向上させる。 CR-Planner(CR-Planner, CR-Planner, CR-Planner)は, 微調整された批判モデルを利用して, 推論と検索の両方のプロセスを計画を通してガイドする新しいフレームワークである。
論文参考訳（メタデータ） (2024-10-02T11:26:02Z)
FIRST: Faster Improved Listwise Reranking with Single Token Decoding [56.727761901751194]
まず、第1生成識別子の出力ロジットを活用して、候補のランク付け順序を直接取得する新しいリストワイズLLMリグレードアプローチであるFIRSTを紹介する。実験結果から、BEIRベンチマークの利得により、FIRSTはロバストなランキング性能を維持しつつ、推論を50%高速化することが示された。以上の結果から,LLMリランカーはクロスエンコーダに比べて強い蒸留信号を提供できることが示唆された。
論文参考訳（メタデータ） (2024-06-21T21:27:50Z)
Zero-Shot Question Answering over Financial Documents using Large Language Models [0.18749305679160366]
我々は,財務報告に対するマルチホップ数値推論を必要とする複雑な問題に答えるために,大規模言語モデル(LLM)に基づくアプローチを導入する。 LLMを誘導する新しいゼロショットプロンプトを使用して、必要な推論をPythonプログラムやドメイン固有言語にエンコードします。
論文参考訳（メタデータ） (2023-11-19T16:23:34Z)
Comprehensive Solution Program Centric Pretraining for Table-and-Text Hybrid Numerical Reasoning [21.708394374594082]
財務報告のような表と表のハイブリッドパスに対する数値推論は、重大な課題を提起する。解法プログラム全体の粗大な監督は、基礎となる数値推論過程を学習するモデルの能力を妨げる。本稿では,プログラム全体とサブプログラムレベルの両方で動作する3つの事前学習タスクを提案する。
論文参考訳（メタデータ） (2023-05-12T13:44:40Z)
Hierarchical Programmatic Reinforcement Learning via Learning to Compose Programs [58.94569213396991]
プログラムポリシーを作成するための階層型プログラム強化学習フレームワークを提案する。提案するフレームワークは,プログラム作成の学習を通じて,アウト・オブ・ディストリビュータの複雑な動作を記述するプログラムポリシーを作成することができる。 Karel ドメインの実験結果から,提案するフレームワークがベースラインより優れていることが示された。
論文参考訳（メタデータ） (2023-01-30T14:50:46Z)
NAPG: Non-Autoregressive Program Generation for Hybrid Tabular-Textual Question Answering [52.10214317661547]
現在の数値推論法はプログラムシーケンスを自己回帰的にデコードする。プログラム生成の精度は、デコードステップがエラー伝搬によって展開されるにつれて急激に低下する。本稿では,非自己回帰型プログラム生成フレームワークを提案する。
論文参考訳（メタデータ） (2022-11-07T11:25:21Z)
A Robustly Optimized Long Text to Math Models for Numerical Reasoning On FinQA [2.93888900363581]
FinQAチャレンジは、数値推論の研究を強化するために組織されている。提案手法はFinQAにおいて71.93%の実行精度と67.03%のプログラム精度で1位となる。
論文参考訳（メタデータ） (2022-06-29T12:10:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。