論文の概要: Exploring Generative Process Reward Modeling for Semi-Structured Data: A Case Study of Table Question Answering
- arxiv url: http://arxiv.org/abs/2510.20304v1
- Date: Thu, 23 Oct 2025 07:49:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:17.53429
- Title: Exploring Generative Process Reward Modeling for Semi-Structured Data: A Case Study of Table Question Answering
- Title(参考訳): 半構造化データの生成過程リワードモデリングの探索:テーブル質問回答を事例として
- Authors: Lei Tang, Wei Zhou, Mohsen Mesgar,
- Abstract要約: プロセス報酬モデル(PRM)は、大規模言語モデル(LLM)における複雑な推論を改善する。
本研究は,テーブル質問応答(TQA)のためのPRMに関する最初の体系的研究である。
回答とステップの両面から,TQAにおける最先端のPRMを評価した。
- 参考スコア(独自算出の注目度): 14.119525003137356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Process reward models (PRMs) improve complex reasoning in large language models (LLMs) by grading candidate solutions step-by-step and selecting answers via aggregated step scores. While effective in domains such as mathematics, their applicability to tasks involving semi-structured data, like table question answering (TQA) remains unexplored. TQA poses unique challenges for PRMs, including abundant irrelevant information, loosely connected reasoning steps, and domain-specific reasoning. This work presents the first systematic study of PRMs for TQA. We evaluate state-of-the-art generative PRMs on TQA from both answer and step perspectives. Results show that PRMs that combine textual and code verification can aid solution selection but struggle to generalize to out-of-domain data. Analysis reveals a weak correlation between performance in step-level verification and answer accuracy, possibly stemming from weak step dependencies and loose causal links. Our findings highlight limitations of current PRMs on TQA and offer valuable insights for building more robust, process-aware verifiers.
- Abstract(参考訳): プロセス報酬モデル(PRM)は、大規模言語モデル(LLM)における複雑な推論を改善する。
数学のような領域では有効であるが、テーブル質問応答(TQA)のような半構造化データを含むタスクに適用性は未解明のままである。
TQAは、豊富な無関係情報、疎結合な推論ステップ、ドメイン固有の推論など、PRMに固有の課題を提起する。
本研究は,TQAのPRMに関する最初の系統的研究である。
回答とステップの両面から,TQAにおける最先端のPRMを評価した。
結果から,テキストとコード検証を組み合わせたPRMは解選択に有効であるが,領域外データへの一般化に苦慮していることがわかった。
分析の結果、ステップレベルの検証と解答精度の相関が弱く、おそらくは弱いステップ依存と緩やかな因果関係に起因する。
我々の発見は、TQAにおける現在のPRMの限界を強調し、より堅牢でプロセス対応の検証器を構築するための貴重な洞察を提供する。
関連論文リスト
- A Survey of Process Reward Models: From Outcome Signals to Process Supervisions for Large Language Models [31.650962391182798]
この調査は、完全なループを通して、PRMの体系的な概要を提供する。
数学、コード、テキスト、マルチモーダル推論、ロボット工学、エージェントにまたがる応用を要約する。
私たちのゴールは、設計空間を明確にし、オープンな課題を明らかにし、きめ細かな、堅牢な推論アライメントに向けた将来の研究を導くことです。
論文 参考訳(メタデータ) (2025-10-09T10:35:31Z) - Rethinking Reward Models for Multi-Domain Test-Time Scaling [91.76069784586149]
従来の作業では、プロセス報酬モデル(PRM)が最終回答のみを評価する結果報酬モデル(ORM)を上回っていると仮定しています。
14の異なる領域にまたがる4つの報酬モデル変種を統一的に評価する。
LLMの自動ラベル付けからラベルノイズを継承し,長い推論軌跡の評価に難渋するPRM方式の段階的スコアリングが原因と考えられる。
論文 参考訳(メタデータ) (2025-10-01T04:21:14Z) - Socratic-PRMBench: Benchmarking Process Reward Models with Systematic Reasoning Patterns [79.42805969325036]
プロセス・リワード・モデル(PRM)は複雑な推論と問題解決に不可欠である。
PRMは、推論プロセス中に様々な推論パターンの下でエラーを特定する必要がある。
既存のベンチマークは主に、段階的に正しいPRMを評価することに焦点を当てている。
Socratic-PRMBenchは、6つの推論パターンでPRMを体系的に評価する新しいベンチマークである。
論文 参考訳(メタデータ) (2025-05-29T14:26:53Z) - Discriminative Policy Optimization for Token-Level Reward Models [55.98642069903191]
プロセス報酬モデル(PRM)は、結果報酬モデル(ORM)と比較して、よりきめ細かい監督を提供する。
Q-RMは、微粒なアノテーションに頼ることなく、優先データからトークンレベルのQ関数を明示的に学習する。
Q-RMによる強化学習は、トレーニング効率を大幅に向上させ、GSM8KでのORMの12倍、MATHでのステップレベルPRMの11倍の収束を実現した。
論文 参考訳(メタデータ) (2025-05-29T11:40:34Z) - Generalizable Process Reward Models via Formally Verified Training Data [13.781401358802462]
FoVerは、正式な検証ツールによって自動的に注釈付けされた正確なステップレベルのエラーラベルでPRMトレーニングデータを合成するアプローチである。
実験により、FoVerでトレーニングされたPRMはクロスタスクの一般化を示し、単一のPRMが様々な推論タスクの検証を効果的に行えることを示した。
論文 参考訳(メタデータ) (2025-05-21T19:23:45Z) - Process Reward Model with Q-Value Rankings [18.907163177605607]
プロセス・リワード・モデリング(PRM)は複雑な推論と意思決定に不可欠である。
本稿では,マルコフ決定プロセスの文脈でPRMを再定義する新しいフレームワークであるProcess Q-value Model(PQM)を紹介する。
PQMは、新しい比較損失関数に基づいてQ値ランキングを最適化し、シーケンシャルな決定の中で複雑なダイナミクスをキャプチャするモデルの能力を向上する。
論文 参考訳(メタデータ) (2024-10-15T05:10:34Z) - An Empirical Comparison of LM-based Question and Answer Generation
Methods [79.31199020420827]
質問と回答の生成(QAG)は、コンテキストが与えられた質問と回答のペアのセットを生成することで構成される。
本稿では,シーケンス・ツー・シーケンス言語モデル(LM)を微調整する3つの異なるQAG手法を用いて,ベースラインを確立する。
実験により、学習時間と推論時間の両方で計算的に軽量なエンドツーエンドQAGモデルが一般に堅牢であり、他のより複雑なアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-26T14:59:53Z) - RoMQA: A Benchmark for Robust, Multi-evidence, Multi-answer Question
Answering [87.18962441714976]
堅牢でマルチエビデンスな質問応答(QA)のための最初のベンチマークであるRoMQAを紹介します。
我々は、最先端の大規模言語モデルをゼロショット、少数ショット、微調整設定で評価し、RoMQAが難しいことを発見した。
以上の結果から,RoMQAは大規模言語モデルにとって難しいベンチマークであり,より堅牢なQA手法を構築するための定量的なテストを提供する。
論文 参考訳(メタデータ) (2022-10-25T21:39:36Z) - Abstractive Query Focused Summarization with Query-Free Resources [60.468323530248945]
本稿では,汎用的な要約リソースのみを利用して抽象的なqfsシステムを構築する問題を考える。
本稿では,要約とクエリのための新しい統一表現からなるMasked ROUGE回帰フレームワークであるMargeを提案する。
最小限の監視から学習したにもかかわらず,遠隔管理環境において最先端の結果が得られた。
論文 参考訳(メタデータ) (2020-12-29T14:39:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。