Fugu-MT 論文翻訳(概要): OpenTable-R1: A Reinforcement Learning Augmented Tool Agent for Open-Domain Table Question Answering

論文の概要: OpenTable-R1: A Reinforcement Learning Augmented Tool Agent for Open-Domain Table Question Answering

arxiv url: http://arxiv.org/abs/2507.03018v1
Date: Wed, 02 Jul 2025 13:54:54 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-08 15:46:34.532285
Title: OpenTable-R1: A Reinforcement Learning Augmented Tool Agent for Open-Domain Table Question Answering
Title（参考訳）: OpenTable-R1: Open-Domain Table Question Answeringのための強化学習ツールエージェント
Authors: Zipeng Qiu,
Abstract要約: オープンドメインのテーブルの問合せは伝統的に2段階のパイプラインに依存している。本稿では,大規模言語モデルにマルチターンツールコールを組み込むエンドツーエンドのエージェントフレームワークを提案する。この統一されたアプローチにより、モデルはクエリを共同で検索、推論、実行することが可能になり、劇的な精度の向上が得られる。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Open-domain table question answering traditionally relies on a two-stage pipeline: static table retrieval followed by a closed-domain answer. In contrast, we propose an end-to-end agentic framework that embeds multi-turn tool calls-using a BM25+-based search API and a SQLite SQL executor-directly into a large language model. To further adapt a compact 4B-parameter model, we introduce a two-stage fine-tuning process: supervised cold-start on easy questions, then Async GRPO reinforcement learning on harder cases with LoRA adapters and a rollout buffer. This unified approach enables the model to jointly retrieve, reason, and execute queries, yielding a dramatic accuracy improvement from single-digit zero-shot performance to over 0.86 exact match on a held-out test set. Our results underscore the effectiveness of integrating structured tool calls with targeted RL fine-tuning for scalable, accurate table QA. The code is available at https://github.com/TabibitoQZP/OpenTableR1.
Abstract（参考訳）: オープンドメインのテーブル質問応答は伝統的に2段階のパイプラインに依存している。対照的に,BM25+ベースの検索APIとSQLite SQLエグゼキュータを併用したマルチターンツールコールを,大規模言語モデルに間接的に組み込む,エンドツーエンドのエージェントフレームワークを提案する。さらに,コンパクトな4Bパラメータモデルを適用するために,簡単な質問に対してコールドスタートを指示し,LoRAアダプタとロールアウトバッファで難しいケースに対して非同期GRPO強化学習を行う2段階の微調整プロセスを導入する。この統一されたアプローチにより、モデルはクエリを共同で検索、推論、実行することができ、単一桁のゼロショット性能から0.86以上の正確な一致までの劇的な精度向上が得られる。この結果から,構造化ツールコールとRLファインタニングを併用して,スケーラブルで正確なテーブルQAを実現する方法の有効性が示唆された。コードはhttps://github.com/TabibitoQZP/OpenTableR1で公開されている。

関連論文リスト

Efficient Context Selection for Long-Context QA: No Tuning, No Iteration, Just Adaptive-$k$ [5.026348938624301]
本稿では、クエリと候補パスの類似度スコアに基づいて、経路数を適応的に選択する、単純で効果的なシングルパス手法であるAdaptive-$k$を提案する。モデルファインチューニング、余分なLCM推論、あるいは既存のレトリバー読み取りパイプラインの変更は不要である。 5つのLCLMと2つの埋め込みモデルで精度を向上し、動的にコンテキストサイズを調整することでより効率的で正確なQAが得られることを強調した。
論文参考訳（メタデータ） (2025-06-10T06:11:01Z)
GTR: Graph-Table-RAG for Cross-Table Question Answering [53.11230952572134]
テーブルコーパスをヘテロジニアスグラフに再構成するグラフテーブル-テーブル-RAG フレームワーク GTR を提案する。 GTRは、高いデプロイメント効率を維持しながら、より優れたクロステーブル質問応答性能を示し、実際の実用性を示している。
論文参考訳（メタデータ） (2025-04-02T04:24:41Z)
AutoReason: Automatic Few-Shot Reasoning Decomposition [0.0]
思考の連鎖(CoT)は、大規模言語モデルにおけるステップバイステップ推論を改善する手法として近年研究されている。本稿では,CoTを用いた合理性を自動生成するシステムを提案する。提案手法は,暗黙的クエリをいくつかの明示的な質問に分解することで,多段階の暗黙的推論能力を向上させる。
論文参考訳（メタデータ） (2024-12-09T20:35:39Z)
ToolACE: Winning the Points of LLM Function Calling [139.07157814653638]
ToolACEは、正確で複雑で多様なツール学習データを生成するように設計された自動エージェントパイプラインである。我々は、合成データに基づいてトレーニングされたモデルが、8Bパラメータだけで、バークレー・ファンクション・カリング・リーダーボード上で最先端のパフォーマンスを達成することを実証した。
論文参考訳（メタデータ） (2024-09-02T03:19:56Z)
Allies: Prompting Large Language Model with Beam Search [107.38790111856761]
本研究では,ALIESと呼ばれる新しい手法を提案する。入力クエリが与えられた場合、ALLIESはLLMを活用して、元のクエリに関連する新しいクエリを反復的に生成する。元のクエリのスコープを反復的に精錬して拡張することにより、ALLIESは直接検索できない隠れた知識をキャプチャし、利用する。
論文参考訳（メタデータ） (2023-05-24T06:16:44Z)
Reference Twice: A Simple and Unified Baseline for Few-Shot Instance Segmentation [103.90033029330527]
FSIS(Few-Shot Instance)は、サポート例が限定された新しいクラスの検出とセグメンテーションを必要とする。我々は、FSISのサポートとクエリ機能の関係を利用するための統合フレームワーク、Reference Twice(RefT)を導入する。
論文参考訳（メタデータ） (2023-01-03T15:33:48Z)
End-to-End Table Question Answering via Retrieval-Augmented Generation [19.89730342792824]
本稿では、T-RAGというテーブルQAモデルを紹介し、非パラメトリックな高密度ベクトルインデックスをパラメトリックシーケンス・ツー・シーケンスモデルであるBARTと組み合わせて微調整し、応答トークンを生成する。自然言語の問題があれば、T-RAGは統合パイプラインを使用してテーブルコーパスを自動で検索し、テーブルセルから正しい回答を直接見つけ出す。
論文参考訳（メタデータ） (2022-03-30T23:30:16Z)
CREPO: An Open Repository to Benchmark Credal Network Algorithms [78.79752265884109]
クレダルネットワークは、確率質量関数の集合であるクレダルに基づく不正確な確率的グラフィカルモデルである。 CREMAと呼ばれるJavaライブラリが最近リリースされ、クレダルネットワークをモデル化し、処理し、クエリする。我々は,これらのモデル上での推論タスクの正確な結果とともに,合成クレダルネットワークのオープンリポジトリであるcrrepoを提案する。
論文参考訳（メタデータ） (2021-05-10T07:31:59Z)
Capturing Row and Column Semantics in Transformer Based Question Answering over Tables [9.347393642549806]
これらの特化事前学習技術を用いることなく、テーブルQAタスクにおいて優れた性能が得られることを示す。最近のベンチマーク実験では、提案手法が表上のセル値を効果的に検出できることが証明されている(ウィキ検索質問のhit@1精度は最大98%)。
論文参考訳（メタデータ） (2021-04-16T18:22:30Z)
Approximating Aggregated SQL Queries With LSTM Networks [31.528524004435933]
本稿では、近似クエリ処理(AQP)とも呼ばれるクエリ近似法を提案する。我々は、LSTMネットワークを用いて、クエリと結果の関係を学習し、クエリ結果を予測するための高速な推論層を提供する。提案手法では,1秒間に最大12万のクエリを予測でき,クエリのレイテンシは2ms以下であった。
論文参考訳（メタデータ） (2020-10-25T16:17:58Z)
Open Question Answering over Tables and Text [55.8412170633547]
オープンな質問応答(QA)では、質問に対する回答は、質問に対する回答を含む可能性のある文書を検索して分析することによって生成される。ほとんどのオープンQAシステムは、構造化されていないテキストからのみ情報を取得することを検討している。我々は,このタスクの性能を評価するために,新しい大規模データセット Open Table-and-Text Question Answering (OTT-QA) を提案する。
論文参考訳（メタデータ） (2020-10-20T16:48:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。