論文の概要: Replacing Multi-Step Assembly of Data Preparation Pipelines with One-Step LLM Pipeline Generation for Table QA
- arxiv url: http://arxiv.org/abs/2602.22721v1
- Date: Thu, 26 Feb 2026 07:49:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.584647
- Title: Replacing Multi-Step Assembly of Data Preparation Pipelines with One-Step LLM Pipeline Generation for Table QA
- Title(参考訳): テーブルQA用1段LLMパイプライン生成によるデータ準備パイプラインの多段組立
- Authors: Fengyu Li, Junhao Zhu, Kaishi Song, Lu Chen, Zhongming Yao, Tianyi Li, Christian S. Jensen,
- Abstract要約: TQA(Table Question Answering)は、構造化テーブル上の自然言語質問に答えることを目的としている。
大規模言語モデル(LLM)は、最先端のパフォーマンスを提供するマルチステップ方式でテーブル操作パイプラインを生成する演算子中心のソリューションによって、この問題に対する有望な解決策を可能にする。
我々は,TQAのための高品質なデータ準備パイプラインを単一推論ステップで作成するために,新しい改良型強化学習を通じて軽量LLMを訓練する最初のフレームワークであるOperation-R1を提案する。
- 参考スコア(独自算出の注目度): 16.758340727602793
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Table Question Answering (TQA) aims to answer natural language questions over structured tables. Large Language Models (LLMs) enable promising solutions to this problem, with operator-centric solutions that generate table manipulation pipelines in a multi-step manner offering state-of-the-art performance. However, these solutions rely on multiple LLM calls, resulting in prohibitive latencies and computational costs. We propose Operation-R1, the first framework that trains lightweight LLMs (e.g., Qwen-4B/1.7B) via a novel variant of reinforcement learning with verifiable rewards to produce high-quality data-preparation pipelines for TQA in a single inference step. To train such an LLM, we first introduce a self-supervised rewarding mechanism to automatically obtain fine-grained pipeline-wise supervision signals for LLM training. We also propose variance-aware group resampling to mitigate training instability. To further enhance robustness of pipeline generation, we develop two complementary mechanisms: operation merge, which filters spurious operations through multi-candidate consensus, and adaptive rollback, which offers runtime protection against information loss in data transformation. Experiments on two benchmark datasets show that, with the same LLM backbone, Operation-R1 achieves average absolute accuracy gains of 9.55 and 6.08 percentage points over multi-step preparation baselines, with 79\% table compression and a 2.2$\times$ reduction in monetary cost.
- Abstract(参考訳): TQA(Table Question Answering)は、構造化テーブル上の自然言語質問に答えることを目的としている。
大規模言語モデル(LLM)は、最先端のパフォーマンスを提供するマルチステップ方式でテーブル操作パイプラインを生成する演算子中心のソリューションによって、この問題に対する有望な解決策を可能にする。
しかしながら、これらのソリューションは複数のLSM呼び出しに依存しており、結果として禁止されたレイテンシと計算コストが生じる。
本稿では,軽量LLM(例えばQwen-4B/1.7B)の訓練を行う最初のフレームワークであるOperation-R1を提案する。
そこで我々はまず,LLMトレーニングのための細粒度パイプライン監視信号を自動的に取得する自己教師型報奨機構を導入する。
また,トレーニング不安定性を軽減するため,分散認識グループ再サンプリングを提案する。
パイプライン生成のロバスト性をさらに高めるために,多候補コンセンサスを通じて突発的な操作をフィルタリングする演算マージと,データ変換における情報損失に対する実行時保護を提供する適応ロールバックという,2つの相補的なメカニズムを開発した。
2つのベンチマークデータセットの実験では、LLMバックボーンが同じで、Operation-R1は多段階準備ベースラインで平均9.55ポイントと6.08ポイントの絶対精度を達成し、79\%のテーブル圧縮と2.2$\times$の金銭的コスト削減を実現している。
関連論文リスト
- RelayLLM: Efficient Reasoning via Collaborative Decoding [23.351598429979024]
RelayLLMはトークンレベルのコラボレーティブデコーディングによる効率的な推論のための新しいフレームワークである。
RelayLLM の平均精度は 49.52% であり,両モデル間の性能ギャップを効果的に埋めることを示す。
論文 参考訳(メタデータ) (2026-01-08T17:56:16Z) - SPARE: Single-Pass Annotation with Reference-Guided Evaluation for Automatic Process Supervision and Reward Modelling [58.05959902776133]
私たちはSingle-Passを紹介します。
Reference-Guided Evaluation (SPARE)は、効率的なステップごとのアノテーションを可能にする新しい構造化フレームワークである。
数学的推論(GSM8K, MATH)、マルチホップ質問応答(MuSiQue-Ans)、空間推論(SpaRP)にまたがる4つの多様なデータセットにおけるSPAREの有効性を実証する。
ProcessBenchでは、SPAREがデータ効率のよいアウト・オブ・ディストリビューションの一般化を実証し、トレーニングサンプルの$sim$16%しか使用していない。
論文 参考訳(メタデータ) (2025-06-18T14:37:59Z) - RadialRouter: Structured Representation for Efficient and Robust Large Language Models Routing [27.481573948464987]
Radialは、大規模言語モデルのルーティングのための新しいフレームワークである。
RadialFormerという名前のラジアル構造を持つ軽量なTransformerベースのバックボーンを使用して、クエリとLLMの関係を明確にする。
バランシングとコストファーストのシナリオでは、既存のルーティングメソッドの9.2%と5.8%を大きく上回っている。
論文 参考訳(メタデータ) (2025-06-04T12:16:41Z) - Confident or Seek Stronger: Exploring Uncertainty-Based On-device LLM Routing From Benchmarking to Generalization [61.02719787737867]
大規模言語モデル(LLM)はますますエッジデバイスにデプロイされ、民主化されている。
1つの有望な解決策は不確実性に基づくSLMルーティングであり、SLM上での低信頼応答が発生すると、高い要求を強いLCMにオフロードする。
我々は1500以上の設定でSLMからLLMへの不確実性駆動型ルーティング戦略のベンチマークと一般化を包括的に調査する。
論文 参考訳(メタデータ) (2025-02-06T18:59:11Z) - LLM-AutoDiff: Auto-Differentiate Any LLM Workflow [58.56731133392544]
自動プロンプト工学(APE)のための新しいフレームワーク LLM-AutoDiff について紹介する。
LLMs-AutoDiffは、各テキスト入力をトレーニング可能なパラメータとして扱い、フリーズした後方エンジンを使用して、テキスト勾配に対するフィードバック・アキンを生成する。
精度とトレーニングコストの両方において、既存のテキスト勾配ベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2025-01-28T03:18:48Z) - PickLLM: Context-Aware RL-Assisted Large Language Model Routing [0.5325390073522079]
PickLLMは、RL(Reinforcement Learning)を使用してオンザフライクエリを利用可能なモデルにルーティングする軽量フレームワークである。
学習速度の違いに対する収束の速度と,クエリ毎のコストや全体の応答遅延といったハードメトリクスの改善を実証する。
論文 参考訳(メタデータ) (2024-12-12T06:27:12Z) - Sketch to Adapt: Fine-Tunable Sketches for Efficient LLM Adaptation [33.05581803204543]
事前訓練された大規模言語モデル(LLM)の適応は極めて重要であるが、その巨大なサイズのため困難である。
スケッチチューン(SketchTune)は、重みをコンパクトな微調整可能なスケッチに圧縮する圧縮適応戦略である。
SketchTuneは、低ランクメソッドではなくスケッチによって近似された行列クラスに関する数学的洞察によってサポートされている。
論文 参考訳(メタデータ) (2024-10-08T20:58:24Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [68.29746557968107]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。