論文の概要: TabQL: In-Context Q-Learning with Tabular Foundation Models
- arxiv url: http://arxiv.org/abs/2605.18979v1
- Date: Mon, 18 May 2026 18:03:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:08.905345
- Title: TabQL: In-Context Q-Learning with Tabular Foundation Models
- Title(参考訳): TabQL: タブラル基礎モデルによるコンテキスト内Q-Learning
- Authors: Qisai Liu, Zhanhong Jiang, Timilehin Ayanlade, Ashutosh Kumar Nirala, Yang Li, Aditya Balu, Soumik Sarkar,
- Abstract要約: Tabular Q-Learning (TabQL) は、Deep Q-Learning (DQN) における従来のパラメトリックQ-ネットワークを置き換える強化学習フレームワークである。
我々はTabQLを形式化し、その収束とサンプルの複雑さを軽微な仮定で分析し、TabQLがバニラQラーニングとディープQラーニングをコンテキスト内学習で補間していることを示す。
- 参考スコア(独自算出の注目度): 10.856759974951993
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose Tabular Q-Learning (TabQL), a reinforcement learning framework that replaces the conventional parametric Q-network in Deep Q-Learning (DQN) with a tabular foundation model endowed with in-context learning capabilities. The key idea is to represent Q-values through a sequence-to-sequence foundation model operating over a tabularized representation of state-action-Q-value tuples, enabling rapid adaptation from limited online interaction by conditioning on recent experience. TabQL departs from classical DQN by leveraging (i) zero- or few-shot Q-value inference via in-context updates, and (ii) a warm-up phase using standard DQN to bootstrap high-quality context. Particularly, to enhance the context quality, new transitions are generated by executing actions output by TabQL with predicted Q values from DQN. We formalize TabQL, analyze its convergence and sample complexity under mild assumptions, and show that TabQL interpolates between vanilla Q-learning and DQN with in-context learning. Our analysis demonstrates that TabQL achieves improved efficiency compared to DQN by amortizing Bellman updates through in-context learning. Extensive numerical experiments with several benchmarks showcase the effectiveness and efficacy of the proposed TabQL.
- Abstract(参考訳): 本稿では,DQN(Deep Q-Learning)における従来のパラメトリックQ-ネットワークを置き換える強化学習フレームワークであるTabular Q-Learning (TabQL)を提案する。
キーとなるアイデアは、状態-アクション-Q-値タプルの表形式で表現するシーケンス-ツー-シーケンス基盤モデルを通じてQ-値を表現することであり、最近の経験を条件づけることで、制限されたオンラインインタラクションからの迅速な適応を可能にする。
TabQLが古典的なDQNから脱却
(i)テキスト内更新によるゼロまたは少数ショットQ値推論、
(II)標準DQNを用いて高品質なコンテキストをブートストラップするウォームアップフェーズ。
特に、コンテキスト品質を向上させるために、DQNから予測Q値でTabQLが出力するアクションを実行することで、新しいトランジションが生成される。
我々はTabQLを形式化し、その収束とサンプルの複雑さを軽微な仮定で分析し、TabQLがバニラQ学習とDQNをコンテキスト内学習で補間していることを示す。
分析の結果,TabQLはDQNと比較して,コンテキスト内学習によるBellman更新を記憶することで効率の向上を実現していることがわかった。
いくつかのベンチマークによる大規模な数値実験は、提案されたTabQLの有効性と有効性を示している。
関連論文リスト
- SPARTA: Scalable and Principled Benchmark of Tree-Structured Multi-hop QA over Text and Tables [13.249024309069236]
テーブルテキスト質問応答タスクは、長いテキストとソーステーブルをまたいで推論し、複数のホップをトラバースし、集約のような複雑な操作を実行するモデルを必要とする。
本稿では,大規模テーブルテキストQAベンチマークを自動的に生成し,軽量な人体検証を行うエンドツーエンド構築フレームワークであるSPARTAを提案する。
SPARTAでは、HybridQAで70F1以上、OTT-QAで50F1以上に達する最先端モデルが30F1ポイント以上減少する。
論文 参考訳(メタデータ) (2026-02-26T17:59:51Z) - The benefits of query-based KGQA systems for complex and temporal questions in LLM era [55.20230501807337]
大規模言語モデルは質問回答(QA)に優れていますが、マルチホップ推論や時間的質問には苦戦しています。
クエリベースの知識グラフ QA (KGQA) は、直接回答の代わりに実行可能なクエリを生成するモジュール形式の代替手段を提供する。
WikiData QAのためのマルチステージクエリベースのフレームワークについて検討し、課題のあるマルチホップと時間ベンチマークのパフォーマンスを向上させるマルチステージアプローチを提案する。
論文 参考訳(メタデータ) (2025-07-16T06:41:03Z) - Effective Instruction Parsing Plugin for Complex Logical Query Answering on Knowledge Graphs [51.33342412699939]
知識グラフクエリ埋め込み(KGQE)は、不完全なKGに対する複雑な推論のために、低次元KG空間に一階論理(FOL)クエリを埋め込むことを目的としている。
近年の研究では、FOLクエリの論理的セマンティクスをよりよく捉えるために、さまざまな外部情報(エンティティタイプや関係コンテキストなど)を統合している。
コードのようなクエリ命令から遅延クエリパターンをキャプチャする効果的なクエリ命令解析(QIPP)を提案する。
論文 参考訳(メタデータ) (2024-10-27T03:18:52Z) - In-Context Learning for Knowledge Base Question Answering for Unmanned
Systems based on Large Language Models [43.642717344626355]
我々は,無人システムにおける知識グラフ推論を用いた質問回答コンペティション(CCKS2023)に注目した。
多くのQAタスクにおいてChatGPTやGPT-3のような大規模言語モデル(LLM)が最近成功したことに触発されて、ChatGPTベースのCypher Query Language(CQL)生成フレームワークを提案する。
当社のChatGPTベースのCQL生成フレームワークは、Unmanned Systemsコンペティションのための知識グラフ推論によるCCKS 2023質問回答において、第2位を獲得しました。
論文 参考訳(メタデータ) (2023-11-06T08:52:11Z) - PACIFIC: Towards Proactive Conversational Question Answering over
Tabular and Textual Data in Finance [96.06505049126345]
我々はPACIFICという新しいデータセットを提案する。既存のCQAデータセットと比較すると、PACIFICは(i)活動性、(ii)数値推論、(iii)表とテキストのハイブリッドコンテキストの3つの重要な特徴を示す。
質問生成とCQAを組み合わせたPCQA(Proactive Conversational Question Answering)に基づいて,新しいタスクを定義する。
UniPCQAはPCQAのすべてのサブタスク上でマルチタスク学習を行い、Seeq2Seqの上位$kのサンプルをクロスバリデーションすることで、マルチタスク学習におけるエラー伝搬問題を緩和するための単純なアンサンブル戦略を取り入れている。
論文 参考訳(メタデータ) (2022-10-17T08:06:56Z) - Knowledge Graph Question Answering using Graph-Pattern Isomorphism [0.0]
TeBaQAは、SPARQLクエリの基本グラフパターンからグラフ同型に基づいて、質問に答えることを学ぶ。
TeBaQAはQALD-8で最先端のパフォーマンスを達成し、QALD-9とLC-QuAD v1で同等の結果を提供する。
論文 参考訳(メタデータ) (2021-03-11T16:03:24Z) - Lookahead-Bounded Q-Learning [8.738692817482526]
本稿では,新しいQ-ラーニング法であるルックアヘッドバウンドQ-ラーニングアルゴリズム(LBQL)を紹介する。
われわれのアプローチは、高価なシミュレーションや現実世界の対話を必要とする問題に特に魅力的である。
論文 参考訳(メタデータ) (2020-06-28T19:50:55Z) - Template-Based Question Generation from Retrieved Sentences for Improved
Unsupervised Question Answering [98.48363619128108]
擬似学習データを用いてQAモデルを訓練するための教師なしアプローチを提案する。
関連した検索文に簡単なテンプレートを適用してQA学習のための質問を生成すると、元の文脈文よりも、下流QAのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2020-04-24T17:57:45Z) - Conditional Self-Attention for Query-based Summarization [49.616774159367516]
条件依存モデリング用に設計されたニューラルネットワークモジュールであるテキスト条件自己アテンション(CSA)を提案する。
DebatepediaとHotpotQAベンチマークデータセットの実験は、CSAがバニラトランスフォーマーを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2020-02-18T02:22:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。