論文の概要: Jupiter: Enhancing LLM Data Analysis Capabilities via Notebook and Inference-Time Value-Guided Search
- arxiv url: http://arxiv.org/abs/2509.09245v1
- Date: Thu, 11 Sep 2025 08:27:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.293023
- Title: Jupiter: Enhancing LLM Data Analysis Capabilities via Notebook and Inference-Time Value-Guided Search
- Title(参考訳): Jupiter: ノートブックと推論時値ガイド検索によるLLMデータ分析機能の向上
- Authors: Shuocheng Li, Yihao Liu, Silin Du, Wenxuan Zeng, Zhe Xu, Mengyu Zhou, Yeye He, Haoyu Dong, Shi Han, Dongmei Zhang,
- Abstract要約: 実世界のJupyterノートブックから高品質なツールベースのデータ解析タスクと実行可能なマルチステップソリューションを抽出するスケーラブルパイプラインを提案する。
このパイプラインを用いて、標準化されたタスク-解決ペアの大規模データセットであるNbQAを導入する。
また,データ解析を探索問題として定式化し,モンテカルロ木探索を適用した。
- 参考スコア(独自算出の注目度): 37.53003959273494
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have shown great promise in automating data science workflows, but existing models still struggle with multi-step reasoning and tool use, which limits their effectiveness on complex data analysis tasks. To address this, we propose a scalable pipeline that extracts high-quality, tool-based data analysis tasks and their executable multi-step solutions from real-world Jupyter notebooks and associated data files. Using this pipeline, we introduce NbQA, a large-scale dataset of standardized task-solution pairs that reflect authentic tool-use patterns in practical data science scenarios. To further enhance multi-step reasoning, we present Jupiter, a framework that formulates data analysis as a search problem and applies Monte Carlo Tree Search (MCTS) to generate diverse solution trajectories for value model learning. During inference, Jupiter combines the value model and node visit counts to efficiently collect executable multi-step plans with minimal search steps. Experimental results show that Qwen2.5-7B and 14B-Instruct models on NbQA solve 77.82% and 86.38% of tasks on InfiAgent-DABench, respectively-matching or surpassing GPT-4o and advanced agent frameworks. Further evaluations demonstrate improved generalization and stronger tool-use reasoning across diverse multi-step reasoning tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)は、データサイエンスワークフローの自動化において大きな可能性を秘めている。
そこで本稿では,実際のJupyterノートブックと関連するデータファイルから高品質なツールベースのデータ解析タスクとその実行可能なマルチステップソリューションを抽出する,スケーラブルなパイプラインを提案する。
このパイプラインを用いて,実践的なデータサイエンスシナリオにおけるツール使用パターンを反映した,標準化されたタスク-ソリューションペアの大規模データセットであるNbQAを紹介する。
探索問題としてデータ解析を定式化し,モンテカルロ木探索(MCTS)を適用して,価値モデル学習のための多様な解トラジェクトリを生成する。
推測中、Jupiterは値モデルとノード訪問数を組み合わせて、最小の探索ステップで実行可能なマルチステッププランを効率的に収集する。
実験結果から、NbQA上のQwen2.5-7Bと14B-Instructモデルは、InfiAgent-DABench上のタスクの77.82%と86.38%を解き、それぞれGPT-4oと高度なエージェントフレームワークを上回った。
さらなる評価では、多段階推論タスクにおける一般化とツール利用推論の改善が示されている。
関連論文リスト
- InfiAlign: A Scalable and Sample-Efficient Framework for Aligning LLMs to Enhance Reasoning Capabilities [27.09178257629886]
InfiAlignは、大規模言語モデル(LLM)のためのスケーラブルでサンプル効率の良いポストトレーニングフレームワークである
InfiAlignの中核は、オープンソースの推論から高品質なアライメントデータを自動的にキュレートする堅牢なデータ選択パイプラインである。
本結果は,基本データ選択とフルステージポストトレーニングの併用の有効性を強調した。
論文 参考訳(メタデータ) (2025-08-07T15:34:06Z) - ToolVQA: A Dataset for Multi-step Reasoning VQA with External Tools [9.788417605537965]
本稿では,23Kインスタンスからなる大規模マルチモーダルデータセットであるToolVQAを紹介する。
ToolVQAは現実世界の視覚的コンテキストと暗黙の多段階推論タスクを備え、実際のユーザインタラクションとの整合性が向上する。
このデータセットを構築するために,Depth-First Search(DFS)と動的インコンテキストのサンプルマッチング機構を組み合わせた新しいデータ生成パイプラインであるToolEngineを提案する。
論文 参考訳(メタデータ) (2025-08-05T10:06:16Z) - DABstep: Data Agent Benchmark for Multi-step Reasoning [2.6709582216950767]
DABstepは、現実的なマルチステップデータ分析タスクでAIエージェントを評価するための新しいベンチマークである。
ファイナンシャル・アナリティクス・プラットフォームから派生した450以上の現実世界の課題で構成されている。
Dabstepは、自律的なデータ分析の研究を加速するために、公開のリーダーボードとツールキットと共にリリースされた。
論文 参考訳(メタデータ) (2025-06-30T10:49:21Z) - IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - Empowering Large Language Models in Wireless Communication: A Novel Dataset and Fine-Tuning Framework [81.29965270493238]
我々は,無線通信アプリケーションのための大規模言語モデル(LLM)の評価と微調整を目的とした,特殊なデータセットを開発した。
データセットには、真/偽と複数選択型を含む、さまざまなマルチホップ質問が含まれている。
本稿では,PVI(Pointwise V-Information)に基づく微調整手法を提案する。
論文 参考訳(メタデータ) (2025-01-16T16:19:53Z) - CRAFT Your Dataset: Task-Specific Synthetic Dataset Generation Through Corpus Retrieval and Augmentation [51.2289822267563]
本稿では,実行すべきタスクを実演する少数のユーザ記述型少数ショットを前提として,合成データセットを生成する手法を提案する。
我々は, CRAFTが生物, 医学, 常識質問応答(QA)の4つのタスクに対して, 大規模タスク特化学習データセットを効率的に生成できることを実証した。
実験の結果, CRAFT を用いたモデルでは, 一般 LLM をQA タスクで上回ったり, 一致させたりしていることがわかった。
論文 参考訳(メタデータ) (2024-09-03T17:54:40Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - CMDBench: A Benchmark for Coarse-to-fine Multimodal Data Discovery in Compound AI Systems [10.71630696651595]
知識集約的なタスクを達成するエージェントとしてLLMを使用する複合AIシステム(CAS)は、データベースやAIコミュニティにおいて大きな関心を集めている。
マルチモーダルデータソースのサイロは、そのタスクを達成するための適切なデータソースを特定するのを困難にしている。
我々はエンタープライズデータプラットフォームの複雑さをモデル化したベンチマークであるCMDBenchを提案する。
論文 参考訳(メタデータ) (2024-06-02T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。