論文の概要: Datarus-R1: An Adaptive Multi-Step Reasoning LLM for Automated Data Analysis
- arxiv url: http://arxiv.org/abs/2508.13382v1
- Date: Mon, 18 Aug 2025 21:58:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.733207
- Title: Datarus-R1: An Adaptive Multi-Step Reasoning LLM for Automated Data Analysis
- Title(参考訳): Datarus-R1: 自動データ解析のための適応型マルチステップ推論LLM
- Authors: Ayoub Ben Chaliah, Hela Dellagi,
- Abstract要約: 本稿では,Qwen 2.5-14B-Instructの言語モデルであるDatarus-R1-14Bを提案する。
Datarusは、独立した問合せペアではなく、推論ステップ、コード実行、エラートレース、自己補正、最終的な結論を含む完全な分析トラジェクトリに基づいて訓練されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Datarus-R1-14B, a 14 B-parameter open-weights language model fine-tuned from Qwen 2.5-14B-Instruct to act as a virtual data analyst and graduate-level problem solver. Datarus is trained not on isolated question-answer pairs but on full analytical trajectories including reasoning steps, code execution, error traces, self-corrections, and final conclusions, all captured in a ReAct-style notebook format spanning finance, medicine, numerical analysis, and other quantitative domains. Our training pipeline combines (i) a trajectory-centric synthetic data generator that yielded 144 000 tagged notebook episodes, (ii) a dual-reward framework blending a lightweight tag-based structural signal with a Hierarchical Reward Model (HRM) that scores both single-step soundness and end-to-end coherence, and (iii) a memory-optimized implementation of Group Relative Policy Optimization (GRPO) featuring KV-cache reuse, sequential generation, and reference-model sharding. A cosine curriculum smoothly shifts emphasis from structural fidelity to semantic depth, reducing the format collapse and verbosity that often plague RL-aligned LLMs. A central design choice in Datarus is it dual reasoning interface. In agentic mode the model produces ReAct-tagged steps that invoke Python tools to execute real code; in reflection mode it outputs compact Chain-of-Thought (CoT) traces delimited by <think> and <answer> tags. On demanding postgraduate-level problems, Datarus exhibits an "AHA-moment" pattern: it sketches hypotheses, revises them once or twice, and converges avoiding the circular, token-inflating loops common to contemporary systems. Across standard public benchmarks Datarus surpasses similar size models and even reaches the level of larger reasoning models such as QwQ-32B achieving up to 30% higher accuracy on AIME 2024/2025 and LiveCodeBench while emitting 18-49% fewer tokens per solution.
- Abstract(参考訳): 本稿では,Qwen 2.5-14B-Instructから微調整した14パラメータのオープンウェイト言語モデルであるDatarus-R1-14Bについて紹介する。
Datarusは、独立した質問対ではなく、推論ステップ、コード実行、エラートレース、自己補正、最終的な結論を含む完全な分析軌道に基づいて訓練されている。
トレーニングパイプラインが組み合わさる
一 トラジェクトリ中心の合成データ生成装置で、1万四十万回のタグ付けノートを作成したもの
(II)単一ステップの音質とエンドツーエンドのコヒーレンスの両方をスコアする階層的リワードモデル(HRM)と軽量タグに基づく構造信号とをブレンドした二重逆フレームワーク。
三) KVキャッシュの再利用、逐次生成、参照モデルシャーディングを特徴とするグループ相対政策最適化(GRPO)のメモリ最適化実装。
コサインのカリキュラムは、構造的忠実度から意味的深度への強調を円滑にシフトさせ、RLに整列したLLMを悩ませる形式崩壊と冗長性を減少させる。
Datarusの中心的な設計選択は、二重推論インターフェースである。
エージェントモードでは、モデルは実際のコードを実行するためにPythonツールを呼び出すReActタグ付きステップを生成する。リフレクションモードでは、<think>タグと<answer>タグで制限されたコンパクトなChain-of-Thought(CoT)トレースを出力する。
大学レベルの問題を要求すると、Datarusは仮説をスケッチし、1回または2回修正し、現代のシステムに共通する円形のトークン膨らませループを避けるという"AHA-moment"パターンを示す。
標準の公開ベンチマーク全体で、Datarusは同様のサイズモデルを超え、QwQ-32Bのようなより大きな推論モデルレベルまで到達し、AIME 2024/2025とLiveCodeBenchでは最大30%高い精度を達成し、ソリューション当たり18~49%のトークンを出力する。
関連論文リスト
- Provably Efficient Online RLHF with One-Pass Reward Modeling [59.30310692855397]
本稿では,過去のデータを保存する必要がなく,一定時間で計算できるワンパス報酬モデリング手法を提案する。
提案手法は,統計的および計算効率の両面で向上することを示す理論的保証を提供する。
我々はUltrafeedback-binarizedおよびMixture2データセット上でLlama-3-8B-InstructとQwen2.5-7B-Instructモデルを用いて実験を行った。
論文 参考訳(メタデータ) (2025-02-11T02:36:01Z) - Representation Similarity: A Better Guidance of DNN Layer Sharing for Edge Computing without Training [3.792729116385123]
本稿では,表現類似度Sで導かれる表現をエッジで共有することで,新しいモデルマージ方式を提案する。
Pearson correlation Coefficient |r| > 0.94 than other metrics。
論文 参考訳(メタデータ) (2024-10-15T03:35:54Z) - NeRCC: Nested-Regression Coded Computing for Resilient Distributed
Prediction Serving Systems [18.85527080950587]
NeRCCは、近似符号化コンピューティングのための一般的なストラグラー耐性フレームワークである。
NeRCCは、幅広いストラグラーにおける元の予測を正確に近似し、最先端の予測を最大23%上回った。
論文 参考訳(メタデータ) (2024-02-06T20:31:15Z) - End-to-End Supervised Multilabel Contrastive Learning [38.26579519598804]
マルチラベル表現学習は、オブジェクトカテゴリ間のラベル依存やデータ関連の問題に関連付けられる難しい問題として認識されている。
近年の進歩は、モデルとデータ中心の視点からこれらの課題に対処している。
KMCLと呼ばれる新しいエンドツーエンドのトレーニングフレームワークを提案し、モデルとデータ中心の設計の欠点に対処する。
論文 参考訳(メタデータ) (2023-07-08T12:46:57Z) - Single-Stage Visual Relationship Learning using Conditional Queries [60.90880759475021]
TraCQは、マルチタスク学習問題とエンティティペアの分布を回避する、シーングラフ生成の新しい定式化である。
我々は,DETRをベースとしたエンコーダ-デコーダ条件付きクエリを用いて,エンティティラベル空間を大幅に削減する。
実験結果から、TraCQは既存のシングルステージシーングラフ生成法よりも優れており、Visual Genomeデータセットの最先端の2段階メソッドを多く上回っていることがわかった。
論文 参考訳(メタデータ) (2023-06-09T06:02:01Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - Disentangled Recurrent Wasserstein Autoencoder [17.769077848342334]
Recurrent Wasserstein Autoencoder (R-WAE)はシーケンシャルデータの生成モデリングのための新しいフレームワークである。
R-WAEは入力シーケンスの表現を静的および動的因子に切り離す。
私達のモデルは無条件のビデオ生成およびdisentanglementの点では同じ設定の他のベースラインを上回ります。
論文 参考訳(メタデータ) (2021-01-19T07:43:25Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。