論文の概要: Can David Beat Goliath? On Multi-Hop Reasoning with Resource-Constrained Agents
- arxiv url: http://arxiv.org/abs/2601.21699v1
- Date: Thu, 29 Jan 2026 13:31:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.850234
- Title: Can David Beat Goliath? On Multi-Hop Reasoning with Resource-Constrained Agents
- Title(参考訳): DavidはGoliathを倒せるか? リソース制約エージェントによるマルチホップ推論について
- Authors: Hojae Han, Heeyun Jung, Jongyoon Kim, Seung-won Hwang,
- Abstract要約: 資源制約下では,小言語モデルは強いマルチホップ推論を実現することができることを示す。
DAVID-GRPOは、最小限の監督で早期学習を安定化する予算効率の高いRLフレームワークである。
- 参考スコア(独自算出の注目度): 36.29651446001057
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While reinforcement learning (RL) has empowered multi-turn reasoning agents with retrieval and tools, existing successes largely depend on extensive on-policy rollouts in high-cost, high-accuracy regimes. Under realistic resource constraints that cannot support large models or dense explorations, however, small language model agents fall into a low-cost, low-accuracy regime, where limited rollout budgets lead to sparse exploration, sparse credit assignment, and unstable training. In this work, we challenge this trade-off and show that small language models can achieve strong multi-hop reasoning under resource constraints. We introduce DAVID-GRPO, a budget-efficient RL framework that (i) stabilizes early learning with minimal supervision, (ii) assigns retrieval credit based on evidence recall, and (iii) improves exploration by resampling truncated near-miss trajectories. Evaluated on agents up to 1.5B parameters trained on only four RTX 3090 GPUs, DAVID-GRPO consistently outperforms prior RL methods designed for large-scale settings on six multi-hop QA benchmarks. These results show that with the right inductive biases, small agents can achieve low training cost with high accuracy.
- Abstract(参考訳): 強化学習(RL)は、検索とツールを備えた多ターン推論エージェントに力を与えてきたが、既存の成功は、高コストで高精度な体制における大規模なオン・ポリシーのロールアウトに大きく依存している。
しかし、大きなモデルや密集した探索をサポートしない現実的な資源制約の下では、小さな言語モデルエージェントは低コストで低い精度の体制に陥り、限られたロールアウト予算がスパース探索、少額のクレジット割り当て、不安定な訓練に繋がる。
本研究では,このトレードオフに挑戦し,資源制約下での強力なマルチホップ推論を小型言語モデルで実現できることを示す。
DAVID-GRPOは予算効率のよいRLフレームワークである。
(i)早期学習を最小限の監督で安定化させる。
二 証拠リコールに基づく検索クレジットを割り当て、
三 散逸した近距離軌道を再サンプリングして探究を改善すること。
DAVID-GRPOは、4つのRTX 3090 GPUでトレーニングされた最大1.5Bのパラメータに基づいて評価され、6つのマルチホップQAベンチマークで大規模設定用に設計された以前のRLメソッドよりも一貫して優れていた。
これらの結果から, 適度な誘導バイアスにより, 小型エージェントは訓練コストの低下を高い精度で達成できることが示唆された。
関連論文リスト
- Demystifying Reinforcement Learning in Agentic Reasoning [90.3737088727791]
エージェント推論における強化学習のデミスティフィケーションのための包括的かつ体系的な調査を行う。
i) 縫合された合成軌道を、実際のエンドツーエンドのツール・ツー・ユース・トラジェクトリに置き換えることで、より強力なSFTが得られる。
探索フレンドリーな技術は、高いクリップ、過剰な報酬形成、適切なポリシーエントロピーの維持といったエージェントRLにとって不可欠であり、訓練効率を向上させることができる。
論文 参考訳(メタデータ) (2025-10-13T17:57:15Z) - Compass-Thinker-7B Technical Report [8.496143273813718]
計算資源とコストの少ない強化学習の可能性を検討するために,Compass-Thinker-7Bモデルを提案する。
Compass-Thinker-7Bは、特別に設計されたReinforcement Learning Pipelineを通じて、オープンソースモデルからトレーニングされている。
我々はCompass-Thinker-7Bが例外的推論能力を有しており、同じ大きさのRLモデルと比較して数学において優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2025-08-12T12:58:12Z) - RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization [111.1749164063616]
大規模言語モデル(LLM)のための新しいハイブリッド政治最適化手法RL-PLUSを提案する。
RL-PLUSは、外部データと内部エクスプロイトを相乗化して、より強力な推論能力を達成し、ベースモデルのバウンダリを超える。
提案手法の優位性と一般化性を示すため,理論解析と広範な実験を行った。
論文 参考訳(メタデータ) (2025-07-31T23:55:29Z) - Search Wisely: Mitigating Sub-optimal Agentic Searches By Reducing Uncertainty [21.96443267949563]
エージェント検索型Augmented Generation (RAG) システムは,動的かつ多段階の推論と情報検索を可能にし,Large Language Models (LLM) を強化する。
これらのシステムは、オーバーサーチ(冗長な情報を取得する)やアンダーサーチ(必要な情報を取得するのに失敗する)のような準最適探索行動を示すことが多い。
この研究は、これらの振る舞いを公式に定義し、定量化し、複数のQAデータセットとエージェントRAGシステムにまたがるそれらの頻度を明らかにする。
論文 参考訳(メタデータ) (2025-05-22T20:57:56Z) - AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning [50.02117478165099]
大規模強化学習は, 強大・中小モデルの推論能力を大幅に向上させることができることを示す。
まずは算数のみのプロンプト、次にコードのみのプロンプトのトレーニングを行う。
論文 参考訳(メタデータ) (2025-05-22T08:50:47Z) - Reinforcement Learning for Reasoning in Small LLMs: What Works and What Doesn't [0.0]
小型言語モデル(LLM)における強化学習による推論改善の可能性について検討した。
24時間以内に4つのNVIDIA A40 GPU(それぞれ48GB VRAM)をトレーニングした結果、素早い推論が向上した。
これらの結果から, 小型LLMに対するRLを用いた微調整の有効性が明らかとなり, 大規模アプローチに対する費用対効果が示唆された。
論文 参考訳(メタデータ) (2025-03-20T15:13:23Z) - Reward Guidance for Reinforcement Learning Tasks Based on Large Language Models: The LMGT Framework [1.5802986215292307]
Language Model Guided reward Tuning (LMGT)は、強化学習のための新しい、サンプル効率の高いフレームワークである。
我々は,LMGTが探索と搾取のバランスを良好に保ち,エージェントの探索行動の指針となることを示す。
以上の結果から,LMGTはRL学習期間中に必要な計算資源を大幅に削減できる可能性が示唆された。
論文 参考訳(メタデータ) (2024-09-07T07:40:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。