論文の概要: KARL: Knowledge Agents via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.05218v1
- Date: Thu, 05 Mar 2026 14:30:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.267693
- Title: KARL: Knowledge Agents via Reinforcement Learning
- Title(参考訳): KARL:強化学習による知識エージェント
- Authors: Jonathan D. Chang, Andrew Drozdov, Shubham Toshniwal, Owen Oertell, Alexander Trott, Jacob Portes, Abhay Gupta, Pallavi Koppol, Ashutosh Baheti, Sean Kulinski, Ivan Zhou, Irene Dea, Krista Opsahl-Ong, Simon Favreau-Lessard, Sean Owen, Jose Javier Gonzalez Ortiz, Arnav Singhvi, Xabi Andrade, Cindy Wang, Kartik Sreenivasan, Sam Havens, Jialu Liu, Peyton DeNiro, Wen Sun, Michael Bendersky, Jonathan Frankle,
- Abstract要約: 本稿では,強化学習による企業検索エージェントの訓練システムを提案する。
KARLBenchは、6つの異なる検索レギュレーションにまたがる多機能評価スイートである。
異種探索行動で訓練されたモデルは、どのベンチマークにも最適化されたモデルよりもかなりよく一般化されていることを示す。
- 参考スコア(独自算出の注目度): 63.627906947205624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a system for training enterprise search agents via reinforcement learning that achieves state-of-the-art performance across a diverse suite of hard-to-verify agentic search tasks. Our work makes four core contributions. First, we introduce KARLBench, a multi-capability evaluation suite spanning six distinct search regimes, including constraint-driven entity search, cross-document report synthesis, tabular numerical reasoning, exhaustive entity retrieval, procedural reasoning over technical documentation, and fact aggregation over internal enterprise notes. Second, we show that models trained across heterogeneous search behaviors generalize substantially better than those optimized for any single benchmark. Third, we develop an agentic synthesis pipeline that employs long-horizon reasoning and tool use to generate diverse, grounded, and high-quality training data, with iterative bootstrapping from increasingly capable models. Fourth, we propose a new post-training paradigm based on iterative large-batch off-policy RL that is sample efficient, robust to train-inference engine discrepancies, and naturally extends to multi-task training with out-of-distribution generalization. Compared to Claude 4.6 and GPT 5.2, KARL is Pareto-optimal on KARLBench across cost-quality and latency-quality trade-offs, including tasks that were out-of-distribution during training. With sufficient test-time compute, it surpasses the strongest closed models. These results show that tailored synthetic data in combination with multi-task reinforcement learning enables cost-efficient and high-performing knowledge agents for grounded reasoning.
- Abstract(参考訳): 本稿では,多種多様なエージェント検索タスクを対象とし,最先端のパフォーマンスを実現する強化学習による企業検索エージェントの訓練システムを提案する。
私たちの仕事は4つのコアコントリビューションを行います。
まず,制約駆動型エンティティサーチ,クロスドキュメントレポート合成,表数推論,徹底的なエンティティ検索,技術ドキュメントの手続き的推論,企業内ノートの事実集約など,6つの異なる検索体制にまたがる多機能評価スイートであるKARLBenchを紹介する。
第2に、不均一な探索行動で訓練されたモデルが、どのベンチマークにも最適化されたモデルよりもかなり良く一般化されていることを示す。
第3に,多種多様で接地的かつ高品質なトレーニングデータを生成するために,長期的推論とツール利用を用いたエージェント合成パイプラインを開発し,より有能なモデルからの反復的ブートストラップを特徴とする。
第4に, サンプル効率が高く, 列車エンジンの相違に頑健で, アウト・オブ・ディストリビューションの一般化によるマルチタスク・トレーニングに自然に拡張可能な, 反復的大バッチオフ・ポリチックRLに基づくポストトレーニングパラダイムを提案する。
Claude 4.6 と GPT 5.2 と比較すると、KARL は KARLBench のコスト品質と遅延品質のトレードオフに最適である。
十分なテスト時間計算で、最強のクローズドモデルを上回る。
これらの結果から, マルチタスク強化学習と組み合わせた合成データにより, コスト効率, 高性能な知識エージェントを構築できることが示唆された。
関連論文リスト
- CoVe: Training Interactive Tool-Use Agents via Constraint-Guided Verification [17.56502992098113]
textbfCoVe(textbfConstraint-textbfVerification)は、対話型ツール使用エージェントのトレーニング用に設計されたトレーニング後のデータ合成フレームワークである。
それらは、複雑な軌跡の生成をガイドし、軌道品質を評価するための決定論的検証器として機能する。
論文 参考訳(メタデータ) (2026-03-02T14:56:35Z) - Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration [49.9937230730202]
本稿では,新たなアクター・リファイナ・コラボレーション・フレームワークであるSearch-R2を提案する。
提案手法は,生成過程をアクターに分解し,最初の推論軌道を生成する。
本稿では,検索-R2がモデルスケール全体にわたって強力なRAGとRLベースのベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-02-03T15:32:09Z) - Dual-Phase LLM Reasoning: Self-Evolved Mathematical Frameworks [48.105258051884384]
本稿では,モデルの自己補正能力を高めるための2段階トレーニングフレームワークを提案する。
最初の段階では、マルチターン対話戦略がモデルをガイドし、長いチェーン・オブ・シント(CoT)データを生成する。
第2段階では、データの分散を動的に最適化する難易度の高い拒絶サンプリング機構を採用している。
論文 参考訳(メタデータ) (2026-01-09T08:19:11Z) - Multimodal Reinforcement Learning with Agentic Verifier for AI Agents [131.46008226323423]
Argosは、エージェントタスクの推論モデルをトレーニングするための、原則化されたマルチモーダル報酬エージェントである。
エージェント検証をSFTデータとRLトレーニングの両方で活用することにより、我々のモデルは最先端の結果を得ることができる。
論文 参考訳(メタデータ) (2025-12-03T04:42:47Z) - Demystifying Reinforcement Learning in Agentic Reasoning [90.3737088727791]
エージェント推論における強化学習のデミスティフィケーションのための包括的かつ体系的な調査を行う。
i) 縫合された合成軌道を、実際のエンドツーエンドのツール・ツー・ユース・トラジェクトリに置き換えることで、より強力なSFTが得られる。
探索フレンドリーな技術は、高いクリップ、過剰な報酬形成、適切なポリシーエントロピーの維持といったエージェントRLにとって不可欠であり、訓練効率を向上させることができる。
論文 参考訳(メタデータ) (2025-10-13T17:57:15Z) - DSPO: Stable and Efficient Policy Optimization for Agentic Search and Reasoning [10.663331399616956]
textbfDynamic-filter textbfSequence-level textbfPolicy textbfOptimization (DSPO)を導入する。
我々は、RLを通して純粋にモデルをトレーニングし、マルチターン探索と推論をインターリーブし、教師付きデモデータの必要性を回避した。
論文 参考訳(メタデータ) (2025-10-10T10:53:25Z) - Omni-Thinker: Scaling Multi-Task RL in LLMs with Hybrid Reward and Task Scheduling [66.0871543682453]
我々はOmni-Thinkerについて紹介する。Omni-Thinkerは多種多様なタスクにわたって大きな言語モデルをスケールする統合強化学習フレームワークである。
我々のスケジューラは,BWTに基づいてタスクを順序付けし,マルチタスク性能を向上する。
論文 参考訳(メタデータ) (2025-07-20T01:50:16Z) - LATTE: Learning to Think with Vision Specialists [110.43838069105998]
我々は、認識を最先端の視覚モデルにオフロードする視覚言語モデルのファミリーであるLATTEを提案する。
我々のアプローチは、認識を最先端の視覚モデルにオフロードすることで、視覚言語モデルが高品質な知覚情報に対する推論のみに集中できるようにする。
論文 参考訳(メタデータ) (2024-12-07T00:42:04Z) - LamRA: Large Multimodal Model as Your Advanced Retrieval Assistant [63.28378110792787]
LamRAは大規模マルチモーダルモデルに高度な検索と再ランク機能を持たせるために設計された多機能フレームワークである。
検索には、言語のみの事前学習とマルチモーダル・インストラクション・チューニングからなる2段階のトレーニング戦略を採用する。
再格付けには、ポイントワイドとリストワイドの両方のジョイントトレーニングを採用し、検索性能をさらに向上させる2つの方法を提供している。
論文 参考訳(メタデータ) (2024-12-02T17:10:16Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Multi-Task Retrieval-Augmented Text Generation with Relevance Sampling [19.17759446168802]
知識集約型タスクに対する検索強化生成モデルのマルチタスク学習について検討する。
我々は、ペアが知識ベースで答えられるかどうかに関わらず、関連ラベルに対する信頼のしきい値を通じてトレーニング例をフィルタリングする。
論文 参考訳(メタデータ) (2022-07-07T00:57:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。