論文の概要: Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses
- arxiv url: http://arxiv.org/abs/2606.02373v1
- Date: Mon, 01 Jun 2026 15:21:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:32.383691
- Title: Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses
- Title(参考訳): Harness-1: 条件付き検索エージェントの強化学習
- Authors: Pengcheng Jiang, Zhiyi Shi, Kelly Hong, Xueqiang Xu, Jiashuo Sun, Jimeng Sun, Hammad Bashir, Jiawei Han,
- Abstract要約: 本研究では,20B検索エージェント(検索サブエージェント)であるHarness-1を紹介する。
ハーネスは、候補プール、重要タグ付きキュレートセット、コンパクトエビデンスリンク、検証記録、圧縮および重複した観察を含む環境側のワーキングメモリを維持している。
8つのベンチマークで、Harness-1は平均0.730回のリコールを達成し、次の最強のオープンサーチサブエージェントを+11.4ポイント上回った。
- 参考スコア(独自算出の注目度): 27.84773301655777
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Search agents are often trained as policies over growing transcripts: the model must decide how to search while also remembering what it has seen, which evidence is useful, which constraints remain open, and which claims have actually been checked. We argue that this formulation puts too much routine state management inside the policy: reinforcement learning is forced to optimize both semantic search decisions and recoverable bookkeeping that the environment can maintain more reliably. We introduce Harness-1, a 20B search agent (retrieval subagent) trained with reinforcement learning inside a stateful search harness. The harness maintains environment-side working memory, including a candidate pool, an importance-tagged curated set, compact evidence links, verification records, compressed and deduplicated observations, and budget-aware context rendering. The policy retains the semantic decisions: what to search, which documents to keep or discard, what to verify, and when to stop. Across eight retrieval benchmarks spanning web, finance, patents, and multi-hop QA, Harness-1 achieves 0.730 average curated recall, outperforming the next strongest open search subagent by +11.4 points and remaining competitive with much larger frontier-model searchers. Its gains are especially strong on held-out transfer benchmarks, suggesting that reinforcement learning over explicit search state can produce retrieval behaviors that generalize beyond the training domains. Our code is available at https://github.com/pat-jj/harness-1.
- Abstract(参考訳): モデルでは、何を見たか、どの証拠が役に立つか、どの制約が開いているか、どのクレームが実際にチェックされているのかを記憶しながら、検索方法を決定する必要があります。
我々は、この定式化によってポリシー内部の日常的な状態管理が過剰になり、強化学習は、環境がより確実に維持できるようなセマンティック検索決定と回復可能な簿記の両方を最適化せざるを得なくなることを論じている。
本研究では,20B検索エージェント(検索サブエージェント)であるHarness-1を紹介する。
ハーネスは、候補プール、重要タグ付きキュレートセット、コンパクトエビデンスリンク、検証レコード、圧縮および重複した観測、予算対応のコンテキストレンダリングを含む環境側のワーキングメモリを維持している。
ポリシーはセマンティックな決定を保持しており、どのドキュメントを検索するか、どのドキュメントを保存または破棄するか、何を検証するか、いつ停止するかである。
ウェブ、ファイナンス、特許、マルチホップQAにまたがる8つの検索ベンチマークにおいて、Harness-1は0.730の平均的なリコールを達成し、次の最強のオープンサーチサブエージェントを+11.4ポイント上回り、より大きなフロンティアモデルサーチと競争力を維持している。
そのゲインは、特にホールドアウト転送ベンチマークで強く、明示的な検索状態による強化学習は、トレーニング領域を超えて一般化された検索行動を生み出す可能性があることを示唆している。
私たちのコードはhttps://github.com/pat-jj/harness-1.comで公開されています。
関連論文リスト
- GrepSeek: Training Search Agents for Direct Corpus Interaction [66.69568141699311]
GrepSeekは、コンパクトな検索エージェントを訓練し、大きなテキストコーパスから証拠を見つけ、フィルタリングし、構成する、最適化された直接コーパスインタラクション(DCI)検索エージェントである。
DCIを大規模に実用化するためには、シェルコマンドのシーケンシャルな実行とバイトエクササイズ等価性を保ちながら、シェルベースの検索を最大7.6タイムで高速化するセマンティックス保存のシャード並列実行エンジンを使用する。
論文 参考訳(メタデータ) (2026-05-28T03:37:33Z) - Superintelligent Retrieval Agent: The Next Frontier of Information Retrieval [25.731213365755234]
textitSuperIntelligent Retrieval Agent (SIRA)を紹介する。
SIRAは、複数ラウンド探索探索を単一のコーパス識別検索アクションに圧縮することができる。
解釈可能で、トレーニング不要で、効率的でありながら、より高価なマルチラウンドサーチを超えることができる。
論文 参考訳(メタデータ) (2026-05-07T17:54:29Z) - Cycle-Consistent Search: Question Reconstructability as a Proxy Reward for Search Agent Training [80.20022221643414]
Cycle-Consistent Searchは、検索エージェントを訓練するための金色のスーパービジョンのないフレームワークである。
CCSは教師付きベースラインに匹敵する性能を示す。
これらの結果から,CCSは金の監督が不可能な環境で検索エージェントを訓練するためのスケーラブルな訓練パラダイムを提供する可能性が示唆された。
論文 参考訳(メタデータ) (2026-04-14T17:00:18Z) - SE-Search: Self-Evolving Search Agent via Memory and Dense Reward [87.79131676521656]
Retrieval augmented generation (RAG)は、検索した外部知識を条件づけることにより、大規模言語モデル(LLM)における幻覚や事実エラーを低減する。
既存の手法は、無関係または騒々しい文書を蓄積し、希少な強化学習信号に依存することが多い。
我々は,3つのコンポーネントによるオンライン検索行動を改善するセルフ進化検索エージェントであるtextbfSelf-textbfEvolving textbfSearchを提案する。
論文 参考訳(メタデータ) (2026-02-06T09:14:07Z) - Chaining the Evidence: Robust Reinforcement Learning for Deep Search Agents with Citation-Aware Rubric Rewards [60.0970117192627]
強化学習(Reinforcement Learning, RL)は, LLMに基づくディープサーチエージェントの強化に重要な手法である。
既存のアプローチは主にバイナリ結果の報酬に依存しており、エージェントの推論プロセスの包括性と事実性を捉えていない。
ディープサーチエージェントのための微粒化報酬フレームワークである textbfCitation-aware RL Rewards (CaRR) を提案する。
論文 参考訳(メタデータ) (2026-01-09T18:57:53Z) - AdaSearch: Balancing Parametric Knowledge and Search in Large Language Models via Reinforcement Learning [61.974530499621274]
検索への過度な依存は、ノイズや悪意のあるコンテンツに対する不必要なコストとリスクをもたらす。
本稿では,探索を起動するか否かの判断から問題を解き放つ2段階の結果駆動型RLフレームワークを提案する。
AdaSearchは知識境界認識を大幅に改善し、不要な検索コールを削減し、タスクパフォーマンスを強く保ち、透明性と解釈可能な意思決定行動を提供する。
論文 参考訳(メタデータ) (2025-12-18T18:50:01Z) - Beyond Outcome Reward: Decoupling Search and Answering Improves LLM Agents [19.31471304268234]
DeSA(Decoupling Search-and-Answering)は,検索最適化と回答生成を明確に分離する単純な2段階トレーニングフレームワークである。
7つのQAベンチマークで、DeSAがトレーニングしたエージェントは検索の振る舞いを継続的に改善し、結果のみのベースラインよりも検索リコールと回答の精度が大幅に向上した。
論文 参考訳(メタデータ) (2025-10-06T11:09:45Z) - Bridging the Training-Inference Gap for Dense Phrase Retrieval [104.4836127502683]
密度の高いレトリバーを構築するには、トレーニングやニューラルネットワークの検証など、一連の標準手順が必要である。
本稿では,高密度検索におけるトレーニングと推論のギャップを減らせる方法について検討する。
コーパス全体の小さな部分集合を用いて高密度レトリバーを効率よく検証する方法を提案する。
論文 参考訳(メタデータ) (2022-10-25T00:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。