論文の概要: Skill Is Not Document: A Query-Conditional Benchmark and Two-Stage Retriever for LLM Agent Skill Routing
- arxiv url: http://arxiv.org/abs/2606.03565v1
- Date: Tue, 02 Jun 2026 12:30:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.994785
- Title: Skill Is Not Document: A Query-Conditional Benchmark and Two-Stage Retriever for LLM Agent Skill Routing
- Title(参考訳): スキルはドキュメントではない - LLMエージェントスキルルーティングのためのクエリコンディションベンチマークと2段階のリトライ
- Authors: Zifei Wang, Wei Wen, Qiang Ji, Ruizhi Qiao, Xing Sun,
- Abstract要約: R3-Skillは、現実的なエージェントスキルルーティングのベンチマークである。
スキル互換性を明示的な訓練信号とする2段階検索システムを構築した。
データセット、トレーニングコード、モデルウェイトは、エージェントスキルルーティングのためのオープンソースとしてリリースされている。
- 参考スコア(独自算出の注目度): 40.648572239231804
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM agents complete complex tasks by composing multiple skills, and skill retrieval is a front-end stage for agents. Skill retrieval differs fundamentally from traditional document retrieval at the supervision level: top-K joint correctness depends not only on the semantic relevance of each individual query-skill pair, but also on whether the skills retrieved together can collaborate to fulfill the task under the given query. Such "skill compatibility" cannot be derived from independent relevance alone. Yet existing LLM-based data synthesis pipelines can produce a direct supervision signal for "which skills should not be jointly retrieved under this query" -- namely the LLM's own rejection decisions -- and this signal is routinely discarded as low-quality data. To address this gap, we propose Reject-as-Resource Retriever (R3) and construct R3-Skill, a bilingual (Chinese-English) skill retrieval benchmark targeting realistic agent skill routing. R3-Skill spans four language directions, features query phrasings close to real user requests, and is verified through multi-expert cross-checking. On R3-Skill, we build a two-stage retrieval system (R3-Embedding + R3-Reranker) with skill compatibility as an explicit training signal. Gradient analysis shows that the "push-away" signal is diluted by bilateral balancing in the bi-encoder but acts as lossless graded ranking supervision in the cross-encoder -- motivating its placement at the cross-encoder stage, as confirmed by ablations on two datasets. The R3-Embedding + R3-Reranker pipeline attains Hit@1 = 0.7714, NDCG@10 = 0.8327 and Set-Compat = 0.3525 on R3-Skill. The dataset, training code and model weights are released as open source for agent skill routing.
- Abstract(参考訳): LLMエージェントは複数のスキルを構成することで複雑なタスクを完了し、スキル検索はエージェントのフロントエンドステージである。
トップK結合の正しさは、個々のクエリスキルペアのセマンティックな関連性だけでなく、一緒に検索したスキルが、与えられたクエリの下でタスクを遂行するために協力できるかどうかにも依存する。
このような「スキルの互換性」は、独立した関連性だけでは導き出せない。
しかし、既存のLLMベースのデータ合成パイプラインは、"このクエリの下でどのスキルを共同で取得すべきでないか"、すなわちLSM自身の拒否判断に対して、直接的な監視信号を生成することができ、この信号は、通常、低品質のデータとして破棄される。
このギャップに対処するために、Reject-as-Resource Retriever (R3) を提案し、現実的なエージェントスキルルーティングをターゲットとしたバイリンガル(中国語-英語)スキル検索ベンチマークであるR3-Skillを構築した。
R3-Skillは4つの言語方向にまたがり、実際のユーザリクエストに近いクエリのフレーズを特徴とし、マルチエキスパートのクロスチェックによって検証される。
R3-Skill上では、明示的なトレーニング信号としてスキル互換性を備えた2段階検索システム(R3-Embedding + R3-Reranker)を構築する。
グラディエント分析によると、"プッシュアウェイ"信号はバイエンコーダのバイバランシングによって希釈されるが、クロスエンコーダの無数のランク管理として機能し、クロスエンコーダの段階での配置を動機付けている。
R3-Embedding + R3-RerankerパイプラインはHit@1 = 0.7714, NDCG@10 = 0.8327, Set-Compat = 0.3525に達する。
データセット、トレーニングコード、モデルウェイトは、エージェントスキルルーティングのためのオープンソースとしてリリースされている。
関連論文リスト
- Cooperative Retrieval-Augmented Generation for Question Answering: Mutual Information Exchange and Ranking by Contrasting Layers [2.007262412327553]
CoopRAGは、レトリバーとLLMが協調して動作する質問応答タスクのための新しいRAGフレームワークである。
実験の結果、CoopRAGは3つのマルチホップQAデータセットと単純なQAデータセットに対して、最先端QA手法を一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2025-12-11T08:35:17Z) - TeaRAG: A Token-Efficient Agentic Retrieval-Augmented Generation Framework [62.66056331998838]
TeaRAGは、検索内容と推論ステップの両方を圧縮できるトークン効率のエージェントRAGフレームワークである。
報奨関数は,過剰な推論ステップをペナルティ化しながら,知識マッチング機構によって知識満足度を評価する。
論文 参考訳(メタデータ) (2025-11-07T16:08:34Z) - R3-RAG: Learning Step-by-Step Reasoning and Retrieval for LLMs via Reinforcement Learning [60.17074283370798]
Retrieval-Augmented Generation (RAG)は、外部知識をLLM(Large Language Models)と統合し、事実の正しさと幻覚を高める。
我々は、 $textbfR$einforcement Learning を用いて LLM に $textbfR$eason と $textbfR$etrieve を段階的に学習させる $textbfR3-RAG$ を提案する。
論文 参考訳(メタデータ) (2025-05-26T12:25:37Z) - Adversarial Retriever-Ranker for dense text retrieval [51.87158529880056]
本稿では、二重エンコーダレトリバーとクロスエンコーダローダからなるAdversarial Retriever-Ranker(AR2)を提案する。
AR2は、既存の高密度レトリバー法より一貫して大幅に優れている。
これには、R@5から77.9%(+2.1%)、TriviaQA R@5から78.2%(+1.4)、MS-MARCO MRR@10から39.5%(+1.3%)の改善が含まれている。
論文 参考訳(メタデータ) (2021-10-07T16:41:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。