論文の概要: RAGShaper: Eliciting Sophisticated Agentic RAG Skills via Automated Data Synthesis
- arxiv url: http://arxiv.org/abs/2601.08699v1
- Date: Tue, 13 Jan 2026 16:25:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.28423
- Title: RAGShaper: Eliciting Sophisticated Agentic RAG Skills via Automated Data Synthesis
- Title(参考訳): RAGShaper: 自動データ合成による高度化エージェントRAGスキルの排除
- Authors: Zhengwei Tao, Bo Li, Jialong Wu, Guochen Yan, Huanyao Zhang, Jiahao Xu, Haitao Mi, Wentao Zhang,
- Abstract要約: Agentic Retrieval-Augmented Generation (RAG)は、大規模言語モデルを自律的に計画し、複雑な問題解決のための情報を取得する権限を与える。
本稿では、RAGタスクとロバストエージェントトラジェクトリの構築を自動化するために設計された新しいデータ合成フレームワークであるRAGShaperを紹介する。
- 参考スコア(独自算出の注目度): 29.39426376890088
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agentic Retrieval-Augmented Generation (RAG) empowers large language models to autonomously plan and retrieve information for complex problem-solving. However, the development of robust agents is hindered by the scarcity of high-quality training data that reflects the noise and complexity of real-world retrieval environments. Conventional manual annotation is unscalable and often fails to capture the dynamic reasoning strategies required to handle retrieval failures. To bridge this gap, we introduce RAGShaper, a novel data synthesis framework designed to automate the construction of RAG tasks and robust agent trajectories. RAGShaper incorporates an InfoCurator to build dense information trees enriched with adversarial distractors spanning Perception and Cognition levels. Furthermore, we propose a constrained navigation strategy that forces a teacher agent to confront these distractors, thereby eliciting trajectories that explicitly demonstrate error correction and noise rejection. Comprehensive experiments confirm that models trained on our synthesized corpus significantly outperform existing baselines, exhibiting superior robustness in noise-intensive and complex retrieval tasks.
- Abstract(参考訳): Agentic Retrieval-Augmented Generation (RAG)は、大規模言語モデルを自律的に計画し、複雑な問題解決のための情報を取得する権限を与える。
しかし、ロバストエージェントの開発は、現実世界の検索環境のノイズや複雑さを反映した高品質なトレーニングデータの不足によって妨げられている。
従来の手動アノテーションはスケール不可能であり、しばしば検索障害を扱うのに必要な動的な推論戦略をキャプチャするのに失敗する。
このギャップを埋めるために、RAGタスクと堅牢なエージェントトラジェクトリの構築を自動化するために設計された新しいデータ合成フレームワークであるRAGShaperを紹介する。
RAGShaperにはInfoCuratorが組み込まれており、PerceptionとCognitionのレベルにまたがる逆方向の散らばった高密度な情報ツリーを構築する。
さらに,教師がこれらの障害に直面することを強いる制約付きナビゲーション戦略を提案し,エラー訂正とノイズ除去を明確に示すトラジェクトリを導出する。
総合的な実験により、合成コーパスで訓練されたモデルは既存のベースラインを著しく上回り、ノイズ集約的かつ複雑な検索タスクにおいて優れた堅牢性を示すことが確認された。
関連論文リスト
- Lost in the Noise: How Reasoning Models Fail with Contextual Distractors [57.31788955167306]
推論モデルとエージェントAIシステムの最近の進歩は、多様な外部情報への依存度を高めている。
NoisyBenchは、RAGの11のデータセット、推論、アライメント、ツール使用タスクに対して、モデルロバスト性を体系的に評価する包括的なベンチマークである。
評価の結果,文脈的障害に直面した場合,最先端モデルでは最大80%の破滅的な性能低下がみられた。
論文 参考訳(メタデータ) (2026-01-12T05:43:51Z) - Multi-hop Reasoning via Early Knowledge Alignment [68.28168992785896]
アーリー・ナレッジ・アライメント(EKA)は、大規模言語モデルと文脈的に関連づけられた知識を整合させることを目的としている。
EKAは検索精度を大幅に改善し、カスケードエラーを低減し、性能と効率を向上する。
EKAは、大規模モデルにシームレスにスケールする、多目的でトレーニング不要な推論戦略として有効である。
論文 参考訳(メタデータ) (2025-12-23T08:14:44Z) - Improving Deepfake Detection with Reinforcement Learning-Based Adaptive Data Augmentation [60.04281435591454]
CRDA(Curriculum Reinforcement-Learning Data Augmentation)は、マルチドメインの偽造機能を段階的にマスターするための検出器を導く新しいフレームワークである。
私たちのアプローチの中心は、強化学習と因果推論を統合することです。
提案手法は検出器の一般化性を大幅に向上し,複数のクロスドメインデータセット間でSOTA法より優れている。
論文 参考訳(メタデータ) (2025-11-10T12:45:52Z) - Interact-RAG: Reason and Interact with the Corpus, Beyond Black-Box Retrieval [49.85856484781787]
本稿では,ILMエージェントを検索プロセスのアクティブマニピュレータに高める新しいパラダイムであるInteract-RAGを紹介する。
我々は、ゼロショット実行と相互作用軌跡の合成を可能にする推論強化ワークフローを開発する。
6つのベンチマーク実験により、Interact-RAGは他の高度な手法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2025-10-31T15:48:43Z) - WebSailor-V2: Bridging the Chasm to Proprietary Agents via Synthetic Data and Scalable Reinforcement Learning [73.91893534088798]
WebSailorは、この重要な機能を組み込むように設計された、完全なポストトレーニング方法論である。
我々のアプローチは、構造化サンプリングと情報難読化によって、新しい、不確実なタスクを生成することである。
WebSailorは複雑な情報検索タスクにおいて、すべてのオープンソースエージェントを著しく上回る。
論文 参考訳(メタデータ) (2025-09-16T17:57:03Z) - MA-RAG: Multi-Agent Retrieval-Augmented Generation via Collaborative Chain-of-Thought Reasoning [36.3918410061572]
MA-RAGは、複雑な情報探索タスクにおける固有の曖昧さと推論の問題に対処する。
エンドツーエンドの微調整や分離されたコンポーネント拡張に依存する従来のRAGメソッドとは異なり、MA-RAGは特別なAIエージェントの協調的なセットを編成する。
本結果は,検索強化システムにおける協調的,モジュール型推論の有効性を浮き彫りにしたものである。
論文 参考訳(メタデータ) (2025-05-26T15:05:18Z) - Agentic Retrieval-Augmented Generation: A Survey on Agentic RAG [0.8463972278020965]
大規模言語モデル(LLM)は、人間のようなテキスト生成や自然言語理解を可能にすることによって、人工知能(AI)に革命をもたらした。
Retrieval Augmented Generation (RAG) がソリューションとして登場し、リアルタイムデータ検索を統合して文脈に関連のある応答を提供することでLLMを強化している。
Agentic Retrieval-Augmented Generation (RAG)は、自律的なAIエージェントをRAGパイプラインに埋め込むことによって、これらの制限を超越する。
論文 参考訳(メタデータ) (2025-01-15T20:40:25Z) - An Adaptive Framework for Generating Systematic Explanatory Answer in Online Q&A Platforms [62.878616839799776]
質問応答(QA)性能を向上させるために設計された,革新的なフレームワークであるSynthRAGを提案する。
SynthRAGは動的コンテンツの構造化に適応的なアウトラインを用いることで従来のモデルを改善する。
Zhihuプラットフォーム上のオンラインデプロイメントでは、SynthRAGの回答が注目すべきユーザエンゲージメントを実現していることが明らかになった。
論文 参考訳(メタデータ) (2024-10-23T09:14:57Z) - $\text{R}^2$-Bench: Benchmarking the Robustness of Referring Perception
Models under Perturbations [36.74309198908876]
摂動の包括的分類法を提案し, 複合障害の効果を合成・評価するための汎用ツールボックスを開発した。
LLMをベースとしたエージェントであるtextR2$-Agentを提案する。
論文 参考訳(メタデータ) (2024-03-07T22:18:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。