論文の概要: DeepResearchGuard: Deep Research with Open-Domain Evaluation and Multi-Stage Guardrails for Safety
- arxiv url: http://arxiv.org/abs/2510.10994v1
- Date: Mon, 13 Oct 2025 04:11:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.196258
- Title: DeepResearchGuard: Deep Research with Open-Domain Evaluation and Multi-Stage Guardrails for Safety
- Title(参考訳): DeepResearchGuard: 安全のためのオープンドメイン評価とマルチステージガードレールによるディープリサーチ
- Authors: Wei-Chieh Huang, Henry Peng Zou, Yaozu Wu, Dongyuan Li, Yankai Chen, Weizhi Zhang, Yangning Li, Angelo Zangari, Jizhou Guo, Chunyu Miao, Liancheng Fang, Langzhou He, Renhe Jiang, Philip S. Yu,
- Abstract要約: ディープリサーチフレームワークは一般的に、信頼性、一貫性、幅、深さ、安全性などのレポート品質の重要な側面を見落としている。
DeEPRESEARCHGUARDは、4段階の安全ガードと参照とレポートのオープンドメイン評価を備えた総合的なフレームワークである。
我々は,GPT-4o,Gemini-2.5-flash,DeepSeek-v3,o4-miniなど,最先端のLLMのさまざまな評価を行った。
- 参考スコア(独自算出の注目度): 55.30944259390733
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep research frameworks have shown promising capabilities in synthesizing comprehensive reports from web sources. While deep research possesses significant potential to address complex issues through planning and research cycles, existing frameworks are deficient in sufficient evaluation procedures and stage-specific protections. They typically treat evaluation as exact match accuracy of question-answering, but overlook crucial aspects of report quality such as credibility, coherence, breadth, depth, and safety. This oversight may result in hazardous or malicious sources being integrated into the final report. To address these issues, we introduce DEEPRESEARCHGUARD, a comprehensive framework featuring four-stage safeguards with open-domain evaluation of references and reports. We assess performance across multiple metrics, e.g., defense success rate and over-refusal rate, and five key report dimensions. In the absence of a suitable safety benchmark, we introduce DRSAFEBENCH, a stage-wise benchmark for deep research safety. Our evaluation spans diverse state-of-the-art LLMs, including GPT-4o, Gemini-2.5-flash, DeepSeek-v3, and o4-mini. DEEPRESEARCHGUARD achieves an average defense success rate improvement of 18.16% while reducing over-refusal rate by 6%. The input guard provides the most substantial early-stage protection by filtering out obvious risks, while the plan and research guards enhance citation discipline and source credibility. Through extensive experiments, we show that DEEPRESEARCHGUARD enables comprehensive open-domain evaluation and stage-aware defenses that effectively block harmful content propagation, while systematically improving report quality without excessive over-refusal rates. The code can be found via https://github.com/Jasonya/DeepResearchGuard.
- Abstract(参考訳): ディープリサーチフレームワークは、Webソースからの包括的なレポートを合成する有望な能力を示している。
ディープリサーチは計画や研究サイクルを通じて複雑な問題に対処する大きな可能性を秘めているが、既存のフレームワークは十分な評価手順とステージ固有の保護に不足している。
彼らは通常、評価を質問に対する回答の正確な一致精度として扱うが、信頼性、コヒーレンス、幅、深さ、安全性などのレポート品質の重要な側面を見落としている。
この監視により、危険または悪意のある情報源が最終報告書に統合される可能性がある。
これらの課題に対処するため,DEPRESEARCHGUARDという,参照やレポートのオープンドメイン評価を備えた4段階のセーフガードを備えた総合的なフレームワークを紹介した。
複数の指標、例えば、防衛成功率、過剰拒絶率、および5つの重要なレポート次元のパフォーマンスを評価する。
DRSAFEBENCHは, 適切な安全ベンチマークが存在しない場合に, 深層研究安全のための段階的なベンチマークである。
我々は,GPT-4o,Gemini-2.5-flash,DeepSeek-v3,o4-miniなど,最先端のLLMのさまざまな評価を行った。
DEEPEAREARCHGUARDは平均防衛成功率を18.16%向上させ、過剰拒絶率を6%削減した。
入力ガードは、明らかなリスクをフィルタリングすることで、最も実質的な早期保護を提供する一方、計画と研究ガードは、引用の規律とソースの信頼性を高める。
DeEPEAREARCHGUARDは、有害なコンテンツの伝播を効果的に阻止すると共に、過剰な拒絶率を伴わずに、報告品質を体系的に改善し、包括的なオープンドメイン評価とステージアウェアディフェンスを可能にする。
コードはhttps://github.com/Jasonya/DeepResearchGuard.comから参照することができる。
関連論文リスト
- DeepTRACE: Auditing Deep Research AI Systems for Tracking Reliability Across Citations and Evidence [50.97612134791782]
生成検索エンジンと深層研究のLLMエージェントは、信頼できるソース・グラウンドの合成を約束するが、ユーザーは常に過剰な自信、弱いソーシング、紛らわしい引用の慣行に遭遇する。
DeepTRACEは、社会技術的に基礎をおく新しい監査フレームワークで、コミュニティが特定した失敗事例を、回答テキスト、情報源、引用にまたがる8つの測定可能な次元に変換する。
論文 参考訳(メタデータ) (2025-09-02T00:32:38Z) - SOSBENCH: Benchmarking Safety Alignment on Scientific Knowledge [11.63268709958876]
SOSBenchは、大規模な言語モデルのための規制対象のハザード中心のベンチマークである。
化学、生物学、医学、薬理学、物理学、心理学の6つのリスクの高い分野をカバーしている。
SOSBenchを用いた統合評価フレームワークにおけるフロンティアモデルの評価を行った。
論文 参考訳(メタデータ) (2025-05-27T17:47:08Z) - REVAL: A Comprehension Evaluation on Reliability and Values of Large Vision-Language Models [59.445672459851274]
REVALは、Large Vision-Language Modelsの textbfREliability と textbfVALue を評価するために設計された包括的なベンチマークである。
REVALには144K以上の画像テキストビジュアル質問回答(VQA)サンプルが含まれており、信頼性と価値の2つの主要なセクションで構成されている。
主流のオープンソースLVLMや,GPT-4oやGemini-1.5-Proといった著名なクローズドソースモデルを含む26のモデルを評価した。
論文 参考訳(メタデータ) (2025-03-20T07:54:35Z) - LLM-Safety Evaluations Lack Robustness [58.334290876531036]
我々は、大規模言語モデルに対する現在の安全アライメント研究は、多くのノイズ源によって妨げられていると論じる。
本研究では,将来の攻撃・防衛用紙の評価において,ノイズやバイアスを低減させる一連のガイドラインを提案する。
論文 参考訳(メタデータ) (2025-03-04T12:55:07Z) - Safety Evaluation of DeepSeek Models in Chinese Contexts [12.297396865203973]
本研究では,中国固有の安全性評価ベンチマークであるCHiSafetyBenchを紹介する。
このベンチマークは、中国の文脈におけるDeepSeek-R1とDeepSeek-V3の安全性を体系的に評価する。
実験結果は、これらの2つのモデルの中国の文脈における欠陥を定量化し、その後の改善の鍵となる洞察を与える。
論文 参考訳(メタデータ) (2025-02-16T14:05:54Z) - A Survey of Safety on Large Vision-Language Models: Attacks, Defenses and Evaluations [127.52707312573791]
この調査はLVLMの安全性を包括的に分析し、攻撃、防御、評価方法などの重要な側面をカバーする。
我々はこれらの相互関連コンポーネントを統合する統一フレームワークを導入し、LVLMの脆弱性を概観する。
我々は,最新のLVLMであるDeepseek Janus-Pro上で一連の安全性評価を行い,その結果を理論的に分析する。
論文 参考訳(メタデータ) (2025-02-14T08:42:43Z) - Trustworthiness in Retrieval-Augmented Generation Systems: A Survey [59.26328612791924]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の開発において、急速に重要なパラダイムへと成長してきた。
本稿では,RAGシステムの信頼性を,事実性,堅牢性,公正性,透明性,説明責任,プライバシの6つの面で評価する統一的な枠組みを提案する。
論文 参考訳(メタデータ) (2024-09-16T09:06:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。