論文の概要: Evaluating Stochasticity in Deep Research Agents
- arxiv url: http://arxiv.org/abs/2602.23271v1
- Date: Thu, 26 Feb 2026 17:46:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.819304
- Title: Evaluating Stochasticity in Deep Research Agents
- Title(参考訳): ディープリサーチエージェントの確率性評価
- Authors: Haotian Zhai, Elias Stengel-Eskin, Pratik Patil, Liu Leqi,
- Abstract要約: ディープ・リサーチ・エージェント(Dep Research Agents, DRA)は、金融決定、医学分析、科学的発見などの分野にわたる研究を支援するためのエージェント・システムである。
研究品質は近年改善されているが、DRAシステム設計は実世界の展開における重要な障壁を見落としていることが多い。
同一のクエリの下では、DRAの繰り返し実行は、研究結果、発見、および引用の点でかなりの変動を示す可能性がある。
- 参考スコア(独自算出の注目度): 34.59664118367103
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Deep Research Agents (DRAs) are promising agentic systems that gather and synthesize information to support research across domains such as financial decision-making, medical analysis, and scientific discovery. Despite recent improvements in research quality (e.g., outcome accuracy when ground truth is available), DRA system design often overlooks a critical barrier to real-world deployment: stochasticity. Under identical queries, repeated executions of DRAs can exhibit substantial variability in terms of research outcome, findings, and citations. In this paper, we formalize the study of stochasticity in DRAs by modeling them as information acquisition Markov Decision Processes. We introduce an evaluation framework that quantifies variance in the system and identify three sources of it: information acquisition, information compression, and inference. Through controlled experiments, we investigate how stochasticity from these modules across different decision steps influences the variance of DRA outputs. Our results show that reducing stochasticity can improve research output quality, with inference and early-stage stochasticity contributing the most to DRA output variance. Based on these findings, we propose strategies for mitigating stochasticity while maintaining output quality via structured output and ensemble-based query generation. Our experiments on DeepSearchQA show that our proposed mitigation methods reduce average stochasticity by 22% while maintaining high research quality.
- Abstract(参考訳): ディープリサーチエージェント(英: Deep Research Agents、DRA)は、金融決定、医学分析、科学的発見などの分野にわたる研究を支援するために情報を収集・合成する有望なエージェントシステムである。
最近の研究品質の改善(例えば、基礎的な真実が利用可能になった場合の結果の正確性)にもかかわらず、DRAシステム設計は現実のデプロイメントにとって重要な障壁である確率性を見落としていることが多い。
同一のクエリの下では、DRAの繰り返し実行は、研究結果、発見、および引用の点でかなりの変動を示す可能性がある。
本稿では、情報取得マルコフ決定過程としてモデル化することで、DRAにおける確率性の研究を形式化する。
本稿では,システム内の分散を定量化し,情報取得,情報圧縮,推論という3つの情報源を識別する評価フレームワークを提案する。
制御された実験を通して,これらのモジュールの確率性がDRA出力の分散にどのように影響するかを検討する。
以上の結果から,確率性の低下は,DRA出力の分散に最も寄与する推論と初期確率性によって,研究の出力品質を向上させることが示唆された。
これらの結果に基づき、構造化された出力とアンサンブルに基づくクエリ生成による出力品質を維持しつつ、確率性を緩和する戦略を提案する。
DeepSearchQA実験の結果,提案手法は研究品質を維持しつつ,平均確率を22%低減することがわかった。
関連論文リスト
- FIRE-Bench: Evaluating Agents on the Rediscovery of Scientific Insights [63.32178443510396]
FIRE-Bench (Full-cycle Insight Rediscovery Evaluation) は、確立された発見の再検討を通じてエージェントを評価するベンチマークである。
最強のエージェントでさえ、限られた再発見成功(50 F1)を達成し、実行中に高いばらつきを示し、実験的な設計、実行、エビデンスに基づく推論において繰り返し失敗モードを表示する。
論文 参考訳(メタデータ) (2026-02-02T23:21:13Z) - Exploring the Garden of Forking Paths in Empirical Software Engineering Research: A Multiverse Analysis [3.6324565773746147]
本論文は,いわゆる多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元
9つの重要な分析的決定を、少なくとも1つの等しく防御可能な代替手段で特定する。
圧倒的多数は質的に異なる結果をもたらし、時には反対の結果ももたらした。
論文 参考訳(メタデータ) (2025-12-09T18:47:00Z) - Q-Sat AI: Machine Learning-Based Decision Support for Data Saturation in Qualitative Studies [0.0]
定性的研究におけるサンプルサイズの決定は、伝統的にデータ飽和の主観的かつ曖昧な原則に依存してきた。
本研究では、機械学習(ML)に基づく新しい体系モデルを導入し、このプロセスをより客観的にする。
論文 参考訳(メタデータ) (2025-11-02T17:18:51Z) - Resolving Conflicting Evidence in Automated Fact-Checking: A Study on Retrieval-Augmented LLMs [12.923119372847834]
本稿では,ファクトチェックのためのRAGモデルを初めて体系的に評価する。
実験では、最先端のRAG手法、特にメディアソースの信頼性の違いに起因する紛争の解決において、重大な脆弱性が明らかにされている。
以上の結果から,情報源の信頼性を効果的に取り入れることで,矛盾する証拠を解決し,事実確認性能を向上させるRAGモデルの能力が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2025-05-23T11:35:03Z) - Identifying Trustworthiness Challenges in Deep Learning Models for Continental-Scale Water Quality Prediction [69.38041171537573]
水質は環境の持続可能性、生態系の回復力、公衆衛生に基礎を置いている。
ディープラーニングは、大規模な水質予測と科学的洞察生成のための変革的なポテンシャルを提供する。
汚染緩和や資源配分等、高額な運用上の意思決定に広く採用されていることは、未解決の信頼性の課題によって防止されている。
論文 参考訳(メタデータ) (2025-03-13T01:50:50Z) - Understanding the Impact of Confidence in Retrieval Augmented Generation: A Case Study in the Medical Domain [26.72234494972736]
Retrieval Augmented Generation (RAG) は、クエリの応答精度を高めるために外部情報を活用することで、Large Language Models (LLM) の知識を補完する。
本研究は、RAGが医療領域におけるLCM出力の信頼性を向上させるかどうかを検討することに焦点を当てた。
我々は,モデルの予測確率をその出力として扱い,キャリブレーション誤差法,エントロピー,最適確率,精度などを含むいくつかの評価指標を計算することにより,信頼度を評価する。
論文 参考訳(メタデータ) (2024-12-29T00:58:33Z) - Controlling Risk of Retrieval-augmented Generation: A Counterfactual Prompting Framework [77.45983464131977]
我々は、RAGモデルの予測が誤りであり、現実のアプリケーションにおいて制御不能なリスクをもたらす可能性がどの程度あるかに焦点を当てる。
本研究は,RAGの予測に影響を及ぼす2つの重要な潜伏要因を明らかにする。
我々は,これらの要因をモデルに誘導し,その応答に与える影響を解析する,反実的プロンプトフレームワークを開発した。
論文 参考訳(メタデータ) (2024-09-24T14:52:14Z) - Interpretable Causal Inference for Analyzing Wearable, Sensor, and Distributional Data [62.56890808004615]
本研究では,信頼性とロバストな意思決定を確実にする,分散データ解析の解釈可能な手法を開発した。
ADD MALTSの有用性について,糖尿病リスク軽減のための連続グルコースモニターの有効性について検討した。
論文 参考訳(メタデータ) (2023-12-17T00:42:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。