論文の概要: Hunt Globally: Deep Research AI Agents for Drug Asset Scouting in Investing, Business Development, and Search & Evaluation
- arxiv url: http://arxiv.org/abs/2602.15019v1
- Date: Mon, 16 Feb 2026 18:57:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.644377
- Title: Hunt Globally: Deep Research AI Agents for Drug Asset Scouting in Investing, Business Development, and Search & Evaluation
- Title(参考訳): Hunt Globally:投資・ビジネス開発・検索・評価におけるドラッグ・アセット・スカウトのためのディープリサーチAIエージェント
- Authors: Alisa Vinogradova, Vlad Vinogradov, Luba Greenwood, Ilya Yasny, Dmitry Kobyzev, Shoman Kasbekar, Kong Nguyen, Dmitrii Radkevich, Roman Doronin, Andrey Doronichev,
- Abstract要約: 現在、多くの新薬の資産はアメリカ国外から生まれており、主に地域、非英語チャンネルを通じて開示されている。
本稿では,ドラッグ・アセット・スカウトのためのベンチマーク手法と,ツリー・ベースの自己学習型バイオ光学エージェントを提案する。
We compare Bioptic Agent against Claude Opus 4.6, OpenAI GPT-5.2 Pro, Perplexity Deep Research, Gemini 3 Pro + Deep Research, Exa Websets。
- 参考スコア(独自算出の注目度): 0.2242867844843965
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bio-pharmaceutical innovation has shifted: many new drug assets now originate outside the United States and are disclosed primarily via regional, non-English channels. Recent data suggests >85% of patent filings originate outside the U.S., with China accounting for nearly half of the global total; a growing share of scholarly output is also non-U.S. Industry estimates put China at ~30% of global drug development, spanning 1,200+ novel candidates. In this high-stakes environment, failing to surface "under-the-radar" assets creates multi-billion-dollar risk for investors and business development teams, making asset scouting a coverage-critical competition where speed and completeness drive value. Yet today's Deep Research AI agents still lag human experts in achieving high-recall discovery across heterogeneous, multilingual sources without hallucinations. We propose a benchmarking methodology for drug asset scouting and a tuned, tree-based self-learning Bioptic Agent aimed at complete, non-hallucinated scouting. We construct a challenging completeness benchmark using a multilingual multi-agent pipeline: complex user queries paired with ground-truth assets that are largely outside U.S.-centric radar. To reflect real deal complexity, we collected screening queries from expert investors, BD, and VC professionals and used them as priors to conditionally generate benchmark queries. For grading, we use LLM-as-judge evaluation calibrated to expert opinions. We compare Bioptic Agent against Claude Opus 4.6, OpenAI GPT-5.2 Pro, Perplexity Deep Research, Gemini 3 Pro + Deep Research, and Exa Websets. Bioptic Agent achieves 79.7% F1 versus 56.2% (Claude Opus 4.6), 50.6% (Gemini 3 Pro + Deep Research), 46.6% (GPT-5.2 Pro), 44.2% (Perplexity Deep Research), and 26.9% (Exa Websets). Performance improves steeply with additional compute, supporting the view that more compute yields better results.
- Abstract(参考訳): バイオ医薬品の革新は変化しており、多くの新薬は米国外で産出され、主に地域、非英語チャンネルを通じて開示されている。
最近のデータによると、米国外での特許出願の85%は中国が世界全体のほぼ半分を占めており、学術的なアウトプットのシェアは米国以外の産業でも増加している。
このハイテイク環境では、"アンダー・ザ・ラーダー(under-the-radar)"資産を表面化できないと、投資家やビジネス開発チームにとって、数十億ドルのリスクが生じるため、アセット・スカウトは、スピードと完全性が価値をもたらすカバークリティカルな競争になる。
しかし今日のDeep ResearchのAIエージェントは、幻覚のない異種多言語ソースをまたいだハイリコールの発見に、人間の専門家を怠っている。
本稿では,ドラッグ・アセット・スカウトのためのベンチマーク手法と,完全かつ非コーカレート・スカウトを目的としたツリー・ベース・セルフラーニング・バイオオプティカル・エージェントを提案する。
我々は,多言語マルチエージェントパイプラインを用いた難解な完全性ベンチマークを構築した。
実際の複雑性を反映するために、専門家の投資家、BD、VCの専門家によるスクリーニングクエリを収集し、それらを前もってベンチマーククエリを条件付きで生成しました。
評価には、専門家の意見に合わせて調整されたLCM-as-judge評価を用いる。
We compare Bioptic Agent against Claude Opus 4.6, OpenAI GPT-5.2 Pro, Perplexity Deep Research, Gemini 3 Pro + Deep Research, Exa Websets。
Bioptic Agent は 79.7% F1 vs 56.2% (Claude Opus 4.6), 50.6% (Gemini 3 Pro + Deep Research), 46.6% (GPT-5.2 Pro), 44.2% (Perplexity Deep Research), 26.9% (Exa Websets) を達成している。
さらなる計算でパフォーマンスが大幅に向上し、より多くの計算がより良い結果をもたらすという見方をサポートする。
関連論文リスト
- Can Deep Research Agents Find and Organize? Evaluating the Synthesis Gap with Expert Taxonomies [57.11324429385405]
72のコンピュータサイエンスサーベイから得られた診断ベンチマークであるTaxoBenchを紹介する。
我々は,3,815個の引用を根本的真理として正確に分類した分類木を手作業で抽出した。
ベストエージェントは、専門家が選択した論文の20.9%しかリコールせず、完璧なインプットであっても、最高のモデルは組織の0.31 ARIしか達成していない。
論文 参考訳(メタデータ) (2026-01-18T11:57:09Z) - AstaBench: Rigorous Benchmarking of AI Agents with a Scientific Research Suite [75.58737079136942]
本稿では,AstaBenchについて紹介する。AstaBenchは,科学的研究を行うためのエージェント能力の総合的な測定を行うスイートである。
私たちのスイートには、プロダクショングレードの検索ツールを備えた、最初の科学研究環境が付属しています。
22のエージェントクラスで57のエージェントを評価したところ,いくつかの興味深い結果が得られた。
論文 参考訳(メタデータ) (2025-10-24T17:10:26Z) - Shoot First, Ask Questions Later? Building Rational Agents that Explore and Act Like People [81.63702981397408]
限られたリソースを前提として、言語モデル(LM)に基づいたエージェントは、どの程度合理的に行動するのか?
エージェント情報探索をベンチマークし,強化する手法を開発し,人間の行動から洞察を抽出する。
Spotterエージェントでは、LMのみのベースラインよりも14.7%の精度で精度を向上し、Captainエージェントでは、期待情報ゲイン(EIG)を0.227ビット(達成可能なノイズ天井の94.2%)まで引き上げる。
論文 参考訳(メタデータ) (2025-10-23T17:57:28Z) - LLM-Based Agents for Competitive Landscape Mapping in Drug Asset Due Diligence [0.231749519765552]
我々は、エージェントAIシステム内で高速な薬物資産デューディリジェンスに使用される競合発見コンポーネントを記述し、ベンチマークする。
競合するAIエージェントは、表示が与えられた場合、その表示の競合する風景を含むすべての薬物を検索する。
当社の競合発見エージェントは,OpenAI Deep ResearchとPerplexity Labsを上回る83%のリコールを達成した。
論文 参考訳(メタデータ) (2025-08-22T17:50:00Z) - Predicting Empirical AI Research Outcomes with Language Models [27.148683265085012]
AI研究における有望なアイデアの多くは提供されないが、その検証には相当な人的労力と計算が必要だ。
このタスクの最初のベンチマークを構築し、LMと人間の専門家を比較します。
私たちはカンファレンス論文からアイデアと実験結果を取り除き、ベースモデルがテストの切り離し日後に公表された1,585人の人間による検証されたアイデアペアを生成しました。
我々は,精巧なGPT-4.1と紙検索エージェントを組み合わせたシステムを開発し,25人の人間専門家を雇って比較する。
NLP領域では、我々のシステムは人間の専門家を64.4%対48.で破る。
論文 参考訳(メタデータ) (2025-06-01T02:46:31Z) - Tree Search for Language Model Agents [73.97960454223164]
対話型Web環境での探索と多段階計画を行うために,LMエージェントの推論時探索アルゴリズムを提案する。
我々のアプローチは、実環境空間内で機能する最優先木探索の一形態である。
現実的なWebタスクにおいて有効性を示すLMエージェントのための最初の木探索アルゴリズムである。
論文 参考訳(メタデータ) (2024-07-01T17:07:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。