論文の概要: Hunt Globally: Deep Research AI Agents for Drug Asset Scouting in Investing, Business Development, and Search & Evaluation
- arxiv url: http://arxiv.org/abs/2602.15019v1
- Date: Mon, 16 Feb 2026 18:57:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.644377
- Title: Hunt Globally: Deep Research AI Agents for Drug Asset Scouting in Investing, Business Development, and Search & Evaluation
- Title(参考訳): Hunt Globally:投資・ビジネス開発・検索・評価におけるドラッグ・アセット・スカウトのためのディープリサーチAIエージェント
- Authors: Alisa Vinogradova, Vlad Vinogradov, Luba Greenwood, Ilya Yasny, Dmitry Kobyzev, Shoman Kasbekar, Kong Nguyen, Dmitrii Radkevich, Roman Doronin, Andrey Doronichev,
- Abstract要約: 現在、多くの新薬の資産はアメリカ国外から生まれており、主に地域、非英語チャンネルを通じて開示されている。
本稿では,ドラッグ・アセット・スカウトのためのベンチマーク手法と,ツリー・ベースの自己学習型バイオ光学エージェントを提案する。
We compare Bioptic Agent against Claude Opus 4.6, OpenAI GPT-5.2 Pro, Perplexity Deep Research, Gemini 3 Pro + Deep Research, Exa Websets。
- 参考スコア(独自算出の注目度): 0.2242867844843965
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bio-pharmaceutical innovation has shifted: many new drug assets now originate outside the United States and are disclosed primarily via regional, non-English channels. Recent data suggests >85% of patent filings originate outside the U.S., with China accounting for nearly half of the global total; a growing share of scholarly output is also non-U.S. Industry estimates put China at ~30% of global drug development, spanning 1,200+ novel candidates. In this high-stakes environment, failing to surface "under-the-radar" assets creates multi-billion-dollar risk for investors and business development teams, making asset scouting a coverage-critical competition where speed and completeness drive value. Yet today's Deep Research AI agents still lag human experts in achieving high-recall discovery across heterogeneous, multilingual sources without hallucinations. We propose a benchmarking methodology for drug asset scouting and a tuned, tree-based self-learning Bioptic Agent aimed at complete, non-hallucinated scouting. We construct a challenging completeness benchmark using a multilingual multi-agent pipeline: complex user queries paired with ground-truth assets that are largely outside U.S.-centric radar. To reflect real deal complexity, we collected screening queries from expert investors, BD, and VC professionals and used them as priors to conditionally generate benchmark queries. For grading, we use LLM-as-judge evaluation calibrated to expert opinions. We compare Bioptic Agent against Claude Opus 4.6, OpenAI GPT-5.2 Pro, Perplexity Deep Research, Gemini 3 Pro + Deep Research, and Exa Websets. Bioptic Agent achieves 79.7% F1 versus 56.2% (Claude Opus 4.6), 50.6% (Gemini 3 Pro + Deep Research), 46.6% (GPT-5.2 Pro), 44.2% (Perplexity Deep Research), and 26.9% (Exa Websets). Performance improves steeply with additional compute, supporting the view that more compute yields better results.
- Abstract(参考訳): バイオ医薬品の革新は変化しており、多くの新薬は米国外で産出され、主に地域、非英語チャンネルを通じて開示されている。
最近のデータによると、米国外での特許出願の85%は中国が世界全体のほぼ半分を占めており、学術的なアウトプットのシェアは米国以外の産業でも増加している。
このハイテイク環境では、"アンダー・ザ・ラーダー(under-the-radar)"資産を表面化できないと、投資家やビジネス開発チームにとって、数十億ドルのリスクが生じるため、アセット・スカウトは、スピードと完全性が価値をもたらすカバークリティカルな競争になる。
しかし今日のDeep ResearchのAIエージェントは、幻覚のない異種多言語ソースをまたいだハイリコールの発見に、人間の専門家を怠っている。
本稿では,ドラッグ・アセット・スカウトのためのベンチマーク手法と,完全かつ非コーカレート・スカウトを目的としたツリー・ベース・セルフラーニング・バイオオプティカル・エージェントを提案する。
我々は,多言語マルチエージェントパイプラインを用いた難解な完全性ベンチマークを構築した。
実際の複雑性を反映するために、専門家の投資家、BD、VCの専門家によるスクリーニングクエリを収集し、それらを前もってベンチマーククエリを条件付きで生成しました。
評価には、専門家の意見に合わせて調整されたLCM-as-judge評価を用いる。
We compare Bioptic Agent against Claude Opus 4.6, OpenAI GPT-5.2 Pro, Perplexity Deep Research, Gemini 3 Pro + Deep Research, Exa Websets。
Bioptic Agent は 79.7% F1 vs 56.2% (Claude Opus 4.6), 50.6% (Gemini 3 Pro + Deep Research), 46.6% (GPT-5.2 Pro), 44.2% (Perplexity Deep Research), 26.9% (Exa Websets) を達成している。
さらなる計算でパフォーマンスが大幅に向上し、より多くの計算がより良い結果をもたらすという見方をサポートする。
関連論文リスト
- AgentIR: Reasoning-Aware Retrieval for Deep Research Agents [76.29382561831105]
ディープリサーチエージェントは、各検索の前に明示的な自然言語推論を生成する。
Reasoning-Aware Retrievalは、クエリと一緒にエージェントの推論トレースを埋め込む。
DR-Synthは、標準的なQAデータセットからDeep Researchレトリバーのトレーニングデータを生成する。
AgentIR-4Bは、オープンウェイトエージェントであるTongyi-DeepResearchで68%の精度を達成する。
論文 参考訳(メタデータ) (2026-03-04T18:47:26Z) - ResearchGym: Evaluating Language Model Agents on Real-World AI Research [48.46915933681714]
我々は、エンドツーエンドの研究においてAIエージェントを評価するためのベンチマークおよび実行環境であるResearchGymを紹介する。
これを実現するために,ICML,ICLR,ACLの5つの口頭およびスポットライト論文を再利用した。
GPT-5を動力とするエージェントの制御評価において、我々は鋭い能力-信頼性ギャップを観察する。
論文 参考訳(メタデータ) (2026-02-16T19:00:03Z) - The Strategic Foresight of LLMs: Evidence from a Fully Prospective Venture Tournament [0.19116784879310025]
当社は、Prolificを通じて採用した346人の経験豊富なマネージャと、監視対象条件の下で作業しているMBAのトレーニングを受けた投資家3名に対して、予測をベンチマークした。
人間の評価者は0.04から0.45の実際の結果とランク相関を達成し、いくつかのフロンティアLSMは0.60を超え、最高のジェニーニ2.5 Proは0.74に達した。
知恵に満ちたアンサンブルも、人間とAIのハイブリッドチームも、最高のスタンドアロンモデルを上回っませんでした。
論文 参考訳(メタデータ) (2026-02-02T05:52:16Z) - Can Deep Research Agents Find and Organize? Evaluating the Synthesis Gap with Expert Taxonomies [57.11324429385405]
72のコンピュータサイエンスサーベイから得られた診断ベンチマークであるTaxoBenchを紹介する。
我々は,3,815個の引用を根本的真理として正確に分類した分類木を手作業で抽出した。
ベストエージェントは、専門家が選択した論文の20.9%しかリコールせず、完璧なインプットであっても、最高のモデルは組織の0.31 ARIしか達成していない。
論文 参考訳(メタデータ) (2026-01-18T11:57:09Z) - The Adoption and Usage of AI Agents: Early Evidence from Perplexity [3.3745699838984144]
本稿では,汎用AIエージェントの採用状況,利用状況,利用状況に関する大規模研究について述べる。
私たちの分析では、Perplexityが開発したAIベースのブラウザであるCometと、その統合エージェントであるComet Assistantを中心にしています。
論文 参考訳(メタデータ) (2025-12-08T18:56:10Z) - AstaBench: Rigorous Benchmarking of AI Agents with a Scientific Research Suite [75.58737079136942]
本稿では,AstaBenchについて紹介する。AstaBenchは,科学的研究を行うためのエージェント能力の総合的な測定を行うスイートである。
私たちのスイートには、プロダクショングレードの検索ツールを備えた、最初の科学研究環境が付属しています。
22のエージェントクラスで57のエージェントを評価したところ,いくつかの興味深い結果が得られた。
論文 参考訳(メタデータ) (2025-10-24T17:10:26Z) - Shoot First, Ask Questions Later? Building Rational Agents that Explore and Act Like People [81.63702981397408]
限られたリソースを前提として、言語モデル(LM)に基づいたエージェントは、どの程度合理的に行動するのか?
エージェント情報探索をベンチマークし,強化する手法を開発し,人間の行動から洞察を抽出する。
Spotterエージェントでは、LMのみのベースラインよりも14.7%の精度で精度を向上し、Captainエージェントでは、期待情報ゲイン(EIG)を0.227ビット(達成可能なノイズ天井の94.2%)まで引き上げる。
論文 参考訳(メタデータ) (2025-10-23T17:57:28Z) - LLM-Based Agents for Competitive Landscape Mapping in Drug Asset Due Diligence [0.231749519765552]
我々は、エージェントAIシステム内で高速な薬物資産デューディリジェンスに使用される競合発見コンポーネントを記述し、ベンチマークする。
競合するAIエージェントは、表示が与えられた場合、その表示の競合する風景を含むすべての薬物を検索する。
当社の競合発見エージェントは,OpenAI Deep ResearchとPerplexity Labsを上回る83%のリコールを達成した。
論文 参考訳(メタデータ) (2025-08-22T17:50:00Z) - Predicting Empirical AI Research Outcomes with Language Models [27.148683265085012]
AI研究における有望なアイデアの多くは提供されないが、その検証には相当な人的労力と計算が必要だ。
このタスクの最初のベンチマークを構築し、LMと人間の専門家を比較します。
私たちはカンファレンス論文からアイデアと実験結果を取り除き、ベースモデルがテストの切り離し日後に公表された1,585人の人間による検証されたアイデアペアを生成しました。
我々は,精巧なGPT-4.1と紙検索エージェントを組み合わせたシステムを開発し,25人の人間専門家を雇って比較する。
NLP領域では、我々のシステムは人間の専門家を64.4%対48.で破る。
論文 参考訳(メタデータ) (2025-06-01T02:46:31Z) - Exploring Expert Failures Improves LLM Agent Tuning [74.0772570556016]
本稿では,失敗した専門家の軌道から有益な行動を識別する専門的失敗の探索(EEF)を提案する。
EEFは、未解決のいくつかのサブタスクをうまく解決し、エージェントチューニング性能を改善する。
論文 参考訳(メタデータ) (2025-04-17T17:53:54Z) - RE-Bench: Evaluating frontier AI R&D capabilities of language model agents against human experts [4.06186944042499]
7つの挑戦的でオープンなMLリサーチエンジニアリング環境と、61人の専門家による71の8時間の試みのデータで構成されるRE-Benchを紹介します。
最高のAIエージェントは、環境当たりの合計時間予算が2時間与えられたとき、人間の専門家よりも4倍高いスコアを得る。
現在、人間は時間予算の増加に対してより良いリターンを示しており、8時間予算で上位AIエージェントのスコアをわずかに上回り、合計32時間(異なる試み)で上位AIエージェントのスコアを2倍にしている。
論文 参考訳(メタデータ) (2024-11-22T18:30:46Z) - Tree Search for Language Model Agents [73.97960454223164]
対話型Web環境での探索と多段階計画を行うために,LMエージェントの推論時探索アルゴリズムを提案する。
我々のアプローチは、実環境空間内で機能する最優先木探索の一形態である。
現実的なWebタスクにおいて有効性を示すLMエージェントのための最初の木探索アルゴリズムである。
論文 参考訳(メタデータ) (2024-07-01T17:07:55Z) - CSPRD: A Financial Policy Retrieval Dataset for Chinese Stock Market [61.59326951366202]
我々は、中国株式政策検索データセット(CSPRD)を導入して、新たな課題である政策検索を提案する。
CSPRDは、中国の政策コーパスの10k以上の項目から、経験豊富な専門家によってラベル付けされた700以上のパスを提供する。
我々の最高のパフォーマンスベースラインは56.1% MRR@10、28.5% NDCG@10、37.5% Recall@10、80.6% Precision@10である。
論文 参考訳(メタデータ) (2023-09-08T15:40:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。