論文の概要: From Task Executors to Research Partners: Evaluating AI Co-Pilots Through Workflow Integration in Biomedical Research
- arxiv url: http://arxiv.org/abs/2512.04854v1
- Date: Thu, 04 Dec 2025 14:37:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.222468
- Title: From Task Executors to Research Partners: Evaluating AI Co-Pilots Through Workflow Integration in Biomedical Research
- Title(参考訳): タスク実行者から研究パートナーへ: バイオメディカル研究におけるワークフロー統合によるAIコパイロットの評価
- Authors: Lukas Weidener, Marko Brkić, Chiara Bacci, Mihailo Jovanović, Emre Ulgac, Alex Dobrin, Johannes Weniger, Martin Vlas, Ritvik Singh, Aakaash Meduri,
- Abstract要約: この素早いレビューでは、前臨床生医学研究におけるAIシステムのベンチマークプラクティスについて検討する。
現在のベンチマークから欠落する4つの重要な次元に対処するプロセス指向評価フレームワークが提案されている。
これらの次元は、独立したタスク実行者としてではなく、研究の共同パイロットとしてAIシステムを評価するために不可欠である。
- 参考スコア(独自算出の注目度): 0.16174969956296248
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Artificial intelligence systems are increasingly deployed in biomedical research. However, current evaluation frameworks may inadequately assess their effectiveness as research collaborators. This rapid review examines benchmarking practices for AI systems in preclinical biomedical research. Three major databases and two preprint servers were searched from January 1, 2018 to October 31, 2025, identifying 14 benchmarks that assess AI capabilities in literature understanding, experimental design, and hypothesis generation. The results revealed that all current benchmarks assess isolated component capabilities, including data analysis quality, hypothesis validity, and experimental protocol design. However, authentic research collaboration requires integrated workflows spanning multiple sessions, with contextual memory, adaptive dialogue, and constraint propagation. This gap implies that systems excelling on component benchmarks may fail as practical research co-pilots. A process-oriented evaluation framework is proposed that addresses four critical dimensions absent from current benchmarks: dialogue quality, workflow orchestration, session continuity, and researcher experience. These dimensions are essential for evaluating AI systems as research co-pilots rather than as isolated task executors.
- Abstract(参考訳): 人工知能システムは、生物医学の研究にますます利用されている。
しかし、現在の評価フレームワークは研究協力者としての有効性を不十分に評価する可能性がある。
この素早いレビューでは、前臨床生医学研究におけるAIシステムのベンチマークプラクティスについて検討する。
2018年1月1日から2025年10月31日まで、3つの主要なデータベースと2つのプレプリントサーバが検索され、文献理解、実験設計、仮説生成におけるAI能力を評価する14のベンチマークが特定された。
その結果、現在のベンチマークでは、データ分析の品質、仮説の妥当性、実験的なプロトコル設計など、独立したコンポーネント機能を評価していることがわかった。
しかし、実際の研究コラボレーションには、コンテキスト記憶、適応対話、制約伝搬を含む複数のセッションにまたがる統合ワークフローが必要である。
このギャップは、コンポーネントベンチマークに優れたシステムが、実用的な共同パイロットとして失敗することを意味している。
現在のベンチマークでは,対話品質,ワークフローオーケストレーション,セッション継続性,研究者エクスペリエンスの4つの重要な側面に対処するプロセス指向評価フレームワークが提案されている。
これらの次元は、独立したタスク実行者としてではなく、研究の共同パイロットとしてAIシステムを評価するために不可欠である。
関連論文リスト
- SelfAI: Building a Self-Training AI System with LLM Agents [79.10991818561907]
SelfAIは、高レベルの研究目的を標準化された実験構成に変換するためのUser Agentを組み合わせた、一般的なマルチエージェントプラットフォームである。
実験マネージャは、連続的なフィードバックのための構造化知識ベースを維持しながら、異種ハードウェアをまたいだ並列かつフォールトトレラントなトレーニングを編成する。
回帰、コンピュータビジョン、科学計算、医用画像、薬物発見ベンチマークなどを通じて、SelfAIは一貫して高いパフォーマンスを達成し、冗長な試行を減らしている。
論文 参考訳(メタデータ) (2025-11-29T09:18:39Z) - AstaBench: Rigorous Benchmarking of AI Agents with a Scientific Research Suite [75.58737079136942]
本稿では,AstaBenchについて紹介する。AstaBenchは,科学的研究を行うためのエージェント能力の総合的な測定を行うスイートである。
私たちのスイートには、プロダクショングレードの検索ツールを備えた、最初の科学研究環境が付属しています。
22のエージェントクラスで57のエージェントを評価したところ,いくつかの興味深い結果が得られた。
論文 参考訳(メタデータ) (2025-10-24T17:10:26Z) - Machine Text Detectors are Membership Inference Attacks [55.07733196689313]
我々は,あるタスクに対してもともと開発された手法が,他方でどのように機能するかを理論的,実証的に検討する。
7つの最先端MIA法と5つの最先端マシンテキスト検出器を含む大規模実験は、クロスタスク性能において非常に強いランク相関(rho >)を示す。
この結果から,両研究コミュニティ間のクロスタスク意識とコラボレーションの必要性が示唆された。
論文 参考訳(メタデータ) (2025-10-22T11:39:01Z) - LiveResearchBench: A Live Benchmark for User-Centric Deep Research in the Wild [86.6586720134927]
LiveResearchBenchは、日々の生活、企業、アカデミックにまたがる100の専門家によるタスクのベンチマークである。
DeepEvalは、コンテンツレベルの品質とレポートレベルの品質の両方をカバーする包括的なスイートである。
我々の分析は、信頼性と洞察に富んだ深い研究を進めるために必要な、現在の強み、繰り返し発生する障害モード、および重要なシステムコンポーネントを明らかにします。
論文 参考訳(メタデータ) (2025-10-16T02:49:16Z) - Towards Personalized Deep Research: Benchmarks and Evaluations [56.581105664044436]
我々は、Deep Research Agents(DRA)におけるパーソナライズ評価のための最初のベンチマークであるPersonalized Deep Research Benchを紹介する。
さまざまな研究タスク50と、構造化されたペルソナ属性と動的現実世界のコンテキストを組み合わせた25のユーザプロファイルを組み合わせ、250のリアルなユーザタスククエリを生成する。
さまざまなシステムの実験は、パーソナライズされたディープリサーチを扱う際の現在の能力と限界を強調します。
論文 参考訳(メタデータ) (2025-09-29T17:39:17Z) - ResearcherBench: Evaluating Deep AI Research Systems on the Frontiers of Scientific Inquiry [22.615102398311432]
我々は、ディープAI研究システムの能力を評価することに焦点を当てた最初のベンチマークであるResearcherBenchを紹介する。
現実の科学的シナリオから専門的に選択された65の質問のデータセットを収集した。
OpenAI Deep ResearchとGemini Deep Researchは、他のシステムよりも格段に優れており、オープンエンドのコンサルティングの質問では特に強みがある。
論文 参考訳(メタデータ) (2025-07-22T06:51:26Z) - An AI-Driven Live Systematic Reviews in the Brain-Heart Interconnectome: Minimizing Research Waste and Advancing Evidence Synthesis [29.81784450632149]
我々はブレイン・ハード・インターコネクトーム(BHI)ドメインの体系的レビューを強化するAI駆動システムを開発した。
このシステムは、PICOS(Population, Intervention, Comparator, Outcome, and Study Design)の自動検出、ベクトル埋め込みを用いたセマンティック検索、グラフベースのクエリ、トピックモデリングを統合している。
このシステムはリアルタイムのアップデートを提供し、リビングデータベースによる研究の無駄を減らし、ダッシュボードと対話型AIを備えた対話型インターフェースを提供する。
論文 参考訳(メタデータ) (2025-01-25T03:51:07Z) - From Intention To Implementation: Automating Biomedical Research via LLMs [30.32209981487504]
本稿では,ドライラボ実験を含むバイオメディカル研究プロセス全体を合理化するための,初のエンドツーエンド自動システムであるBioResearcherを紹介する。
BioResearcherはモジュール型のマルチエージェントアーキテクチャを採用し、検索、文学処理、実験設計、プログラミングのための特殊エージェントを統合している。
生成されたプロトコルは、平均して5つの品質指標で典型的なエージェントシステムよりも22.0%優れています。
論文 参考訳(メタデータ) (2024-12-12T16:35:05Z) - STRICTA: Structured Reasoning in Critical Text Assessment for Peer Review and Beyond [68.47402386668846]
本研究では,テキストアセスメントをステップワイド推論プロセスとしてモデル化するために,Structured Reasoning In Critical Text Assessment (STRICTA)を導入する。
STRICTAは、因果性理論に基づく相互接続推論ステップのグラフに評価を分解する。
約40人のバイオメディカル専門家が20以上の論文について4000以上の推論ステップのデータセットにSTRICTAを適用した。
論文 参考訳(メタデータ) (2024-09-09T06:55:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。