論文の概要: Virology Capabilities Test (VCT): A Multimodal Virology Q&A Benchmark
- arxiv url: http://arxiv.org/abs/2504.16137v1
- Date: Mon, 21 Apr 2025 21:04:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:52.863414
- Title: Virology Capabilities Test (VCT): A Multimodal Virology Q&A Benchmark
- Title(参考訳): Virology Capabilities Test (VCT): マルチモーダルなVirology Q&Aベンチマーク
- Authors: Jasper Götting, Pedro Medeiros, Jon G Sanders, Nathaniel Li, Long Phan, Karam Elabd, Lennart Justen, Dan Hendrycks, Seth Donoughe,
- Abstract要約: 本稿では、複雑なウイルス学的検査プロトコルをトラブルシュートする能力を測定するベンチマークであるVCT(Virology Capabilities Test)を提案する。
VCTは難しい:インターネットにアクセスする専門家のウイルス学者は、専門分野の専門分野における質問に対して平均22.1%のスコアを付ける。
OpenAIのo3(英語版)は43.8%の精度に達し、専門家ウイルス学者の94%を超越している。
- 参考スコア(独自算出の注目度): 16.51968586290008
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present the Virology Capabilities Test (VCT), a large language model (LLM) benchmark that measures the capability to troubleshoot complex virology laboratory protocols. Constructed from the inputs of dozens of PhD-level expert virologists, VCT consists of $322$ multimodal questions covering fundamental, tacit, and visual knowledge that is essential for practical work in virology laboratories. VCT is difficult: expert virologists with access to the internet score an average of $22.1\%$ on questions specifically in their sub-areas of expertise. However, the most performant LLM, OpenAI's o3, reaches $43.8\%$ accuracy, outperforming $94\%$ of expert virologists even within their sub-areas of specialization. The ability to provide expert-level virology troubleshooting is inherently dual-use: it is useful for beneficial research, but it can also be misused. Therefore, the fact that publicly available models outperform virologists on VCT raises pressing governance considerations. We propose that the capability of LLMs to provide expert-level troubleshooting of dual-use virology work should be integrated into existing frameworks for handling dual-use technologies in the life sciences.
- Abstract(参考訳): 本稿では,言語モデル (LLM) ベンチマークである Virology Capabilities Test (VCT) を提案する。
何十人もの博士レベルのウイルス学者の入力から構成され、VCTは、ウイルス学研究所における実践的な研究に不可欠な基本的、暗黙的、視覚的知識に関する322ドルの質問からなる。
VCTは難しい:インターネットにアクセス可能な専門家のウイルス学者は、専門分野のサブ領域に特有な質問に対して平均22.1\%のスコアを付ける。
しかし、OpenAIのo3は43.8 %の精度に達し、専門家のウイルス学者を9,4 %の精度で上回っている。
専門家レベルのウイルス学的トラブルシューティングを提供する能力は、本質的には二重用途であり、有益な研究に役立つが、誤用することもできる。
したがって、VCTの公開モデルがウイルス学者より優れているという事実は、統治上の考慮を迫ることになる。
両用ウイルス学における専門家レベルのトラブルシューティングを実現するためのLLMの能力は,生命科学における両用技術を扱うための既存のフレームワークに統合されるべきである。
関連論文リスト
- TAMA: A Human-AI Collaborative Thematic Analysis Framework Using Multi-Agent LLMs for Clinical Interviews [54.35097932763878]
Thematic Analysis (TA) は、構造化されていないテキストデータの潜在意味を明らかにするために広く使われている定性的手法である。
本稿では,多エージェントLEMを用いた人間とAIの協調的テーマ分析フレームワークTAMAを提案する。
TAMA は既存の LLM 支援TA アプローチよりも優れており,高い主題的ヒット率,カバレッジ,独特性を実現している。
論文 参考訳(メタデータ) (2025-03-26T15:58:16Z) - MicroVQA: A Multimodal Reasoning Benchmark for Microscopy-Based Scientific Research [57.61445960384384]
MicroVQA は、生物学の専門家が様々な顕微鏡のモードでキュレートした 1,042 の多重選択質問 (MCQ) から構成される。
最先端のMLLMのベンチマークでは、ピーク性能は53%であった。
チェーン・オブ・シント・レスポンスのエキスパート分析では、知覚エラーが最も頻繁であり、続いて知識エラー、そして過一般化エラーが続く。
論文 参考訳(メタデータ) (2025-03-17T17:33:10Z) - Ontology Generation using Large Language Models [1.0037949839020768]
本稿では, メモリレスCQbyCQとOntogeniaという, 自動オントロジー開発のための2つの新しいプロンプト技術を紹介し, 評価する。
OpenAI o1-preview with Ontogeniaはエンジニアの要求を満たすのに十分な品質を提供する。
論文 参考訳(メタデータ) (2025-03-07T13:03:28Z) - ExpertGenQA: Open-ended QA generation in Specialized Domains [9.412082058055823]
ExpertGenQAは、いくつかのショット学習と構造化トピックとスタイル分類を組み合わせて、包括的なドメイン固有のQAペアを生成するプロトコルである。
ExpertGenQAは,9,4.4%のトピックカバレッジを維持しつつ,ベースライン数ショットアプローチの効率を2倍に向上することを示す。
論文 参考訳(メタデータ) (2025-03-04T19:09:48Z) - VILA-M3: Enhancing Vision-Language Models with Medical Expert Knowledge [36.67150853785481]
一般視覚言語モデル(VLM)はコンピュータビジョンにおいて大きな進歩を遂げてきたが、医療などの専門分野では不足している。
従来のコンピュータビジョンタスクでは、創造的あるいは近似的な回答は受け入れられるかもしれないが、医療では精度が最重要である。
本稿では,専門モデルを用いた領域知識を活用した医療用VLMのための新しいフレームワークVILA-M3を提案する。
論文 参考訳(メタデータ) (2024-11-19T22:59:14Z) - ErrorRadar: Benchmarking Complex Mathematical Reasoning of Multimodal Large Language Models Via Error Detection [60.297079601066784]
エラー検出におけるMLLMの能力を評価するために設計された最初のベンチマークであるErrorRadarを紹介する。
ErrorRadarはエラーステップ識別とエラー分類という2つのサブタスクを評価している。
2500の高品質なマルチモーダルK-12数学問題で構成され、実世界の学生相互作用から収集される。
GPT-4oの優れた性能は、まだ人間の評価に約10%遅れているため、大きな課題が残っている。
論文 参考訳(メタデータ) (2024-10-06T14:59:09Z) - Large-vocabulary forensic pathological analyses via prototypical cross-modal contrastive learning [20.3729821685966]
SongCiは、法医学的な病理学に特化して設計された革新的な視覚言語モデル(VLM)である。
SongCiは、高度なクロスモーダルな自己教師付きコントラスト学習を利用して、法医学解析の精度、効率、一般化性を向上させる。
論文 参考訳(メタデータ) (2024-07-20T15:34:52Z) - Effectiveness Assessment of Recent Large Vision-Language Models [78.69439393646554]
本稿では,多言語多言語モデル(LVLM)の専門的および汎用的な課題における能力を評価する。
私たちは、自然、医療、産業という3つの異なるアプリケーションシナリオで6つの挑戦的なタスクを採用しています。
我々は,MiniGPT-v2,LLaVA-1.5,Shikraを含む最近の3つのオープンソースLVLMの視覚的認識および局所化性能について検討した。
論文 参考訳(メタデータ) (2024-03-07T08:25:27Z) - ProBio: A Protocol-guided Multimodal Dataset for Molecular Biology Lab [67.24684071577211]
研究結果を複製するという課題は、分子生物学の分野に重大な障害をもたらしている。
まず、この目的に向けた最初のステップとして、ProBioという名前の包括的なマルチモーダルデータセットをキュレートする。
次に、透明なソリューショントラッキングとマルチモーダルなアクション認識という2つの挑戦的なベンチマークを考案し、BioLab設定におけるアクティビティ理解に関連する特徴と難しさを強調した。
論文 参考訳(メタデータ) (2023-11-01T14:44:01Z) - BiomedGPT: A Generalist Vision-Language Foundation Model for Diverse Biomedical Tasks [68.39821375903591]
汎用AIは、さまざまなデータ型を解釈する汎用性のために、制限に対処する可能性を秘めている。
本稿では,最初のオープンソースかつ軽量な視覚言語基盤モデルであるBiomedGPTを提案する。
論文 参考訳(メタデータ) (2023-05-26T17:14:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。