論文の概要: Repurposing the scientific literature with vision-language models
- arxiv url: http://arxiv.org/abs/2502.19546v3
- Date: Mon, 28 Apr 2025 00:52:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 14:13:21.321041
- Title: Repurposing the scientific literature with vision-language models
- Title(参考訳): 視覚言語モデルによる科学文献の再構築
- Authors: Anton Alyakin, Jaden Stryker, Daniel Alexander Alber, Karl L. Sangwon, Jin Vivian Lee, Brandon Duderstadt, Akshay Save, David Kurland, Spencer Frome, Shrutika Singh, Jeff Zhang, Eunice Yang, Ki Yun Park, Cordelia Orillac, Aly A. Valliani, Sean Neifert, Albert Liu, Aneek Patel, Christopher Livia, Darryl Lau, Ilya Laufer, Peter A. Rozman, Eveline Teresa Hidalgo, Howard Riina, Rui Feng, Todd Hollon, Yindalon Aphinyanaphongs, John G. Golfinos, Laura Snyder, Eric Leuthardt, Douglas Kondziolka, Eric Karl Oermann,
- Abstract要約: NeuroPubsは23,000のNeurosurgery Publicationsの記事のデータセットです。
出版可能なグラフィカルな要約とボードスタイルの質問は、人間が書いたものとは区別できない。
盲目無作為化比較試験では, 神経外科的鑑別診断において, 最先端のGPT-4oが非偽陰性であった。
- 参考スコア(独自算出の注目度): 6.871193805041339
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Leading vision-language models (VLMs) are trained on general Internet content, overlooking scientific journals' rich, domain-specific knowledge. Training on specialty-specific literature could yield high-performance, task-specific tools, enabling generative AI to match generalist models in specialty publishing, educational, and clinical tasks. We created NeuroPubs, a multimodal dataset of 23,000 Neurosurgery Publications articles (134M words, 78K image-caption pairs). Using NeuroPubs, VLMs generated publication-ready graphical abstracts (70% of 100 abstracts) and board-style questions indistinguishable from human-written ones (54% of 89,587 questions). We used these questions to train CNS-Obsidian, a 34B-parameter VLM. In a blinded, randomized controlled trial, our model demonstrated non-inferiority to then state-of-the-art GPT-4o in neurosurgical differential diagnosis (clinical utility, 40.62% upvotes vs. 57.89%, p=0.1150; accuracy, 59.38% vs. 65.79%, p=0.3797). Our pilot study demonstrates how training generative AI models on specialty-specific journal content - without large-scale internet data - results in high-performance academic and clinical tools, enabling domain-tailored AI across diverse fields.
- Abstract(参考訳): 先進的な視覚言語モデル(VLM)は、科学雑誌の豊富なドメイン固有の知識を見渡して、一般的なインターネットコンテンツに基づいて訓練されている。
特殊性特化文学の訓練は、高性能でタスク固有のツールを提供することができ、生成AIは特殊性出版、教育、臨床タスクのジェネラリストモデルと一致させることができる。
我々はNeuroPubsという23,000のNeurosurgery Publicationsの記事(134万ワード、78Kイメージキャプチャペア)のマルチモーダルデータセットを作成しました。
NeuroPubsを使って、VLMsは出版可能なグラフィカルな要約(100の抽象化の70%)を作成し、ボードスタイルの質問は人間が書いたものとは区別できない(89,587の質問の54%)。
我々はこれらの質問を,34BパラメータVLMであるCNS-Obsidianのトレーニングに利用した。
盲目無作為化対照試験では、脳神経外科的鑑別診断におけるGPT-4oの非偽性を示した(臨床的有用性、40.62%アップボート対57.89%、p=0.1150、正確性、59.38%対65.79%、p=0.3797)。
我々のパイロット研究は、大規模なインターネットデータなしで、特定の専門誌コンテンツ上で生成AIモデルをトレーニングすることで、高性能な学術・臨床ツールが実現し、さまざまな分野にまたがってドメインに適したAIが実現されることを示す。
関連論文リスト
- PanCanBench: A Comprehensive Benchmark for Evaluating Large Language Models in Pancreatic Oncology [48.732366302949515]
大規模言語モデル(LLM)は、標準化された検査において専門家レベルの性能を達成したが、複数の選択精度は現実の臨床的有用性や安全性を十分に反映していない。
我々は、未確認患者の質問に対して、専門家のルーブリックを作成するための、ループ内人間パイプラインを開発した。
LLM-as-a-judge フレームワークを用いて,22のプロプライエタリおよびオープンソース LLM の評価を行い,臨床完全性,事実精度,Web-search 統合について検討した。
論文 参考訳(メタデータ) (2026-03-02T00:50:39Z) - A DeepSeek-Powered AI System for Automated Chest Radiograph Interpretation in Clinical Practice [83.11942224668127]
Janus-Pro-CXR (1B) はDeepSeek Janus-Proモデルに基づく胸部X線解釈システムである。
本システムは, 自動レポート生成において, 最先端のX線レポート生成モデルより優れる。
論文 参考訳(メタデータ) (2025-12-23T13:26:13Z) - Cancer Diagnosis Categorization in Electronic Health Records Using Large Language Models and BioBERT: Model Performance Evaluation Study [0.1625256372381793]
がん患者3456例のICD (International Classification of Diseases, 436free-text entrys) について, 762例の診断を行った。
モデルは、診断を14の既定のカテゴリに分類する能力で試験された。
GPT-3.5、Gemini、Llamaは両方のフォーマットで全体的なパフォーマンスを低下させた。
論文 参考訳(メタデータ) (2025-10-08T16:50:40Z) - MedHELM: Holistic Evaluation of Large Language Models for Medical Tasks [47.486705282473984]
大規模言語モデル(LLM)は、医学試験においてほぼ完璧なスコアを得る。
これらの評価は、実際の臨床実践の複雑さと多様性を不十分に反映している。
MedHELMは,医療業務におけるLCMの性能を評価するための評価フレームワークである。
論文 参考訳(メタデータ) (2025-05-26T22:55:49Z) - OPTIC: Optimizing Patient-Provider Triaging & Improving Communications in Clinical Operations using GPT-4 Data Labeling and Model Distillation [0.0]
本研究は, 医師の作業量削減と患者と患者とのコミュニケーション改善を目的とした, メッセージトリアージのための効率的なツールの開発を目的とする。
我々は,データラベリングにGPT-4,モデル蒸留にBERTを利用する強力なメッセージトリアージツールOPTICを開発した。
BERTモデルは、GPT-4ラベルで検証されたテストセットで88.85%の精度を達成し、感度は88.29%、特異性は89.38%、F1スコアは0.8842である。
論文 参考訳(メタデータ) (2025-02-05T05:49:34Z) - A foundation model for human-AI collaboration in medical literature mining [27.473923366948032]
本稿では,医学文献からの検索,スクリーニング,データ抽出のためのAI基盤モデルであるLEADSを紹介する。
21,335の体系的レビュー、453,625の臨床試験出版物、27,015の臨床試験登録から、LEADSInstructの633,759の命令データポイントでトレーニングされている。
論文 参考訳(メタデータ) (2025-01-27T17:55:37Z) - BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision-Language Models Derived from Scientific Literature [73.39593644054865]
BIOMEDICAはスケーラブルでオープンソースのフレームワークで、PubMed Central Open Accessサブセット全体を抽出、注釈付け、シリアライズして、使いやすく、公開可能なデータセットにする。
われわれのフレームワークは600万以上の記事から2400万以上のユニークな画像テキストペアで包括的なアーカイブを生成する。
BMCA-CLIPは、ストリーミングを通じてBIOMEDICAデータセット上で継続的に事前トレーニングされたCLIPスタイルのモデルのスイートで、27TBのデータをローカルにダウンロードする必要がなくなる。
論文 参考訳(メタデータ) (2025-01-13T09:58:03Z) - How Well Can Modern LLMs Act as Agent Cores in Radiology Environments? [54.36730060680139]
RadA-BenchPlatは、放射線学環境での大規模言語モデル(LLM)のパフォーマンスをベンチマークする評価プラットフォームである。
また、エージェント駆動型タスク解決ツールの10のカテゴリを定義し、7つの主要なLCMを評価している。
論文 参考訳(メタデータ) (2024-12-12T18:20:16Z) - The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery [14.465756130099091]
本稿では,完全自動科学的発見のための最初の包括的枠組みについて述べる。
我々は、新しい研究アイデアを生成し、コードを書き、実験を実行し、結果を視覚化し、その結果を説明するThe AI Scientistを紹介します。
原則として、このプロセスは、人間の科学コミュニティのように行動しながら、オープンな方法でアイデアを反復的に発展させることができる。
論文 参考訳(メタデータ) (2024-08-12T16:58:11Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [80.49349719239584]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning, SciRIFF)は、54のタスクに対して137Kの命令追従デモのデータセットである。
SciRIFFは、幅広い科学分野の研究文献から情報を抽出し、合成することに焦点を当てた最初のデータセットである。
論文 参考訳(メタデータ) (2024-06-10T21:22:08Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Autonomous Artificial Intelligence Agents for Clinical Decision Making in Oncology [0.6397820821509177]
本稿では,大規模言語モデル(LLM)を中心的推論エンジンとして活用する,マルチモーダル医療用AIの代替手法を提案する。
このエンジンは、医療用AIツールのセットを自律的に調整し、デプロイする。
適切なツール(97%)、正しい結論(93.6%)、完全(94%)、個人患者に有用な推奨(89.2%)を提示する能力が高いことを示す。
論文 参考訳(メタデータ) (2024-04-06T15:50:19Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - Improving Pediatric Low-Grade Neuroepithelial Tumors Molecular Subtype
Identification Using a Novel AUROC Loss Function for Convolutional Neural
Networks [0.0]
低グレード神経上皮腫瘍(PLGNT)は小児の脳腫瘍の40%を占める最も一般的な小児がんである。
PLGNTサブタイプを決定するための金の標準は生検であり、患者にとって非現実的または危険である。
本研究では,MRIスキャンによるPLGNTサブタイプ分類において,畳み込みニューラルネットワーク(CNN)の性能向上を図る。
論文 参考訳(メタデータ) (2024-02-05T22:06:27Z) - DARWIN Series: Domain Specific Large Language Models for Natural Science [20.864698325126735]
本稿では,物理,化学,物質科学を中心に,自然科学に適したLLMのシリーズであるDARWINを紹介する。
我々は6万以上の命令データポイントを用いてモデルを微調整し、事実の正しさを強調した。
DARWINシリーズは、様々な科学的タスクに関する最先端の結果を達成するだけでなく、クローズドソースAIモデルへの依存を減少させる。
論文 参考訳(メタデータ) (2023-08-25T01:40:48Z) - Artificial intelligence adoption in the physical sciences, natural
sciences, life sciences, social sciences and the arts and humanities: A
bibliometric analysis of research publications from 1960-2021 [73.06361680847708]
1960年には333の研究分野の14%がAIに関連していたが、1972年には全研究分野の半分以上、1986年には80%以上、現在では98%以上まで増加した。
1960年には、333の研究分野の14%がAI(コンピュータ科学の多くの分野)に関連していたが、1972年までに全研究分野の半分以上、1986年には80%以上、現在では98%以上まで増加した。
我々は、現在の急上昇の状況が異なっており、学際的AI応用が持続する可能性が高いと結論付けている。
論文 参考訳(メタデータ) (2023-06-15T14:08:07Z) - BiomedGPT: A Generalist Vision-Language Foundation Model for Diverse Biomedical Tasks [68.39821375903591]
汎用AIは、さまざまなデータ型を解釈する汎用性のために、制限に対処する可能性を秘めている。
本稿では,最初のオープンソースかつ軽量な視覚言語基盤モデルであるBiomedGPTを提案する。
論文 参考訳(メタデータ) (2023-05-26T17:14:43Z) - Do We Still Need Clinical Language Models? [15.023633270864675]
比較的小さな専門的な臨床モデルでは、コンテキスト内学習のアプローチが大幅に優れていることを示す。
physioNet Credentialed Health Dataライセンスとデータ使用契約の下で使用されるコードとモデルをリリースします。
論文 参考訳(メタデータ) (2023-02-16T05:08:34Z) - CIRCA: comprehensible online system in support of chest X-rays-based
COVID-19 diagnosis [37.41181188499616]
深層学習技術は、新型コロナウイルスの迅速検出と疾患の進行のモニタリングに役立つ。
5つの異なるデータセットを使用して、モデルトレーニングのための23の799 CXRの代表的なデータセットを構築した。
The U-Net-based model was developed to identified a clinically relevant region of the CXR。
論文 参考訳(メタデータ) (2022-10-11T13:30:34Z) - GatorTron: A Large Clinical Language Model to Unlock Patient Information
from Unstructured Electronic Health Records [22.652798872046283]
電子健康記録(EHR)を処理・解釈する人工知能(AI)システムの開発への関心が高まっている。
臨床言語モデルはほとんどないが、臨床領域で訓練された言語のうち最大のものは、比較的小さい1億1000万のパラメータである。
何十億ものパラメータを持つ大規模臨床言語モデルが、医療AIシステムが非構造化のEHRを利用するのにどの程度役立つかは明らかではない。
論文 参考訳(メタデータ) (2022-02-02T14:28:51Z) - Advancing COVID-19 Diagnosis with Privacy-Preserving Collaboration in
Artificial Intelligence [79.038671794961]
我々はUCADI(Unified CT-COVID AI Diagnostic Initiative)を立ち上げ、各ホスト機関でAIモデルを分散的にトレーニングし、独立して実行することができる。
本研究は,中国とイギリスに所在する23の病院で採取した3,336例の胸部CT9,573例について検討した。
論文 参考訳(メタデータ) (2021-11-18T00:43:41Z) - Semantic and Relational Spaces in Science of Science: Deep Learning
Models for Article Vectorisation [4.178929174617172]
我々は、自然言語処理(NLP)とグラフニューラルネットワーク(GNN)を用いて、記事の意味的・関係的な側面に基づく文書レベルの埋め込みに焦点を当てる。
論文のセマンティックな空間をNLPでエンコードできるのに対し、GNNでは研究コミュニティの社会的実践をエンコードするリレーショナルな空間を構築することができる。
論文 参考訳(メタデータ) (2020-11-05T14:57:41Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z) - CovidDeep: SARS-CoV-2/COVID-19 Test Based on Wearable Medical Sensors
and Efficient Neural Networks [51.589769497681175]
新型コロナウイルス(SARS-CoV-2)がパンデミックを引き起こしている。
SARS-CoV-2の逆転写-ポリメラーゼ連鎖反応に基づく現在の試験体制は、試験要求に追いついていない。
我々は,効率的なDNNと市販のWMSを組み合わせたCovidDeepというフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-20T21:47:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。