Fugu-MT 論文翻訳(概要): Repurposing the scientific literature with vision-language models

論文の概要: Repurposing the scientific literature with vision-language models

arxiv url: http://arxiv.org/abs/2502.19546v1
Date: Wed, 26 Feb 2025 20:35:37 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-28 15:15:46.620249
Title: Repurposing the scientific literature with vision-language models
Title（参考訳）: 視覚言語モデルによる科学文献の再構築
Authors: Anton Alyakin, Jaden Stryker, Daniel Alexander Alber, Karl L. Sangwon, Brandon Duderstadt, Akshay Save, David Kurland, Spencer Frome, Shrutika Singh, Jeff Zhang, Eunice Yang, Ki Yun Park, Cordelia Orillac, Aly A. Valliani, Sean Neifert, Albert Liu, Aneek Patel, Christopher Livia, Darryl Lau, Ilya Laufer, Peter A. Rozman, Eveline Teresa Hidalgo, Howard Riina, Rui Feng, Todd Hollon, Yindalon Aphinyanaphongs, John G. Golfinos, Laura Snyder, Eric Leuthardt, Douglas Kondziolka, Eric Karl Oermann,
Abstract要約: 我々はNeurosurgery PublicationsからNuroPubsというマルチモーダルデータベースに23,000の記事を変換した。教育では,ABNS書記試験のスタイルで89,587の質問を発生させた。盲目無作為化対照試験では, CNS-Obsidian から GPT-4o への非誤認を診断的補助として示した。
参考スコア（独自算出の注目度）: 6.922433274682987
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Research in AI for Science often focuses on using AI technologies to augment components of the scientific process, or in some cases, the entire scientific method; how about AI for scientific publications? Peer-reviewed journals are foundational repositories of specialized knowledge, written in discipline-specific language that differs from general Internet content used to train most large language models (LLMs) and vision-language models (VLMs). We hypothesized that by combining a family of scientific journals with generative AI models, we could invent novel tools for scientific communication, education, and clinical care. We converted 23,000 articles from Neurosurgery Publications into a multimodal database - NeuroPubs - of 134 million words and 78,000 image-caption pairs to develop six datasets for building AI models. We showed that the content of NeuroPubs uniquely represents neurosurgery-specific clinical contexts compared with broader datasets and PubMed. For publishing, we employed generalist VLMs to automatically generate graphical abstracts from articles. Editorial board members rated 70% of these as ready for publication without further edits. For education, we generated 89,587 test questions in the style of the ABNS written board exam, which trainee and faculty neurosurgeons found indistinguishable from genuine examples 54% of the time. We used these questions alongside a curriculum learning process to track knowledge acquisition while training our 34 billion-parameter VLM (CNS-Obsidian). In a blinded, randomized controlled trial, we demonstrated the non-inferiority of CNS-Obsidian to GPT-4o (p = 0.1154) as a diagnostic copilot for a neurosurgical service. Our findings lay a novel foundation for AI with Science and establish a framework to elevate scientific communication using state-of-the-art generative artificial intelligence while maintaining rigorous quality standards.
Abstract（参考訳）: AI for Scienceの研究は、しばしば科学プロセスの構成要素を増やすためにAI技術を使うことに焦点を当てる。 Peer-reviewed Journalsは専門知識の基礎的なリポジトリであり、最も大きな言語モデル(LLM)や視覚言語モデル(VLM)のトレーニングに使用される一般的なインターネットコンテンツとは異なる、専門的な言語で記述されている。我々は、科学雑誌の一群と生成AIモデルを組み合わせることで、科学コミュニケーション、教育、臨床医療のための新しいツールを発明できると仮定した。我々は、Neurosurgery Publicationsから23,000の論文を、AIモデルを構築するための6つのデータセットを開発するために、1億3400万ワードと78,000の画像キャプチャペアからなるマルチモーダルデータベースであるNeuroPubsに変換しました。より広範なデータセットやPubMedと比較すると,NeuroPubsの内容は神経外科固有の臨床文脈を独自に表していることがわかった。出版にあたっては,ジェネラリストのVLMを用いて,記事からグラフィカルな抽象文を自動的に生成する。編集委員は、そのうち70%が追加編集なしで出版できると評価した。教育では,ABNS書記試験のスタイルで89,587の質問を発生させた。我々はこれらの質問をカリキュラム学習プロセスと一緒に使用し、34億パラメータのVLM(CNS-Obsidian)をトレーニングしながら知識獲得を追跡した。盲目無作為化対照試験において,脳神経外科手術における診断補助として CNS-Obsidian を GPT-4o (p = 0.1154) に非劣性を示した。我々の研究は、AIと科学の新たな基盤を築き、厳格な品質基準を維持しつつ、最先端の人工人工知能を用いた科学コミュニケーションを高めるための枠組みを確立した。

関連論文リスト

PanCanBench: A Comprehensive Benchmark for Evaluating Large Language Models in Pancreatic Oncology [48.732366302949515]
大規模言語モデル(LLM)は、標準化された検査において専門家レベルの性能を達成したが、複数の選択精度は現実の臨床的有用性や安全性を十分に反映していない。我々は、未確認患者の質問に対して、専門家のルーブリックを作成するための、ループ内人間パイプラインを開発した。 LLM-as-a-judge フレームワークを用いて,22のプロプライエタリおよびオープンソース LLM の評価を行い,臨床完全性,事実精度,Web-search 統合について検討した。
論文参考訳（メタデータ） (2026-03-02T00:50:39Z)
A DeepSeek-Powered AI System for Automated Chest Radiograph Interpretation in Clinical Practice [83.11942224668127]
Janus-Pro-CXR (1B) はDeepSeek Janus-Proモデルに基づく胸部X線解釈システムである。本システムは, 自動レポート生成において, 最先端のX線レポート生成モデルより優れる。
論文参考訳（メタデータ） (2025-12-23T13:26:13Z)
Cancer Diagnosis Categorization in Electronic Health Records Using Large Language Models and BioBERT: Model Performance Evaluation Study [0.1625256372381793]
がん患者3456例のICD (International Classification of Diseases, 436free-text entrys) について, 762例の診断を行った。モデルは、診断を14の既定のカテゴリに分類する能力で試験された。 GPT-3.5、Gemini、Llamaは両方のフォーマットで全体的なパフォーマンスを低下させた。
論文参考訳（メタデータ） (2025-10-08T16:50:40Z)
MedHELM: Holistic Evaluation of Large Language Models for Medical Tasks [47.486705282473984]
大規模言語モデル(LLM)は、医学試験においてほぼ完璧なスコアを得る。これらの評価は、実際の臨床実践の複雑さと多様性を不十分に反映している。 MedHELMは,医療業務におけるLCMの性能を評価するための評価フレームワークである。
論文参考訳（メタデータ） (2025-05-26T22:55:49Z)
OPTIC: Optimizing Patient-Provider Triaging & Improving Communications in Clinical Operations using GPT-4 Data Labeling and Model Distillation [0.0]
本研究は, 医師の作業量削減と患者と患者とのコミュニケーション改善を目的とした, メッセージトリアージのための効率的なツールの開発を目的とする。我々は,データラベリングにGPT-4,モデル蒸留にBERTを利用する強力なメッセージトリアージツールOPTICを開発した。 BERTモデルは、GPT-4ラベルで検証されたテストセットで88.85%の精度を達成し、感度は88.29%、特異性は89.38%、F1スコアは0.8842である。
論文参考訳（メタデータ） (2025-02-05T05:49:34Z)
A foundation model for human-AI collaboration in medical literature mining [27.473923366948032]
本稿では,医学文献からの検索,スクリーニング,データ抽出のためのAI基盤モデルであるLEADSを紹介する。 21,335の体系的レビュー、453,625の臨床試験出版物、27,015の臨床試験登録から、LEADSInstructの633,759の命令データポイントでトレーニングされている。
論文参考訳（メタデータ） (2025-01-27T17:55:37Z)
BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision-Language Models Derived from Scientific Literature [73.39593644054865]
BIOMEDICAはスケーラブルでオープンソースのフレームワークで、PubMed Central Open Accessサブセット全体を抽出、注釈付け、シリアライズして、使いやすく、公開可能なデータセットにする。われわれのフレームワークは600万以上の記事から2400万以上のユニークな画像テキストペアで包括的なアーカイブを生成する。 BMCA-CLIPは、ストリーミングを通じてBIOMEDICAデータセット上で継続的に事前トレーニングされたCLIPスタイルのモデルのスイートで、27TBのデータをローカルにダウンロードする必要がなくなる。
論文参考訳（メタデータ） (2025-01-13T09:58:03Z)
How Well Can Modern LLMs Act as Agent Cores in Radiology Environments? [54.36730060680139]
RadA-BenchPlatは、放射線学環境での大規模言語モデル(LLM)のパフォーマンスをベンチマークする評価プラットフォームである。また、エージェント駆動型タスク解決ツールの10のカテゴリを定義し、7つの主要なLCMを評価している。
論文参考訳（メタデータ） (2024-12-12T18:20:16Z)
The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery [14.465756130099091]
本稿では,完全自動科学的発見のための最初の包括的枠組みについて述べる。我々は、新しい研究アイデアを生成し、コードを書き、実験を実行し、結果を視覚化し、その結果を説明するThe AI Scientistを紹介します。原則として、このプロセスは、人間の科学コミュニティのように行動しながら、オープンな方法でアイデアを反復的に発展させることができる。
論文参考訳（メタデータ） (2024-08-12T16:58:11Z)
GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。 GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。 38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文参考訳（メタデータ） (2024-08-06T17:59:21Z)
SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [80.49349719239584]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning, SciRIFF)は、54のタスクに対して137Kの命令追従デモのデータセットである。 SciRIFFは、幅広い科学分野の研究文献から情報を抽出し、合成することに焦点を当てた最初のデータセットである。
論文参考訳（メタデータ） (2024-06-10T21:22:08Z)
Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文参考訳（メタデータ） (2024-04-27T05:03:42Z)
Autonomous Artificial Intelligence Agents for Clinical Decision Making in Oncology [0.6397820821509177]
本稿では,大規模言語モデル(LLM)を中心的推論エンジンとして活用する,マルチモーダル医療用AIの代替手法を提案する。このエンジンは、医療用AIツールのセットを自律的に調整し、デプロイする。適切なツール(97%)、正しい結論(93.6%)、完全(94%)、個人患者に有用な推奨(89.2%)を提示する能力が高いことを示す。
論文参考訳（メタデータ） (2024-04-06T15:50:19Z)
Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。評価のために,GPT-4に基づく実測値CheXpromptを提案する。 LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文参考訳（メタデータ） (2024-03-12T18:12:02Z)
Improving Pediatric Low-Grade Neuroepithelial Tumors Molecular Subtype Identification Using a Novel AUROC Loss Function for Convolutional Neural Networks [0.0]
低グレード神経上皮腫瘍(PLGNT)は小児の脳腫瘍の40%を占める最も一般的な小児がんである。 PLGNTサブタイプを決定するための金の標準は生検であり、患者にとって非現実的または危険である。本研究では,MRIスキャンによるPLGNTサブタイプ分類において,畳み込みニューラルネットワーク(CNN)の性能向上を図る。
論文参考訳（メタデータ） (2024-02-05T22:06:27Z)
DARWIN Series: Domain Specific Large Language Models for Natural Science [20.864698325126735]
本稿では,物理,化学,物質科学を中心に,自然科学に適したLLMのシリーズであるDARWINを紹介する。我々は6万以上の命令データポイントを用いてモデルを微調整し、事実の正しさを強調した。 DARWINシリーズは、様々な科学的タスクに関する最先端の結果を達成するだけでなく、クローズドソースAIモデルへの依存を減少させる。
論文参考訳（メタデータ） (2023-08-25T01:40:48Z)
Artificial intelligence adoption in the physical sciences, natural sciences, life sciences, social sciences and the arts and humanities: A bibliometric analysis of research publications from 1960-2021 [73.06361680847708]
1960年には333の研究分野の14%がAIに関連していたが、1972年には全研究分野の半分以上、1986年には80%以上、現在では98%以上まで増加した。 1960年には、333の研究分野の14%がAI(コンピュータ科学の多くの分野)に関連していたが、1972年までに全研究分野の半分以上、1986年には80%以上、現在では98%以上まで増加した。我々は、現在の急上昇の状況が異なっており、学際的AI応用が持続する可能性が高いと結論付けている。
論文参考訳（メタデータ） (2023-06-15T14:08:07Z)
BiomedGPT: A Generalist Vision-Language Foundation Model for Diverse Biomedical Tasks [68.39821375903591]
汎用AIは、さまざまなデータ型を解釈する汎用性のために、制限に対処する可能性を秘めている。本稿では,最初のオープンソースかつ軽量な視覚言語基盤モデルであるBiomedGPTを提案する。
論文参考訳（メタデータ） (2023-05-26T17:14:43Z)
Do We Still Need Clinical Language Models? [15.023633270864675]
比較的小さな専門的な臨床モデルでは、コンテキスト内学習のアプローチが大幅に優れていることを示す。 physioNet Credentialed Health Dataライセンスとデータ使用契約の下で使用されるコードとモデルをリリースします。
論文参考訳（メタデータ） (2023-02-16T05:08:34Z)
CIRCA: comprehensible online system in support of chest X-rays-based COVID-19 diagnosis [37.41181188499616]
深層学習技術は、新型コロナウイルスの迅速検出と疾患の進行のモニタリングに役立つ。 5つの異なるデータセットを使用して、モデルトレーニングのための23の799 CXRの代表的なデータセットを構築した。 The U-Net-based model was developed to identified a clinically relevant region of the CXR。
論文参考訳（メタデータ） (2022-10-11T13:30:34Z)
GatorTron: A Large Clinical Language Model to Unlock Patient Information from Unstructured Electronic Health Records [22.652798872046283]
電子健康記録(EHR)を処理・解釈する人工知能(AI)システムの開発への関心が高まっている。臨床言語モデルはほとんどないが、臨床領域で訓練された言語のうち最大のものは、比較的小さい1億1000万のパラメータである。何十億ものパラメータを持つ大規模臨床言語モデルが、医療AIシステムが非構造化のEHRを利用するのにどの程度役立つかは明らかではない。
論文参考訳（メタデータ） (2022-02-02T14:28:51Z)
Advancing COVID-19 Diagnosis with Privacy-Preserving Collaboration in Artificial Intelligence [79.038671794961]
我々はUCADI(Unified CT-COVID AI Diagnostic Initiative)を立ち上げ、各ホスト機関でAIモデルを分散的にトレーニングし、独立して実行することができる。本研究は,中国とイギリスに所在する23の病院で採取した3,336例の胸部CT9,573例について検討した。
論文参考訳（メタデータ） (2021-11-18T00:43:41Z)
Semantic and Relational Spaces in Science of Science: Deep Learning Models for Article Vectorisation [4.178929174617172]
我々は、自然言語処理(NLP)とグラフニューラルネットワーク(GNN)を用いて、記事の意味的・関係的な側面に基づく文書レベルの埋め込みに焦点を当てる。論文のセマンティックな空間をNLPでエンコードできるのに対し、GNNでは研究コミュニティの社会的実践をエンコードするリレーショナルな空間を構築することができる。
論文参考訳（メタデータ） (2020-11-05T14:57:41Z)
Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文参考訳（メタデータ） (2020-09-02T02:50:30Z)
CovidDeep: SARS-CoV-2/COVID-19 Test Based on Wearable Medical Sensors and Efficient Neural Networks [51.589769497681175]
新型コロナウイルス(SARS-CoV-2)がパンデミックを引き起こしている。 SARS-CoV-2の逆転写-ポリメラーゼ連鎖反応に基づく現在の試験体制は、試験要求に追いついていない。我々は,効率的なDNNと市販のWMSを組み合わせたCovidDeepというフレームワークを提案する。
論文参考訳（メタデータ） (2020-07-20T21:47:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。