論文の概要: InVitroVision: a Multi-Modal AI Model for Automated Description of Embryo Development using Natural Language
- arxiv url: http://arxiv.org/abs/2604.21061v1
- Date: Wed, 22 Apr 2026 20:05:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.166781
- Title: InVitroVision: a Multi-Modal AI Model for Automated Description of Embryo Development using Natural Language
- Title(参考訳): InVitroVision:自然言語を用いた胚発生自動記述のためのマルチモーダルAIモデル
- Authors: Nicklas Neu, Thomas Ebner, Jasmin Primus, Raphael Zefferer, Bernhard Schenkenfelder, Mathias Brunbauer, Florian Kromp,
- Abstract要約: 本研究では,胚の形態と発達の自然言語記述を予測するために,基礎的視覚言語モデルを微調整できるかどうかを検討する。
公開されている胚のタイムラプスデータセットを用いて,1,000の画像と対応するキャプションしか持たない多モーダル視覚言語モデルPaliGemma-2を微調整した。
以上の結果から,微調整モデルであるInVitroVisionが商業モデル,ChatGPT 5.2,基本モデルを上回る性能を示した。
- 参考スコア(独自算出の注目度): 0.09381376621526816
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The application of artificial intelligence (AI) in IVF has shown promise in improving consistency and standardization of decisions, but often relies on annotated data and does not make use of the multimodal nature of IVF data. We investigated whether foundational vision-language models can be fine-tuned to predict natural language descriptions of embryo morphology and development. Using a publicly available embryo time-lapse dataset, we fine-tuned PaliGemma-2, a multi-modal vision-language model, with only 1,000 images and corresponding captions, describing embryo morphology, embryonic cell cycle and developmental stage. Our results show that the fine-tuned model, InVitroVision, outperformed a commercial model, ChatGPT 5.2, and base models in overall metrics, with performance improving with larger training datasets. This study demonstrates the potential of foundational vision-language models to generalize to IVF tasks with limited data, enabling the prediction of natural language descriptions of embryo morphology and development. This approach may facilitate the use of large language models to retrieve information and scientific evidence from relevant publications and guidelines, and has implications for few-shot adaptation to multiple downstream tasks in IVF.
- Abstract(参考訳): IVFにおける人工知能(AI)の適用は、一貫性の向上と決定の標準化を約束しているが、注釈付きデータに依存し、IVFデータのマルチモーダルな性質は利用しないことが多い。
本研究では,胚の形態と発達の自然言語記述を予測するために,基礎的視覚言語モデルを微調整できるかどうかを検討した。
胚の形態, 胚細胞周期, 発生段階を記述した画像とそれに対応するキャプションが1,000枚しかない多モーダル視覚言語モデルPaliGemma-2を, 一般に公開されている胚タイムラプスデータセットを用いて微調整した。
以上の結果から,微調整モデルであるInVitroVisionは商用モデル,ChatGPT 5.2,ベースモデルよりも優れた性能を示し,より大きなトレーニングデータセットによるパフォーマンス向上を実現した。
本研究は,IVFタスクに限られたデータで一般化する基礎的視覚言語モデルの可能性を示し,胚形態と発達の自然言語記述の予測を可能にする。
このアプローチは、関連する出版物やガイドラインから情報や科学的証拠を取得するために、大規模な言語モデルを使用することを容易にし、IVFの複数の下流タスクに数発の適応をもたらす可能性がある。
関連論文リスト
- Beyond Language Modeling: An Exploration of Multimodal Pretraining [125.34714978184638]
我々は、制御されたオフスクラッチ事前学習実験を通して経験的明瞭度を提供する。
我々はトランスフュージョン・フレームワークを採用し、言語と視覚の拡散を次々に予測する。
我々は、MoEアーキテクチャが、言語によって要求される高いモデル容量を提供することにより、このスケーリング非対称性を調和させることを実証する。
論文 参考訳(メタデータ) (2026-03-03T18:58:00Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
本稿では,72の科学分野をカバーするNature Communicationsの記事からまとめられた包括的データセットについて述べる。
2つのベンチマークタスク(図のキャプションと複数選択)で19のプロプライエタリモデルとオープンソースモデルを評価し,人手による注釈を行った。
タスク固有データを用いた細調整Qwen2-VL-7Bは、GPT-4oや人間の専門家でさえも、マルチチョイス評価において優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - Enhancing Visual Grounding and Generalization: A Multi-Task Cycle Training Approach for Vision-Language Models [41.64717254672843]
視覚接地は多モード視覚言語モデルにおいて重要な位置を占める。
本稿では,VGのマルチタスクをサポートする大規模なマルチモーダリティモデルであるViLaMを提案する。
ViLaMは幅広い命令を拡張し、一般化と相互作用ポテンシャルを大幅に強化する。
論文 参考訳(メタデータ) (2023-11-21T03:40:09Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Exploring Transfer Learning in Medical Image Segmentation using Vision-Language Models [0.8878802873945023]
本研究では,視覚言語モデルから2次元医用画像への移行に関する最初の体系的研究を紹介する。
VLSMは画像のみのセグメンテーションモデルと比較して競合性能を示すが、全てのVLSMは言語プロンプトから追加情報を利用するわけではない。
論文 参考訳(メタデータ) (2023-08-15T11:28:21Z) - Customizing General-Purpose Foundation Models for Medical Report
Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。
本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:02:36Z) - Multi-Modal Perceiver Language Model for Outcome Prediction in Emergency
Department [0.03088120935391119]
主訴のテキスト情報とトリアージで記録されたバイタルサインに基づいて, 病院救急部門における結果予測と患者トリアージに関心がある。
我々は、いくつかのアプリケーションで有望な結果を示すモダリティに依存しないトランスフォーマーベースのモデルであるPerceiverを適応する。
実験では,テキストやバイタルサインのみを訓練したモデルと比較して,変異モダリティが予測性能を向上させることを示した。
論文 参考訳(メタデータ) (2023-04-03T06:32:00Z) - UViM: A Unified Modeling Approach for Vision with Learned Guiding Codes [91.24112204588353]
我々は、幅広いコンピュータビジョンタスクをモデル化できる統一的なアプローチであるUViMを紹介する。
以前のモデルとは対照的に、UViMは全てのタスクに対して同じ機能を持つ。
多様な3つの視覚課題に対するUViMの有効性を実証する。
論文 参考訳(メタデータ) (2022-05-20T17:47:59Z) - Towards deep learning-powered IVF: A large public benchmark for
morphokinetic parameter prediction [0.0]
337kの画像に対して,胚発生の756ビデオの完全注釈付きデータセットについて述べる。
我々は、データセットにResNet、LSTM、ResNet-3Dアーキテクチャを適用し、ステージ開発フェーズを自動的にアノテートするためにアルゴリズムアプローチをオーバーパフォーマンスすることを実証する。
これはディープラーニングによるIVFへの第一歩だ。
論文 参考訳(メタデータ) (2022-03-01T15:13:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。