論文の概要: Dolphin v1.0 Technical Report
- arxiv url: http://arxiv.org/abs/2509.25748v2
- Date: Wed, 01 Oct 2025 01:29:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-02 12:11:26.804398
- Title: Dolphin v1.0 Technical Report
- Title(参考訳): Dolphin v1.0テクニカルレポート
- Authors: Taohan Weng, Chi zhang, Chaoran Yan, Siya Liu, Xiaoyang Liu, Yalun Wu, Boyang Wang, Boyan Wang, Jiren Ren, Kaiwen Yan, Jinze Yu, Kaibing Hu, Henan Liu, Haoyun Zheng, Zhenyu Liu, Duo Zhang, Xiaoqing Guo, Anjie Le, Hongcheng Guo,
- Abstract要約: 本稿では,Dolphin v1.0 (V1) とその拡張版であるDolphin R1について紹介する。
Dolphin v1.0は、分類、検出、回帰、レポート生成における信頼性の高いパフォーマンスを提供する。
ドルフィンR1は、超音波特異的報酬による強化学習を通じて、診断の推論、透明性の推論、解釈可能性を高める。
- 参考スコア(独自算出の注目度): 23.517600896510967
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Ultrasound is crucial in modern medicine but faces challenges like operator dependence, image noise, and real-time scanning, hindering AI integration. While large multimodal models excel in other medical imaging areas, they struggle with ultrasound's complexities. To address this, we introduce Dolphin v1.0 (V1) and its reasoning-augmented version, Dolphin R1-the first large-scale multimodal ultrasound foundation models unifying diverse clinical tasks in a single vision-language framework.To tackle ultrasound variability and noise, we curated a 2-million-scale multimodal dataset, combining textbook knowledge, public data, synthetic samples, and general corpora. This ensures robust perception, generalization, and clinical adaptability.The Dolphin series employs a three-stage training strategy: domain-specialized pretraining, instruction-driven alignment, and reinforcement-based refinement. Dolphin v1.0 delivers reliable performance in classification, detection, regression, and report generation. Dolphin R1 enhances diagnostic inference, reasoning transparency, and interpretability through reinforcement learning with ultrasound-specific rewards.Evaluated on U2-Bench across eight ultrasound tasks, Dolphin R1 achieves a U2-score of 0.5835-over twice the second-best model (0.2968) setting a new state of the art. Dolphin v1.0 also performs competitively, validating the unified framework. Comparisons show reasoning-enhanced training significantly improves diagnostic accuracy, consistency, and interpretability, highlighting its importance for high-stakes medical AI.
- Abstract(参考訳): 超音波は現代医学では不可欠だが、オペレータ依存、画像ノイズ、リアルタイムスキャンといった課題に直面し、AI統合を妨げる。
大規模なマルチモーダルモデルは他の医療画像領域で優れているが、超音波の複雑さに苦慮している。
そこで本研究では,Dolphin v1.0 (V1) とその推理化バージョンであるDolphin R1を導入し,単一の視覚言語フレームワークにおける多様な臨床タスクを統一する最初の大規模マルチモーダル超音波基礎モデルを提案する。
これにより、堅牢な認識、一般化、臨床適応性が保証され、Dolphinシリーズはドメイン特化事前訓練、命令駆動アライメント、強化に基づく改善という3段階のトレーニング戦略を採用している。
Dolphin v1.0は、分類、検出、回帰、レポート生成における信頼性の高いパフォーマンスを提供する。
ドルフィンR1は超音波の8つのタスクでU2-ベンチを評価したところ、U2スコアの0.5835-over(0.2968)を新しい最先端モデル(0.2968)の2倍の精度で達成した。
Dolphin v1.0も競争力があり、統一されたフレームワークを検証する。
比較では、推論強化トレーニングは診断精度、一貫性、解釈可能性を大幅に改善し、ハイテイクな医療AIの重要性を強調している。
関連論文リスト
- Epistemic-aware Vision-Language Foundation Model for Fetal Ultrasound Interpretation [83.02147613524032]
医療用AIシステムFetalMindについて報告する。
本稿では、専門家による2部グラフをモデルに注入し、ビュー・ディスリーズ関連を分離するSED(Salient Epistemic Disentanglement)を提案する。
FetalMindはすべての妊娠期のオープンソースおよびクローズドソースベースラインを上回り、平均利得は+14%、臨界条件では+61.2%高い。
論文 参考訳(メタデータ) (2025-10-14T19:57:03Z) - A Fully Open and Generalizable Foundation Model for Ultrasound Clinical Applications [77.3888788549565]
一般臨床用超音波基礎モデルであるEchoCareについて紹介する。
我々は、キュレートされた、一般公開された大規模なデータセットであるEchoCareData上で、自己教師付き学習を通じてEchoCareを開発した。
最小限のトレーニングで、EchoCareは10の代表的なベンチマークで最先端の比較モデルを上回っている。
論文 参考訳(メタデータ) (2025-09-15T10:05:31Z) - Federated Breast Cancer Detection Enhanced by Synthetic Ultrasound Image Augmentation [3.586778724545972]
統合学習(FL)は、センシティブな医療データを交換することなく、機関間でディープラーニングモデルを協調的に訓練するための、有望なパラダイムとして登場した。
本稿では, 超音波画像を用いた乳がん診断のための統合トレーニングプロセスに, 合成画像共有を統合した生成AIベースのデータ拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-29T17:05:50Z) - Hybrid Vision Transformer-Mamba Framework for Autism Diagnosis via Eye-Tracking Analysis [2.481802259298367]
本研究では,視覚変換器(ViT)とビジョン・マンバを組み合わせたハイブリッドなディープラーニングフレームワークを提案する。
このモデルは、注意に基づく融合を用いて視覚、音声、顔の手がかりを統合し、空間的、時間的両方のダイナミクスをキャプチャする。
Saliency4ASDデータセットでテストした結果、提案されたViT-Mambaモデルは既存の手法より優れており、精度0.96、スコア0.95F1、感度0.97、特異度0.94を達成している。
論文 参考訳(メタデータ) (2025-06-07T18:27:24Z) - The Efficacy of Semantics-Preserving Transformations in Self-Supervised Learning for Medical Ultrasound [60.80780313225093]
本研究は, 肺超音波の自己教師あり学習におけるデータ拡張と前処理方略の影響を系統的に検討した。
画像領域に共通して使用されるベースラインパイプライン、超音波用に設計された新しいセマンティック保存パイプライン、両方のパイプラインから最も効果的な変換の蒸留セットの3つのデータ拡張パイプラインが評価された。
論文 参考訳(メタデータ) (2025-04-10T16:26:47Z) - Explainable AI-Driven Detection of Human Monkeypox Using Deep Learning and Vision Transformers: A Comprehensive Analysis [0.20482269513546453]
mpoxは動物園で流行するウイルス病で、公衆衛生に重大な影響を及ぼす。
症状が麻疹や鶏痘の症状とどのように一致しているかから,早期臨床診断は困難である。
深層学習(DL)技術と併用した医用画像は, 皮膚領域を解析することにより, 疾患検出の改善を約束している。
本研究は,皮膚病変画像データセットを用いて,深層学習と視覚トランスフォーマーに基づくモデルをスクラッチからトレーニングする可能性について検討した。
論文 参考訳(メタデータ) (2025-04-03T19:45:22Z) - Leveraging Audio and Text Modalities in Mental Health: A Study of LLMs Performance [0.9074663948713616]
本研究では,マルチモーダル精神保健診断におけるLarge Language Models(LLMs)の可能性について検討した。
テキストと音声のモダリティを比較し,LLMが音声入力で等しく動作するかどうかを検討する。
論文 参考訳(メタデータ) (2024-12-09T20:40:03Z) - Privacy-Preserving Federated Foundation Model for Generalist Ultrasound Artificial Intelligence [83.02106623401885]
プライバシー保護型超音波基礎モデルであるUltraFedFMを提案する。
UltraFedFMは、9か国の16の分散医療機関にわたる連合学習を用いて、協調的に事前訓練されている。
疾患診断には0.927のレシーバ動作特性曲線、病変セグメント化には0.878のサイス類似係数を平均的に達成する。
論文 参考訳(メタデータ) (2024-11-25T13:40:11Z) - Enhancing Skin Disease Classification Leveraging Transformer-based Deep Learning Architectures and Explainable AI [2.3149142745203326]
皮膚疾患は世界の人口の3分の1以上に影響を与えるが、その影響は過小評価されることが多い。
深層学習技術は皮膚疾患の特定を含む様々なタスクに多くの可能性を示してきた。
この研究では、31のクラスを持つ皮膚疾患データセットを使用し、Vision Transformers、Swin Transformers、DivoV2のすべてのバージョンと比較した。
論文 参考訳(メタデータ) (2024-07-20T05:38:00Z) - Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。
提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。
医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-03-19T09:28:19Z) - Robust and Efficient Medical Imaging with Self-Supervision [80.62711706785834]
医用画像AIの堅牢性とデータ効率を向上させるための統一表現学習戦略であるREMEDISを提案する。
様々な医療画像タスクを研究し, 振り返りデータを用いて3つの現実的な応用シナリオをシミュレートする。
論文 参考訳(メタデータ) (2022-05-19T17:34:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。