論文の概要: Dolphin v1.0 Technical Report
- arxiv url: http://arxiv.org/abs/2509.25748v2
- Date: Wed, 01 Oct 2025 01:29:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-02 12:11:26.804398
- Title: Dolphin v1.0 Technical Report
- Title(参考訳): Dolphin v1.0テクニカルレポート
- Authors: Taohan Weng, Chi zhang, Chaoran Yan, Siya Liu, Xiaoyang Liu, Yalun Wu, Boyang Wang, Boyan Wang, Jiren Ren, Kaiwen Yan, Jinze Yu, Kaibing Hu, Henan Liu, Haoyun Zheng, Zhenyu Liu, Duo Zhang, Xiaoqing Guo, Anjie Le, Hongcheng Guo,
- Abstract要約: 本稿では,Dolphin v1.0 (V1) とその拡張版であるDolphin R1について紹介する。
Dolphin v1.0は、分類、検出、回帰、レポート生成における信頼性の高いパフォーマンスを提供する。
ドルフィンR1は、超音波特異的報酬による強化学習を通じて、診断の推論、透明性の推論、解釈可能性を高める。
- 参考スコア(独自算出の注目度): 23.517600896510967
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Ultrasound is crucial in modern medicine but faces challenges like operator dependence, image noise, and real-time scanning, hindering AI integration. While large multimodal models excel in other medical imaging areas, they struggle with ultrasound's complexities. To address this, we introduce Dolphin v1.0 (V1) and its reasoning-augmented version, Dolphin R1-the first large-scale multimodal ultrasound foundation models unifying diverse clinical tasks in a single vision-language framework.To tackle ultrasound variability and noise, we curated a 2-million-scale multimodal dataset, combining textbook knowledge, public data, synthetic samples, and general corpora. This ensures robust perception, generalization, and clinical adaptability.The Dolphin series employs a three-stage training strategy: domain-specialized pretraining, instruction-driven alignment, and reinforcement-based refinement. Dolphin v1.0 delivers reliable performance in classification, detection, regression, and report generation. Dolphin R1 enhances diagnostic inference, reasoning transparency, and interpretability through reinforcement learning with ultrasound-specific rewards.Evaluated on U2-Bench across eight ultrasound tasks, Dolphin R1 achieves a U2-score of 0.5835-over twice the second-best model (0.2968) setting a new state of the art. Dolphin v1.0 also performs competitively, validating the unified framework. Comparisons show reasoning-enhanced training significantly improves diagnostic accuracy, consistency, and interpretability, highlighting its importance for high-stakes medical AI.
- Abstract(参考訳): 超音波は現代医学では不可欠だが、オペレータ依存、画像ノイズ、リアルタイムスキャンといった課題に直面し、AI統合を妨げる。
大規模なマルチモーダルモデルは他の医療画像領域で優れているが、超音波の複雑さに苦慮している。
そこで本研究では,Dolphin v1.0 (V1) とその推理化バージョンであるDolphin R1を導入し,単一の視覚言語フレームワークにおける多様な臨床タスクを統一する最初の大規模マルチモーダル超音波基礎モデルを提案する。
これにより、堅牢な認識、一般化、臨床適応性が保証され、Dolphinシリーズはドメイン特化事前訓練、命令駆動アライメント、強化に基づく改善という3段階のトレーニング戦略を採用している。
Dolphin v1.0は、分類、検出、回帰、レポート生成における信頼性の高いパフォーマンスを提供する。
ドルフィンR1は超音波の8つのタスクでU2-ベンチを評価したところ、U2スコアの0.5835-over(0.2968)を新しい最先端モデル(0.2968)の2倍の精度で達成した。
Dolphin v1.0も競争力があり、統一されたフレームワークを検証する。
比較では、推論強化トレーニングは診断精度、一貫性、解釈可能性を大幅に改善し、ハイテイクな医療AIの重要性を強調している。
関連論文リスト
- A Fully Open and Generalizable Foundation Model for Ultrasound Clinical Applications [77.3888788549565]
一般臨床用超音波基礎モデルであるEchoCareについて紹介する。
我々は、キュレートされた、一般公開された大規模なデータセットであるEchoCareData上で、自己教師付き学習を通じてEchoCareを開発した。
最小限のトレーニングで、EchoCareは10の代表的なベンチマークで最先端の比較モデルを上回っている。
論文 参考訳(メタデータ) (2025-09-15T10:05:31Z) - Federated Breast Cancer Detection Enhanced by Synthetic Ultrasound Image Augmentation [3.586778724545972]
統合学習(FL)は、センシティブな医療データを交換することなく、機関間でディープラーニングモデルを協調的に訓練するための、有望なパラダイムとして登場した。
本稿では, 超音波画像を用いた乳がん診断のための統合トレーニングプロセスに, 合成画像共有を統合した生成AIベースのデータ拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-29T17:05:50Z) - Hybrid Vision Transformer-Mamba Framework for Autism Diagnosis via Eye-Tracking Analysis [2.481802259298367]
本研究では,視覚変換器(ViT)とビジョン・マンバを組み合わせたハイブリッドなディープラーニングフレームワークを提案する。
このモデルは、注意に基づく融合を用いて視覚、音声、顔の手がかりを統合し、空間的、時間的両方のダイナミクスをキャプチャする。
Saliency4ASDデータセットでテストした結果、提案されたViT-Mambaモデルは既存の手法より優れており、精度0.96、スコア0.95F1、感度0.97、特異度0.94を達成している。
論文 参考訳(メタデータ) (2025-06-07T18:27:24Z) - The Efficacy of Semantics-Preserving Transformations in Self-Supervised Learning for Medical Ultrasound [60.80780313225093]
本研究は, 肺超音波の自己教師あり学習におけるデータ拡張と前処理方略の影響を系統的に検討した。
画像領域に共通して使用されるベースラインパイプライン、超音波用に設計された新しいセマンティック保存パイプライン、両方のパイプラインから最も効果的な変換の蒸留セットの3つのデータ拡張パイプラインが評価された。
論文 参考訳(メタデータ) (2025-04-10T16:26:47Z) - Leveraging Audio and Text Modalities in Mental Health: A Study of LLMs Performance [0.9074663948713616]
本研究では,マルチモーダル精神保健診断におけるLarge Language Models(LLMs)の可能性について検討した。
テキストと音声のモダリティを比較し,LLMが音声入力で等しく動作するかどうかを検討する。
論文 参考訳(メタデータ) (2024-12-09T20:40:03Z) - Privacy-Preserving Federated Foundation Model for Generalist Ultrasound Artificial Intelligence [83.02106623401885]
プライバシー保護型超音波基礎モデルであるUltraFedFMを提案する。
UltraFedFMは、9か国の16の分散医療機関にわたる連合学習を用いて、協調的に事前訓練されている。
疾患診断には0.927のレシーバ動作特性曲線、病変セグメント化には0.878のサイス類似係数を平均的に達成する。
論文 参考訳(メタデータ) (2024-11-25T13:40:11Z) - Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。
提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。
医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-03-19T09:28:19Z) - Robust and Efficient Medical Imaging with Self-Supervision [80.62711706785834]
医用画像AIの堅牢性とデータ効率を向上させるための統一表現学習戦略であるREMEDISを提案する。
様々な医療画像タスクを研究し, 振り返りデータを用いて3つの現実的な応用シナリオをシミュレートする。
論文 参考訳(メタデータ) (2022-05-19T17:34:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。