論文の概要: BiMediX2: Bio-Medical EXpert LMM for Diverse Medical Modalities
- arxiv url: http://arxiv.org/abs/2412.07769v1
- Date: Tue, 10 Dec 2024 18:59:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:36:44.355870
- Title: BiMediX2: Bio-Medical EXpert LMM for Diverse Medical Modalities
- Title(参考訳): BiMediX2: 異種医療用バイオメディカルエクスペレットLMM
- Authors: Sahal Shaji Mullappilly, Mohammed Irfan Kurpath, Sara Pieri, Saeed Yahya Alseiari, Shanavas Cholakkal, Khaled Aldahmani, Fahad Khan, Rao Anwer, Salman Khan, Timothy Baldwin, Hisham Cholakkal,
- Abstract要約: BiMediX2はバイリンガル(アラビア語-英語)バイオメディカル・エクスペルト・大型マルチモーダル・モデル(LMM)である。
テキストと視覚機能を統合して、英語とアラビア語の両方でのシームレスな対話を容易にし、テキストベースの入力と医療画像を含むマルチターン会話をサポートする。
BiMediX2はテキストベースとイメージベースの両方のタスクでベンチマークされており、いくつかのベンチマークで最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 36.30252230403839
- License:
- Abstract: This paper introduces BiMediX2, a bilingual (Arabic-English) Bio-Medical EXpert Large Multimodal Model (LMM) with a unified architecture that integrates text and visual modalities, enabling advanced image understanding and medical applications. BiMediX2 leverages the Llama3.1 architecture and integrates text and visual capabilities to facilitate seamless interactions in both English and Arabic, supporting text-based inputs and multi-turn conversations involving medical images. The model is trained on an extensive bilingual healthcare dataset consisting of 1.6M samples of diverse medical interactions for both text and image modalities, mixed in Arabic and English. We also propose the first bilingual GPT-4o based medical LMM benchmark named BiMed-MBench. BiMediX2 is benchmarked on both text-based and image-based tasks, achieving state-of-the-art performance across several medical benchmarks. It outperforms recent state-of-the-art models in medical LLM evaluation benchmarks. Our model also sets a new benchmark in multimodal medical evaluations with over 9% improvement in English and over 20% in Arabic evaluations. Additionally, it surpasses GPT-4 by around 9% in UPHILL factual accuracy evaluations and excels in various medical Visual Question Answering, Report Generation, and Report Summarization tasks. The project page including source code and the trained model, is available at https://github.com/mbzuai-oryx/BiMediX2.
- Abstract(参考訳): 本稿では,バイリンガル (アラビア語-英語) バイオメディカル・エクスパート・大型マルチモーダル・モデル (LMM) であるBiMediX2について述べる。
BiMediX2はLlama3.1アーキテクチャを活用し、英語とアラビア語の両方でのシームレスな対話を容易にするためにテキストと視覚機能を統合し、テキストベースの入力と医療画像を含むマルチターン会話をサポートする。
このモデルは、アラビア語と英語で混在するテキストと画像のモダリティの両方に対して、1.6万の多様な医療相互作用のサンプルからなる広範囲なバイリンガル医療データセットに基づいて訓練されている。
また,バイリンガル GPT-4o ベースの医療用 LMM ベンチマーク BiMed-MBench を提案する。
BiMediX2はテキストベースとイメージベースの両方のタスクでベンチマークされており、いくつかのベンチマークで最先端のパフォーマンスを実現している。
医学LLM評価ベンチマークでは、最近の最先端モデルよりも優れています。
また,英語では9%以上,アラビア語では20%以上,マルチモーダル医療評価では新たなベンチマークを設定した。
さらに, GPT-4を約9%上回り, 様々な医療用視覚質問応答, レポート生成, レポート要約タスクにおいて, UPHILLの精度評価および抜粋を達成している。
ソースコードとトレーニング済みモデルを含むプロジェクトページはhttps://github.com/mbzuai-oryx/BiMediX2.comで公開されている。
関連論文リスト
- A Survey of Medical Vision-and-Language Applications and Their Techniques [48.268198631277315]
医療ビジョン・アンド・ランゲージモデル(MVLM)は、複雑な医療データを解釈するための自然言語インタフェースを提供する能力から、大きな関心を集めている。
本稿では,MVLMの概要と適用した各種医療課題について概観する。
また、これらのタスクに使用するデータセットについても検討し、標準化された評価指標に基づいて異なるモデルの性能を比較した。
論文 参考訳(メタデータ) (2024-11-19T03:27:05Z) - Interpretable Bilingual Multimodal Large Language Model for Diverse Biomedical Tasks [13.016940516468674]
本研究の目的は,医学的MLLMの解剖学的領域全体を理解する能力を高めることである。
本稿では,最初のバイリンガル・ジェネリスト医療用AIシステムである領域認識型医療用MLLM MedRegAを提案する。
我々のモデルは、バイリンガル設定における様々な医療ビジョン言語タスクにおける強力なパフォーマンスを達成するだけでなく、マルチモーダル・メディカルスキャンにおける構造を認識し、検出することができる。
論文 参考訳(メタデータ) (2024-10-24T02:55:41Z) - Medical mT5: An Open-Source Multilingual Text-to-Text LLM for The Medical Domain [19.58987478434808]
我々は、医療領域における最初のオープンソーステキストからテキストへの多言語モデルであるMedical mT5を提示する。
包括的な評価では、Medical mT5はエンコーダと、スペイン語、フランス語、イタリア語のベンチマークで同等の大きさのテキスト・テキスト・モデルの両方を上回っている。
論文 参考訳(メタデータ) (2024-04-11T10:01:32Z) - Towards Building Multilingual Language Model for Medicine [54.1382395897071]
6つの主要言語を含む約25.5Bトークンを含む多言語医療コーパスを構築した。
MMedBench と呼ばれる有理性を持つ多言語医療用多言語質問応答ベンチマークを提案する。
我々の最終モデルであるMMed-Llama 3は、8Bパラメータしか持たないが、MMedBenchおよび英語ベンチマークの他のすべてのオープンソースモデルと比較して優れた性能が得られる。
論文 参考訳(メタデータ) (2024-02-21T17:47:20Z) - BiMediX: Bilingual Medical Mixture of Experts LLM [94.85518237963535]
英語とアラビア語の両方でシームレスに相互作用するように設計された、最初のバイリンガル医療混合物であるBiMediXを紹介する。
我々のモデルは、英語とアラビア語の幅広い医学的相互作用を促進し、さらに詳細を問い合わせるマルチターンチャットを含む。
そこで我々は,高品質な翻訳を保証するために,人間の洗練を図った英語からアラビア語への半自動翻訳パイプラインを提案する。
論文 参考訳(メタデータ) (2024-02-20T18:59:26Z) - Qilin-Med-VL: Towards Chinese Large Vision-Language Model for General
Healthcare [14.646414629627001]
本研究は,テキストデータと視覚データの分析を統合するために設計された,中国初の大規模視覚言語モデルであるQilin-Med-VLを紹介する。
また,100万以上の画像テキストペアからなるデータセットであるChiMed-VLもリリースしました。
論文 参考訳(メタデータ) (2023-10-27T08:05:21Z) - LLaVA-Med: Training a Large Language-and-Vision Assistant for
Biomedicine in One Day [85.19963303642427]
本稿では,バイオメディカルイメージのオープンな研究課題に答えられる視覚言語対話アシスタントを訓練するための費用効率のよいアプローチを提案する。
モデルはまず、フィギュア・キャプションのペアを使ってバイオメディカル・ボキャブラリをアライメントし、その後、オープンエンドの会話意味論を習得する。
これにより、バイオメディジンのための大規模言語と視覚アシスタントを15時間以内で(8つのA100で)訓練することができる。
論文 参考訳(メタデータ) (2023-06-01T16:50:07Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。