論文の概要: A scoping review on multimodal deep learning in biomedical images and
texts
- arxiv url: http://arxiv.org/abs/2307.07362v2
- Date: Sun, 3 Sep 2023 01:59:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 04:20:24.207083
- Title: A scoping review on multimodal deep learning in biomedical images and
texts
- Title(参考訳): 生体画像とテキストにおけるマルチモーダル深層学習についての一考察
- Authors: Zhaoyi Sun, Mingquan Lin, Qingqing Zhu, Qianqian Xie, Fei Wang,
Zhiyong Lu, Yifan Peng
- Abstract要約: マルチモーダルディープラーニングは、バイオメディカルデータの分析と解釈に革命をもたらす可能性がある。
本研究では,5つのタスクにおけるマルチモーダル深層学習の現在の利用状況について検討した。
- 参考スコア(独自算出の注目度): 29.10320016193946
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Computer-assisted diagnostic and prognostic systems of the future should be
capable of simultaneously processing multimodal data. Multimodal deep learning
(MDL), which involves the integration of multiple sources of data, such as
images and text, has the potential to revolutionize the analysis and
interpretation of biomedical data. However, it only caught researchers'
attention recently. To this end, there is a critical need to conduct a
systematic review on this topic, identify the limitations of current work, and
explore future directions. In this scoping review, we aim to provide a
comprehensive overview of the current state of the field and identify key
concepts, types of studies, and research gaps with a focus on biomedical images
and texts joint learning, mainly because these two were the most commonly
available data types in MDL research. This study reviewed the current uses of
multimodal deep learning on five tasks: (1) Report generation, (2) Visual
question answering, (3) Cross-modal retrieval, (4) Computer-aided diagnosis,
and (5) Semantic segmentation. Our results highlight the diverse applications
and potential of MDL and suggest directions for future research in the field.
We hope our review will facilitate the collaboration of natural language
processing (NLP) and medical imaging communities and support the next
generation of decision-making and computer-assisted diagnostic system
development.
- Abstract(参考訳): 将来のコンピュータ支援診断・予後システムは、マルチモーダルデータを同時に処理できるべきである。
画像やテキストなどの複数のデータソースの統合を含むMDL(Multimodal Deep Learning)は、バイオメディカルデータの分析と解釈に革命をもたらす可能性がある。
しかし、近年は研究者の注意を引いただけである。
この目的のために、このトピックを体系的にレビューし、現在の作業の限界を特定し、今後の方向性を探求する必要がある。
本稿では,この分野の現状を総合的に概観し,生物医学的イメージとテキスト共同学習に焦点をあてた,重要な概念,研究の種類,研究ギャップを明らかにすることを目的としている。
本研究では,(1)レポート生成,(2)ビジュアル質問応答,(3)クロスモーダル検索,(4)コンピュータ支援診断,(5)意味セグメンテーションの5つの課題について,マルチモーダル深層学習の現状について検討した。
本結果はMDLの多様な応用と可能性を強調し,今後の研究の方向性を示唆するものである。
我々は,自然言語処理(nlp)と医療画像コミュニティの連携を促進し,次世代の意思決定とコンピュータ支援診断システム開発を支援することを期待する。
関連論文リスト
- A Survey of Medical Vision-and-Language Applications and Their Techniques [48.268198631277315]
医療ビジョン・アンド・ランゲージモデル(MVLM)は、複雑な医療データを解釈するための自然言語インタフェースを提供する能力から、大きな関心を集めている。
本稿では,MVLMの概要と適用した各種医療課題について概観する。
また、これらのタスクに使用するデータセットについても検討し、標準化された評価指標に基づいて異なるモデルの性能を比較した。
論文 参考訳(メタデータ) (2024-11-19T03:27:05Z) - ViKL: A Mammography Interpretation Framework via Multimodal Aggregation of Visual-knowledge-linguistic Features [54.37042005469384]
MVKLは,マルチビュー画像,詳細な表示,報告を含む最初のマルチモーダルマンモグラフィーデータセットである。
このデータセットに基づいて、教師なし事前学習のチャラリングタスクに焦点を当てる。
視覚,知識,言語機能を相乗化するフレームワークであるViKLを提案する。
論文 参考訳(メタデータ) (2024-09-24T05:01:23Z) - Automated Ensemble Multimodal Machine Learning for Healthcare [52.500923923797835]
本稿では,自動機械学習を用いた構造化臨床(タブラル)データと医用画像の統合を実現するマルチモーダルフレームワークAutoPrognosis-Mを紹介する。
AutoPrognosis-Mには、畳み込みニューラルネットワークとビジョントランスフォーマーを含む17のイメージングモデルと、3つの異なるマルチモーダル融合戦略が含まれている。
論文 参考訳(メタデータ) (2024-07-25T17:46:38Z) - A Survey of Deep Learning-based Radiology Report Generation Using Multimodal Data [41.8344712915454]
自動放射線診断レポート生成は、医師の作業負荷を軽減し、医療資源の地域格差を最小限にすることができる。
マルチモーダル入力データから情報を得るためには、医師を模倣する計算モデルが必要であるため、これは難しい課題である。
近年, トランスフォーマー, コントラスト学習, 知識ベース構築など, 深層学習に基づく手法を用いてこの問題に対処する研究が進められている。
本調査では,最新の研究で開発された重要な手法を要約し,ディープラーニングに基づくレポート生成のための一般的なワークフローを提案する。
論文 参考訳(メタデータ) (2024-05-21T14:37:35Z) - An Evaluation of Large Language Models in Bioinformatics Research [52.100233156012756]
本研究では,大規模言語モデル(LLM)の性能について,バイオインフォマティクスの幅広い課題について検討する。
これらのタスクには、潜在的なコーディング領域の同定、遺伝子とタンパク質の命名されたエンティティの抽出、抗微生物および抗がんペプチドの検出、分子最適化、教育生物情報学問題の解決が含まれる。
以上の結果から, GPT 変種のような LLM がこれらのタスクの多くをうまく処理できることが示唆された。
論文 参考訳(メタデータ) (2024-02-21T11:27:31Z) - Developing ChatGPT for Biology and Medicine: A Complete Review of
Biomedical Question Answering [25.569980942498347]
ChatGPTは、医療診断、治療レコメンデーション、その他の医療支援の提供において、QA(QA)の戦略的青写真を探っている。
これは、自然言語処理(NLP)とマルチモーダルパラダイムによる医療領域データの取り込みの増加によって達成される。
論文 参考訳(メタデータ) (2024-01-15T07:21:16Z) - LLaVA-Med: Training a Large Language-and-Vision Assistant for
Biomedicine in One Day [85.19963303642427]
本稿では,バイオメディカルイメージのオープンな研究課題に答えられる視覚言語対話アシスタントを訓練するための費用効率のよいアプローチを提案する。
モデルはまず、フィギュア・キャプションのペアを使ってバイオメディカル・ボキャブラリをアライメントし、その後、オープンエンドの会話意味論を習得する。
これにより、バイオメディジンのための大規模言語と視覚アシスタントを15時間以内で(8つのA100で)訓練することができる。
論文 参考訳(メタデータ) (2023-06-01T16:50:07Z) - Align, Reason and Learn: Enhancing Medical Vision-and-Language
Pre-training with Knowledge [68.90835997085557]
本稿では,3つの視点から構造化された医療知識を高めるための体系的かつ効果的なアプローチを提案する。
まず、視覚エンコーダと言語エンコーダの表現を知識を通して整列する。
次に,多モード融合モデルに知識を注入し,入力画像とテキストの補足として知識を用いた推論を可能にする。
第3に、知識によって引き起こされるプレテキストタスクを設計することで、画像やテキストの最も重要な情報に重点を置くよう、モデルを指導する。
論文 参考訳(メタデータ) (2022-09-15T08:00:01Z) - Multimodal Machine Learning in Precision Health [10.068890037410316]
本総説は, この分野を要約し, 今後の研究に欠かせない話題を特定するものである。
コンテンツ分析と文献検索を組み合わせて,2011年から2021年にかけてPubMed, Google Scholar, IEEEXploreの検索文字列とデータベースを構築した。
情報融合の最も一般的な形態は、初期の融合であり、特に、異種データ融合を行う予測性能の改善があった。
論文 参考訳(メタデータ) (2022-04-10T21:56:07Z) - Deep Multi-modal Fusion of Image and Non-image Data in Disease Diagnosis
and Prognosis: A Review [8.014632186417423]
医療における診断技術の急速な発展は、医師が日常的に発生する異質で相補的なデータを扱い、統合することの要求が高まっている。
近年のマルチモーダルディープラーニング技術の発展に伴い、我々はどのようにして多モーダル情報を抽出して集約し、究極的にはより客観的で定量的なコンピュータ支援の臨床的意思決定を提供するかという重要な疑問に、ますます多くの努力が注がれている。
本総説では,(1)現在のマルチモーダル・ラーニングの概要,(2)マルチモーダル・フュージョン法の要約,(3)パフォーマンスの議論,(4)疾患診断と予後の応用,(5)課題と将来について概説する。
論文 参考訳(メタデータ) (2022-03-25T18:50:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。