Fugu-MT 論文翻訳(概要): E3D-GPT: Enhanced 3D Visual Foundation for Medical Vision-Language Model

論文の概要: E3D-GPT: Enhanced 3D Visual Foundation for Medical Vision-Language Model

arxiv url: http://arxiv.org/abs/2410.14200v1
Date: Fri, 18 Oct 2024 06:31:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:37.344341
Title: E3D-GPT: Enhanced 3D Visual Foundation for Medical Vision-Language Model
Title（参考訳）: E3D-GPT : 医用ビジョンランゲージモデルのための3Dビジュアルファウンデーションの強化
Authors: Haoran Lai, Zihang Jiang, Qingsong Yao, Rongsheng Wang, Zhiyang He, Xiaodong Tao, Wei Wei, Weifu Lv, S. Kevin Zhou,
Abstract要約: 3次元医用視覚言語モデルの開発は、疾患の診断と患者の治療に有意な可能性を秘めている。自己教師付き学習を用いて3次元視覚特徴抽出のための3次元視覚基盤モデルを構築した。本研究では,3次元空間畳み込みを高精細画像の特徴の集約・投影に応用し,計算複雑性を低減した。本モデルは,既存の報告生成法,視覚的質問応答法,疾患診断法と比較して,優れた性能を示す。
参考スコア（独自算出の注目度）: 23.56751925900571
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: The development of 3D medical vision-language models holds significant potential for disease diagnosis and patient treatment. However, compared to 2D medical images, 3D medical images, such as CT scans, face challenges related to limited training data and high dimension, which severely restrict the progress of 3D medical vision-language models. To address these issues, we collect a large amount of unlabeled 3D CT data and utilize self-supervised learning to construct a 3D visual foundation model for extracting 3D visual features. Then, we apply 3D spatial convolutions to aggregate and project high-level image features, reducing computational complexity while preserving spatial information. We also construct two instruction-tuning datasets based on BIMCV-R and CT-RATE to fine-tune the 3D vision-language model. Our model demonstrates superior performance compared to existing methods in report generation, visual question answering, and disease diagnosis. Code and data will be made publicly available soon.
Abstract（参考訳）: 3次元医用視覚言語モデルの開発は、疾患の診断と患者の治療に有意な可能性を秘めている。しかし,2次元医用画像と比較すると,CTスキャンなどの3次元医用画像は,訓練データや高次元の制限による課題に直面しており,医用ビジョン言語モデルの進行を著しく抑制している。これらの課題に対処するために,大量のラベルのない3次元CTデータを収集し,自己教師付き学習を用いて3次元視覚特徴抽出のための3次元視覚基盤モデルを構築した。そして,3次元空間畳み込みを用いて高次画像の特徴を集約・投影し,空間情報を保存しながら計算複雑性を低減させる。また、BIMCV-RとCT-RATEに基づく2つの命令調整データセットを構築し、3次元視覚言語モデルを微調整する。本モデルは,既存の報告生成法,視覚的質問応答法,疾患診断法と比較して,優れた性能を示す。コードとデータは近く公開される予定だ。

関連論文リスト

Unifying 2D and 3D Vision-Language Understanding [85.84054120018625]
2次元および3次元視覚言語学習のための統一アーキテクチャUniVLGを紹介する。 UniVLGは、既存の2D中心モデルと、エンボディシステムで利用可能なリッチな3Dセンサーデータのギャップを埋める。
論文参考訳（メタデータ） (2025-03-13T17:56:22Z)
DCFormer: Efficient 3D Vision-Language Modeling with Decomposed Convolutions [6.464464511743737]
我々は,3次元畳み込みを深さ,高さ,幅の3つの平行1次元畳み込みに分解する,効率的な3次元画像エンコーダDCFormerを紹介する。ゼロショットと微調整による18の病理診断では、DCFormerは最先端の3Dビジョンエンコーダよりも一貫して優れている。
論文参考訳（メタデータ） (2025-02-07T17:10:22Z)
3D-CT-GPT: Generating 3D Radiology Reports through Integration of Large Vision-Language Models [51.855377054763345]
本稿では,VQAに基づく医用視覚言語モデルである3D-CT-GPTについて紹介する。パブリックデータセットとプライベートデータセットの両方の実験により、3D-CT-GPTはレポートの正確さと品質という点で既存の手法を著しく上回っていることが示された。
論文参考訳（メタデータ） (2024-09-28T12:31:07Z)
DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文参考訳（メタデータ） (2024-06-06T17:58:15Z)
M3D: Advancing 3D Medical Image Analysis with Multi-Modal Large Language Models [49.5030774873328]
これまでの研究は主に2Dの医療画像に焦点を合わせてきた。 120K画像テキスト対と62K命令応答対からなる大規模3次元マルチモーダル医療データセットM3D-Dataを提案する。また,新しい3次元マルチモーダル・メディカル・ベンチマークであるM3D-Benchを導入し,8つのタスクにまたがる自動評価を容易にする。
論文参考訳（メタデータ） (2024-03-31T06:55:12Z)
Generative Enhancement for 3D Medical Images [74.17066529847546]
本稿では,3次元医用画像合成の新しい生成手法であるGEM-3Dを提案する。本手法は2次元スライスから始まり,3次元スライスマスクを用いて患者に提供するための情報スライスとして機能し,生成過程を伝搬する。 3D医療画像をマスクと患者の事前情報に分解することで、GEM-3Dは多目的な3D画像を生成する柔軟な、かつ効果的なソリューションを提供する。
論文参考訳（メタデータ） (2024-03-19T15:57:04Z)
T3D: Towards 3D Medical Image Understanding through Vision-Language Pre-training [33.548818136506334]
我々は、高解像度の3D医療画像用に設計された最初のフレームワークであるT3Dを紹介する。 T3Dには2つのテキストインフォームド・プレテキストタスクが含まれている: (lowerromannumeral1) テキストインフォームド・コントラスト学習; (lowerromannumeral2) テキストインフォームド・イメージ復元。 T3Dは、臓器や腫瘍のセグメンテーションなどのタスクや疾患の分類において、現在のvSSLメソッドよりも大幅に優れている。
論文参考訳（メタデータ） (2023-12-03T23:03:22Z)
Cross3DVG: Cross-Dataset 3D Visual Grounding on Different RGB-D Scans [6.936271803454143]
3Dシーンにおけるクロスデータセット視覚的グラウンド化のための新しいタスク(Cross3DVG)を提案する。大規模な3DビジュアルグラウンドデータセットであるROOReferを作成しました。 3RScanの1,380の屋内RGB-Dスキャンで、63万以上の3Dオブジェクトが記述されている。
論文参考訳（メタデータ） (2023-05-23T09:52:49Z)
Video Pretraining Advances 3D Deep Learning on Chest CT Tasks [63.879848037679224]
大規模自然画像分類データセットの事前学習は、データスカース2D医療タスクのモデル開発に役立っている。これらの2Dモデルは、3Dコンピュータビジョンベンチマークで3Dモデルに勝っている。 3Dモデルのためのビデオ事前トレーニングにより、より小さなデータセットでより高性能な3D医療タスクを実現することができることを示す。
論文参考訳（メタデータ） (2023-04-02T14:46:58Z)
Oral-3Dv2: 3D Oral Reconstruction from Panoramic X-Ray Imaging with Implicit Neural Representation [3.8215162658168524]
Oral-3Dv2は、単一のパノラマX線画像から3Dラジオロジーを再構成する非逆学習モデルである。本モデルは,2次元座標を3次元空間内のボクセルの密度値にマッピングすることにより,暗黙的に3次元口腔構造を表現することを学習する。我々の知る限りでは、これは1枚のパノラマX線画像から3Dラジオグラフィ再構成における非逆学習モデルの最初の作品である。
論文参考訳（メタデータ） (2023-03-21T18:17:27Z)
3D Matting: A Soft Segmentation Method Applied in Computed Tomography [26.25446145993599]
CT、MRI、PETなどの3次元画像は、医用画像の分野では一般的であり、臨床診断において重要である。セマンティック曖昧さは多くの医用画像ラベルの典型的な特徴である。 2次元医用画像では、画像マッチングによって生成された2次元マスクの代わりにソフトマスクを用いることで、病変を特徴づけることができる。
論文参考訳（メタデータ） (2022-09-16T10:18:59Z)
Automated Model Design and Benchmarking of 3D Deep Learning Models for COVID-19 Detection with Chest CT Scans [72.04652116817238]
3D胸部CTスキャン分類のための3D DLモデルを自動的に検索するための差別化可能なニューラルネットワーク探索(DNAS)フレームワークを提案する。また,我々のモデルのクラスアクティベーションマッピング(cam)技術を利用して,結果の解釈可能性を提供する。
論文参考訳（メタデータ） (2021-01-14T03:45:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。