論文の概要: Leveraging Large Language Models to Effectively Generate Visual Data for Canine Musculoskeletal Diagnoses
- arxiv url: http://arxiv.org/abs/2509.12866v1
- Date: Tue, 16 Sep 2025 09:22:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:52.996345
- Title: Leveraging Large Language Models to Effectively Generate Visual Data for Canine Musculoskeletal Diagnoses
- Title(参考訳): 大型言語モデルを用いた犬の骨格筋の診断のための視覚データ生成
- Authors: Martin Thißen, Thi Ngoc Diep Tran, Barbara Esteve Ratsch, Ben Joel Schönbein, Ute Trapp, Beate Egner, Romana Piat, Elke Hergenröther,
- Abstract要約: 犬の筋骨格診断のための人工的な視覚訓練データを生成する。
この合成データのみに基づいてトレーニングされたモデルでは、70の現実世界の文書でF1スコアが88%に達した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It is well-established that more data generally improves AI model performance. However, data collection can be challenging for certain tasks due to the rarity of occurrences or high costs. These challenges are evident in our use case, where we apply AI models to a novel approach for visually documenting the musculoskeletal condition of dogs. Here, abnormalities are marked as colored strokes on a body map of a dog. Since these strokes correspond to distinct muscles or joints, they can be mapped to the textual domain in which large language models (LLMs) operate. LLMs have demonstrated impressive capabilities across a wide range of tasks, including medical applications, offering promising potential for generating synthetic training data. In this work, we investigate whether LLMs can effectively generate synthetic visual training data for canine musculoskeletal diagnoses. For this, we developed a mapping that segments visual documentations into over 200 labeled regions representing muscles or joints. Using techniques like guided decoding, chain-of-thought reasoning, and few-shot prompting, we generated 1,000 synthetic visual documentations for patellar luxation (kneecap dislocation) diagnosis, the diagnosis for which we have the most real-world data. Our analysis shows that the generated documentations are sensitive to location and severity of the diagnosis while remaining independent of the dog's sex. We further generated 1,000 visual documentations for various other diagnoses to create a binary classification dataset. A model trained solely on this synthetic data achieved an F1 score of 88% on 70 real-world documentations. These results demonstrate the potential of LLM-generated synthetic data, which is particularly valuable for addressing data scarcity in rare diseases. While our methodology is tailored to the medical domain, the insights and techniques can be adapted to other fields.
- Abstract(参考訳): より多くのデータが一般的にAIモデルのパフォーマンスを改善することは、十分に確立されている。
しかし、データ収集は、発生頻度やコストが高いため、特定のタスクにおいて困難である可能性がある。
これらの課題は、犬の筋骨格状態を視覚的に記録するための新しいアプローチにAIモデルを適用するユースケースにおいて明らかである。
ここでは、異常は犬の体地図に色付きのストロークとしてマークされる。
これらのストロークは異なる筋肉や関節に対応するため、大きな言語モデル(LLM)が機能するテキスト領域にマッピングすることができる。
LLMは、医学的応用を含む幅広いタスクにおいて印象的な能力を示しており、人工的なトレーニングデータを生成する有望な可能性を提供している。
本研究では,犬筋骨格の診断において,LLMが効果的に視覚訓練データを生成できるかどうかを検討する。
そこで我々は,視覚文書を,筋肉や関節を表す200以上のラベル付き領域に分割するマッピングを開発した。
ガイド付き復号法,チェーン・オブ・ソート推論,数発のプロンプトといった手法を用いて,パテラー脱臼(kneecap dislocation)診断のための合成ビジュアルドキュメンテーションを1,000件生成しました。
分析の結果, 生成された文書は, 犬の性別に依存しないまま, 診断の場所や重症度に敏感であることがわかった。
さらに、様々な診断のための1000のビジュアルドキュメンテーションを生成し、バイナリ分類データセットを作成しました。
この合成データのみに基づいてトレーニングされたモデルでは、70の現実世界の文書でF1スコアが88%に達した。
これらの結果は、まれな疾患におけるデータ不足に対処するために特に有用である、LLM生成合成データの可能性を示している。
我々の方法論は医療分野に合わせているが、洞察と技術は他の分野にも適用できる。
関連論文リスト
- Can Medical Vision-Language Pre-training Succeed with Purely Synthetic Data? [8.775988650381397]
医療ビジョン言語による事前トレーニングモデルのトレーニングには、ペアで高品質な画像テキストデータを備えたデータセットが必要である。
大規模言語モデル(LLM)と拡散モデルの最近の進歩により,大規模合成画像テキストペアの生成が可能になった。
我々は、既製の生成モデルを用いて、合成放射線学レポートとチェストX線(CXR)画像のペアを作成するとともに、多種多様な高品質な合成データセットを構築するための自動パイプラインを提案する。
論文 参考訳(メタデータ) (2024-10-17T13:11:07Z) - Enhancing Canine Musculoskeletal Diagnoses: Leveraging Synthetic Image Data for Pre-Training AI-Models on Visual Documentations [0.0]
この研究の目的は、AIベースの診断支援システムを開発するために、データ不足の影響を軽減することである。
本稿では,現実的な視覚資料を模倣した合成画像データを生成する手法を提案する。
その結果, 診断精度が約10%向上したことが明らかとなった。
論文 参考訳(メタデータ) (2024-09-12T16:13:07Z) - WsiCaption: Multiple Instance Generation of Pathology Reports for Gigapixel Whole-Slide Images [5.960501267687475]
スライド画像全体から病理報告を生成する方法について検討する。
私たちは、最大のWSIテキストデータセット(PathText)をキュレートしました。
モデル終端では、多重インスタンス生成モデル(MI-Gen)を提案する。
論文 参考訳(メタデータ) (2023-11-27T05:05:41Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language Models [72.8965643836841]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Fader Networks for domain adaptation on fMRI: ABIDE-II study [68.5481471934606]
我々は3次元畳み込みオートエンコーダを用いて、無関係な空間画像表現を実現するとともに、ABIDEデータ上で既存のアプローチより優れていることを示す。
論文 参考訳(メタデータ) (2020-10-14T16:50:50Z) - Evaluating the Clinical Realism of Synthetic Chest X-Rays Generated
Using Progressively Growing GANs [0.0]
胸部X線は多くの患者のワークアップに欠かせない道具である。
新たな診断ツールを開発するためには,ラベル付きデータの量を増やす必要がある。
これまでの研究は、イメージを合成してトレーニングデータを増強するクラス固有のGANを作成することで、これらの問題に対処しようとしてきた。
論文 参考訳(メタデータ) (2020-10-07T11:47:22Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z) - Deep Mining External Imperfect Data for Chest X-ray Disease Screening [57.40329813850719]
我々は、外部のCXRデータセットを組み込むことで、不完全なトレーニングデータにつながると論じ、課題を提起する。
本研究は,多ラベル病分類問題を重み付き独立二分課題として分類する。
我々のフレームワークは、ドメインとラベルの相違を同時にモデル化し、対処し、優れた知識マイニング能力を実現する。
論文 参考訳(メタデータ) (2020-06-06T06:48:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。