論文の概要: Zero-shot large vision-language model prompting for automated bone identification in paleoradiology x-ray archives
- arxiv url: http://arxiv.org/abs/2602.03750v1
- Date: Tue, 03 Feb 2026 17:14:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.596718
- Title: Zero-shot large vision-language model prompting for automated bone identification in paleoradiology x-ray archives
- Title(参考訳): ゼロショット大型視覚言語モデルによるX線古生物学アーカイブの骨の自動同定
- Authors: Owen Dong, Lily Gao, Manish Kota, Bennett A. Landmana, Jelena Bekvalac, Gaynor Western, Katherine D. Van Schaik,
- Abstract要約: LVLM(Large Vision Language Model)は、X線写真における主骨、投影ビュー、およびラテラルを自動的に識別する。
このシステムは92%の主骨精度、80%のプロジェクションビュー精度、100%の遅れの精度を達成した。
これらの結果から,LVLMは大規模古生物学データセットのコードワード開発を著しく加速させることができることが示唆された。
- 参考スコア(独自算出の注目度): 2.0776182000548435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Paleoradiology, the use of modern imaging technologies to study archaeological and anthropological remains, offers new windows on millennial scale patterns of human health. Unfortunately, the radiographs collected during field campaigns are heterogeneous: bones are disarticulated, positioning is ad hoc, and laterality markers are often absent. Additionally, factors such as age at death, age of bone, sex, and imaging equipment introduce high variability. Thus, content navigation, such as identifying a subset of images with a specific projection view, can be time consuming and difficult, making efficient triaging a bottleneck for expert analysis. We report a zero shot prompting strategy that leverages a state of the art Large Vision Language Model (LVLM) to automatically identify the main bone, projection view, and laterality in such images. Our pipeline converts raw DICOM files to bone windowed PNGs, submits them to the LVLM with a carefully engineered prompt, and receives structured JSON outputs, which are extracted and formatted onto a spreadsheet in preparation for validation. On a random sample of 100 images reviewed by an expert board certified paleoradiologist, the system achieved 92% main bone accuracy, 80% projection view accuracy, and 100% laterality accuracy, with low or medium confidence flags for ambiguous cases. These results suggest that LVLMs can substantially accelerate code word development for large paleoradiology datasets, allowing for efficient content navigation in future anthropology workflows.
- Abstract(参考訳): 考古学的・人類学的遺構を研究するために現代のイメージング技術を用いた古放射線学は、ミレニアル世代の人間の健康のパターンに新しい窓を提供する。
残念なことに、野戦戦中に収集されたX線写真は異種であり、骨は解剖され、位置決めはアドホックであり、横方向マーカーは欠落することが多い。
また、死亡年齢、骨年齢、性別、画像装置などの要因は、高い多様性をもたらす。
したがって、特定のプロジェクションビューで画像のサブセットを識別するなどのコンテンツナビゲーションは、時間がかかり、難しいため、専門家分析のボトルネックを効果的にトリアージすることができる。
我々は,最先端のLVLM(Large Vision Language Model)を利用したゼロショットプロンプト戦略を報告する。
我々のパイプラインは、生のDICOMファイルをボーンウィンドウのPNGに変換し、慎重に設計されたプロンプトでLVLMに送信し、構造化されたJSON出力を受け取り、検証の準備のためにスプレッドシートにフォーマットする。
専門家委員会によってレビューされた100枚の画像のランダムなサンプルでは、本システムは92%の骨の精度、80%のプロジェクションビューの精度、100%のラテラルの精度を達成した。
これらの結果から,LVLMは大規模な古生物学データセットのコードワード開発を著しく加速し,今後の人類学のワークフローにおける効率的なコンテンツナビゲーションを可能にすることが示唆された。
関連論文リスト
- THIR: Topological Histopathological Image Retrieval [0.7161783472741748]
THIRはコンテンツベースの医療画像検索フレームワークである。
完全に監督なしで運用されている。
標準CPUでデータセット全体を20分以内で処理する。
論文 参考訳(メタデータ) (2025-11-17T09:18:54Z) - A Graph-Based Framework for Interpretable Whole Slide Image Analysis [86.37618055724441]
我々は,全スライディング画像を生物学的にインフォームドされたグラフ表現に変換するフレームワークを開発した。
我々のアプローチは、任意の格子ではなく、自然構造を尊重する組織領域からグラフノードを構築する。
がんのステージングと生存予測の課題に強いパフォーマンスを示す。
論文 参考訳(メタデータ) (2025-03-14T20:15:04Z) - Osteoporosis Prediction from Hand X-ray Images Using Segmentation-for-Classification and Self-Supervised Learning [3.267409660494317]
Dual-Energy X-ray absorptiometry (DXA)のような骨密度試験に限定的にアクセスするため、診断も治療も行われていない慢性代謝性骨疾患である。
本稿では手・手首X線画像を用いた骨粗しょう症の予測手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T13:47:29Z) - Unsupervised Machine Learning for Osteoporosis Diagnosis Using Singh Index Clustering on Hip Radiographs [0.0]
Singh Index (SI) は単純で半定量的な骨粗しょう症の診断方法である。
本研究は, 機械学習アルゴリズムを用いて, ラジオグラフからのSI識別を自動化することを目的とする。
論文 参考訳(メタデータ) (2024-11-22T08:44:43Z) - Self-supervised vision-langage alignment of deep learning representations for bone X-rays analysis [53.809054774037214]
本稿では, 骨X線とフレンチレポートを組み合わせることで, 視覚言語による事前訓練を活用することを提案する。
骨X線表現にまつわる埋め込み空間を形成するために、フランスの報告を統合する最初の研究である。
論文 参考訳(メタデータ) (2024-05-14T19:53:20Z) - Latent Diffusion Models with Image-Derived Annotations for Enhanced
AI-Assisted Cancer Diagnosis in Histopathology [0.0]
本研究では,自動抽出画像特徴量から構造化テキストプロンプトを構成する手法を提案する。
画像由来の特徴は, 健康なラベルや癌ラベルに限らず, Fr'echet Inception Distance (FID) を178.8から90.2に改善した。
また、病理学者は合成画像の検出が困難であり、中央値の感度/特異度は0.15/0.55であることを示した。
論文 参考訳(メタデータ) (2023-12-15T13:48:55Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language Models [72.8965643836841]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z) - High-Fidelity Image Synthesis from Pulmonary Nodule Lesion Maps using
Semantic Diffusion Model [10.412300404240751]
肺がんは、長年にわたり、世界中でがん関連の死因の1つとなっている。
ディープラーニング、学習アルゴリズムに基づくコンピュータ支援診断(CAD)モデルは、スクリーニングプロセスを加速することができる。
しかし、堅牢で正確なモデルを開発するには、しばしば高品質なアノテーションを備えた大規模で多様な医療データセットが必要である。
論文 参考訳(メタデータ) (2023-05-02T01:04:22Z) - Significantly improving zero-shot X-ray pathology classification via fine-tuning pre-trained image-text encoders [50.689585476660554]
本稿では,正対損失緩和とランダムな文サンプリングを含む新たな微調整手法を提案する。
提案手法は,胸部X線データセットと3つの事前訓練モデル間のゼロショット病理分類を一貫して改善する。
論文 参考訳(メタデータ) (2022-12-14T06:04:18Z) - Generative Residual Attention Network for Disease Detection [51.60842580044539]
本稿では, 条件付き生成逆学習を用いたX線疾患発生のための新しいアプローチを提案する。
我々は,患者の身元を保存しながら,対象領域に対応する放射線画像を生成する。
次に、ターゲット領域で生成されたX線画像を用いてトレーニングを増強し、検出性能を向上させる。
論文 参考訳(メタデータ) (2021-10-25T14:15:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。