論文の概要: Prototype-Based Knowledge Guidance for Fine-Grained Structured Radiology Reporting
- arxiv url: http://arxiv.org/abs/2603.11938v1
- Date: Thu, 12 Mar 2026 13:51:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:26.116943
- Title: Prototype-Based Knowledge Guidance for Fine-Grained Structured Radiology Reporting
- Title(参考訳): 微粒構造ラジオロジーレポートのためのプロトタイプベース知識ガイダンス
- Authors: Chantal Pellegrini, Adrian Delchev, Ege Özsoy, Nassir Navab, Matthias Keicher,
- Abstract要約: ProtoSRは、構造化されたレポートに自由テキスト情報を注入するためのアプローチである。
まず,80k以上のMIMIC-CXR研究をマイニングするために,命令調整LDMを用いた自動抽出パイプラインを導入する。
この知識ベースを用いて、ProtoSRは現在の画像検索ペアに関連するプロトタイプを検索し、プロトタイプ条件の残差を通じてモデル予測を増強するように訓練されている。
- 参考スコア(独自算出の注目度): 38.099210693806526
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Structured radiology reporting promises faster, more consistent communication than free text, but automation remains difficult as models must make many fine-grained, discrete decisions about rare findings and attributes from limited structured supervision. In contrast, free-text reports are produced at scale in routine care and implicitly encode fine-grained, image-linked information through detailed descriptions. To leverage this unstructured knowledge, we propose ProtoSR, an approach for injecting free-text information into structured report population. First, we introduce an automatic extraction pipeline that uses an instruction-tuned LLM to mine 80k+ MIMIC-CXR studies and build a multimodal knowledge base aligned with a structured reporting template, representing each answer option with a visual prototype. Using this knowledge base, ProtoSR is trained to retrieve prototypes relevant for the current image-question pair and augment the model predictions through a prototype-conditioned residual, providing a data-driven second opinion that selectively corrects predictions. On the Rad-ReStruct benchmark, ProtoSR achieves state-of-the-art results, with the largest improvements on detailed attribute questions, demonstrating the value of integrating free-text derived signal for fine-grained image understanding.
- Abstract(参考訳): 構造化放射線学の報告は自由テキストよりも高速で一貫性のある通信を約束するが、モデルが限られた構造的監督による稀な発見や属性について多くの細かな決定をしなければならないため、自動化は依然として困難である。
対照的に、フリーテキストレポートは日常的なケアにおいて大規模に作成され、詳細な説明を通じて、きめ細かな画像リンクされた情報を暗黙的にエンコードする。
この非構造化知識を活用するために,構造化レポートに自由文情報を注入するProtoSRを提案する。
まず,80k以上のMIMIC-CXR研究をマイニングするために,命令調整 LLM を用いた自動抽出パイプラインを導入し,各回答オプションを視覚プロトタイプで表現する構造化されたレポートテンプレートに整合したマルチモーダル知識ベースを構築する。
この知識ベースを用いて、ProtoSRは現在の画像検索ペアに関連するプロトタイプを検索し、プロトタイプ条件の残差を通じてモデルを拡張し、データ駆動の第2の意見を提供することで、予測を選択的に修正する。
Rad-ReStructベンチマークにおいて、ProtoSRは、詳細な属性問題に対して最大の改善を行い、微細な画像理解のために自由テキスト導出信号を統合する価値を示す。
関連論文リスト
- Instruction-Tuning Open-Weight Language Models for BPMN Model Generation [0.0]
命令チューニングによって適応されたオープンウェイトな大規模言語モデルが高品質なBPMNプロセスモデルを生成することができるかどうかを検討する。
InstruBPMは、ペア化されたテキストダイアグラムデータを作成し、オープンソースの大規模言語モデルをチューニングする再現可能なアプローチである。
調整済みモデルと未調整のオープンウェイトベースラインと、一貫したプロンプトレジームの下で強力なプロプライエタリモデルを比較した。
論文 参考訳(メタデータ) (2025-12-12T22:07:51Z) - AI4Contracts: LLM & RAG-Powered Encoding of Financial Derivative Contracts [1.3060230641655135]
大規模言語モデル(LLM)と検索拡張生成(RAG)は、AIシステムが構造化されていないテキストから情報を抽出し整理する方法を再構築している。
本稿では,テンプレート駆動型LLMフレームワークであるCDMizerと,構造化テキスト変換のためのRAGベースのフレームワークを紹介する。
論文 参考訳(メタデータ) (2025-06-01T16:05:00Z) - LATex: Leveraging Attribute-based Text Knowledge for Aerial-Ground Person Re-Identification [78.73711446918814]
我々は,属性ベースのテキスト知識を活用するために,アクシデントチューニング戦略を採用した,AG-ReIDのためのLATexという新しいフレームワークを提案する。
我々のフレームワークは属性ベースのテキスト知識をフル活用してAGReIDの性能を向上させることができる。
論文 参考訳(メタデータ) (2025-03-31T04:47:05Z) - FLIP: Fine-grained Alignment between ID-based Models and Pretrained Language Models for CTR Prediction [49.510163437116645]
クリックスルーレート(CTR)予測は、パーソナライズされたオンラインサービスにおいてコア機能モジュールとして機能する。
CTR予測のための従来のIDベースのモデルは、表形式の1ホットエンコードされたID特徴を入力として取る。
事前訓練された言語モデル(PLM)は、テキストのモダリティの文を入力として取る別のパラダイムを生み出した。
本稿では,CTR予測のためのIDベースモデルと事前学習言語モデル(FLIP)間の細粒度特徴レベルのアライメントを提案する。
論文 参考訳(メタデータ) (2023-10-30T11:25:03Z) - Rad-ReStruct: A Novel VQA Benchmark and Method for Structured Radiology
Reporting [45.76458992133422]
Rad-ReStructは、X線画像の構造化レポートという形で、微細で階層的に順序付けられたアノテーションを提供する新しいベンチマークデータセットである。
本稿では,予め質問された質問や回答の形式で事前の文脈を考慮し,構造化された放射線学レポートを収集する手法であるhi-VQAを提案する。
実験の結果, 医用VQAベンチマークVQARadでは, ドメイン固有の視覚言語事前訓練を伴わない手法で, 最先端のVQAと競合する性能が得られた。
論文 参考訳(メタデータ) (2023-07-11T19:47:05Z) - Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。
テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2023-06-12T17:56:01Z) - Schema-aware Reference as Prompt Improves Data-Efficient Knowledge Graph
Construction [57.854498238624366]
本稿では,データ効率のよい知識グラフ構築のためのRAP(Schema-Aware Reference As Prompt)の検索手法を提案する。
RAPは、人間の注釈付きおよび弱教師付きデータから受け継いだスキーマと知識を、各サンプルのプロンプトとして動的に活用することができる。
論文 参考訳(メタデータ) (2022-10-19T16:40:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。