Fugu-MT 論文翻訳(概要): Inspecting state of the art performance and NLP metrics in image-based medical report generation

論文の概要: Inspecting state of the art performance and NLP metrics in image-based medical report generation

arxiv url: http://arxiv.org/abs/2011.09257v3
Date: Sat, 15 Jan 2022 06:05:51 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-24 03:20:16.368282
Title: Inspecting state of the art performance and NLP metrics in image-based medical report generation
Title（参考訳）: 画像ベース医療レポート作成における技量とNLP測定値の検査
Authors: Pablo Pino, Denis Parra, Pablo Messina, Cecilia Besa, Sergio Uribe
Abstract要約: 従来のNLP測定値では,SOTA性能に近い単純かつ単純なアプローチが得られている。本研究は,臨床検査の精度を正確に評価するために,本課題における評価方法をさらに検討すべきである,と結論付けた。
参考スコア（独自算出の注目度）: 4.060182977384042
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Several deep learning architectures have been proposed over the last years to deal with the problem of generating a written report given an imaging exam as input. Most works evaluate the generated reports using standard Natural Language Processing (NLP) metrics (e.g. BLEU, ROUGE), reporting significant progress. In this article, we contrast this progress by comparing state of the art (SOTA) models against weak baselines. We show that simple and even naive approaches yield near SOTA performance on most traditional NLP metrics. We conclude that evaluation methods in this task should be further studied towards correctly measuring clinical accuracy, ideally involving physicians to contribute to this end.
Abstract（参考訳）: 近年,画像検査を入力としたレポート作成の問題に対処するために,いくつかのディープラーニングアーキテクチャが提案されている。ほとんどの研究は、標準自然言語処理(NLP)メトリクス(BLEU、ROUGEなど)を使用して生成されたレポートを評価し、著しい進歩を報告している。本稿では,SOTA(State of the Art)モデルと弱いベースラインを比較して,この進歩を対比する。従来のNLP測定値では,SOTA性能に近い単純かつ単純なアプローチが得られた。本研究は, 臨床検査の精度を正確に評価するためには, 医師がこの目的に貢献することが理想である。

関連論文リスト

MedCite: Can Language Models Generate Verifiable Text for Medicine? [40.000282950108094]
既存のLLMベースの質問応答システムでは、引用生成と評価機能が欠如している。医療用LLMを用いた引用生成の設計と評価を容易にする最初のエンドツーエンドフレームワークであるnameを紹介する。本稿では,高品質な引用を生成する新しいマルチパス検索手法を提案する。
論文参考訳（メタデータ） (2025-06-07T00:46:18Z)
RadAlign: Advancing Radiology Report Generation with Vision-Language Concept Alignment [10.67889367763112]
RadAlignは、視覚言語モデルの予測精度と大きな言語モデルの推論能力を組み合わせた、新しいフレームワークである。本フレームワークは, 幻覚の低減, 自動医用画像の進歩, 予測AIと生成AIの統合による報告分析を両立させながら, 強力な臨床解釈可能性を維持している。
論文参考訳（メタデータ） (2025-01-13T17:55:32Z)
LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文参考訳（メタデータ） (2025-01-07T08:49:04Z)
LoGra-Med: Long Context Multi-Graph Alignment for Medical Vision-Language Model [55.80651780294357]
最新の医療用マルチモーダル大規模言語モデル(med-MLLM)は、事前訓練において命令追従データを活用する。 LoGra-Medは新しいマルチグラフアライメントアルゴリズムで、画像のモダリティ、会話ベースの記述、拡張キャプション間でのトリプルト相関を強制する。以上の結果から,LoGra-Medは医療用VQAの600K画像テキスト対に対してLAVA-Medと一致し,その10%でトレーニングした場合に有意に優れていた。
論文参考訳（メタデータ） (2024-10-03T15:52:03Z)
Adapting LLMs for the Medical Domain in Portuguese: A Study on Fine-Tuning and Model Evaluation [1.922611370494431]
本研究は,ポルトガル語における医療エージェントとしての大規模言語モデル(LLM)の性能を評価する。 InternLM2モデルは、当初医療データに関するトレーニングを受けており、全体的なパフォーマンスが最高であった。 ChatBodeから派生したDrBodeモデルは、取得した医療知識を壊滅的に忘れる現象を示した。
論文参考訳（メタデータ） (2024-09-30T19:10:03Z)
Medical Report Generation Is A Multi-label Classification Problem [38.64929236412092]
本稿では,医療報告生成を多ラベル分類問題として再考する。機密鍵ノードと統合されたBLIPに基づく新たなレポート生成フレームワークを提案する。我々の実験は、キーノードの活用が2つのベンチマークデータセットにまたがる既存のアプローチを越え、最先端(SOTA)のパフォーマンスを実現することを実証している。
論文参考訳（メタデータ） (2024-08-30T20:43:35Z)
X-ray Made Simple: Lay Radiology Report Generation and Robust Evaluation [22.09740244042415]
ラジオロジーレポート生成(RRG)はマルチモーダル生成モデルの開発で大きく進歩している。既存の語彙ベースのメトリクスで高いパフォーマンスを持つRRGは、単なるミラージュです - モデルはレポートのテンプレートを学習することでのみ、高いBLEUを得ることができます。本稿では,BLEUの膨らませた数を軽減し,より堅牢な評価を行うセマンティクスに基づく評価手法を提案する。
論文参考訳（メタデータ） (2024-06-25T19:52:01Z)
RaTEScore: A Metric for Radiology Report Generation [59.37561810438641]
本稿では,Radiological Report (Text) Evaluation (RaTEScore) として,新しい実体認識尺度を提案する。 RaTEScoreは、診断結果や解剖学的詳細などの重要な医療機関を強調し、複雑な医学的同義語に対して堅牢であり、否定表現に敏感である。我々の評価は、RaTEScoreが既存の指標よりも人間の嗜好とより密接に一致していることを示し、確立された公開ベンチマークと、新たに提案したRaTE-Evalベンチマークの両方で検証した。
論文参考訳（メタデータ） (2024-06-24T17:49:28Z)
Self-supervised vision-langage alignment of deep learning representations for bone X-rays analysis [53.809054774037214]
本稿では, 骨X線とフレンチレポートを組み合わせることで, 視覚言語による事前訓練を活用することを提案する。骨X線表現にまつわる埋め込み空間を形成するために、フランスの報告を統合する最初の研究である。
論文参考訳（メタデータ） (2024-05-14T19:53:20Z)
Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。本稿では,基準自由度に欠陥があるかどうかを考察する。 GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文参考訳（メタデータ） (2024-02-18T12:36:23Z)
Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文参考訳（メタデータ） (2024-02-16T13:53:26Z)
Leveraging Professional Radiologists' Expertise to Enhance LLMs' Evaluation for Radiology Reports [22.599250713630333]
提案手法は,Large Language Models (LLMs) を用いた専門的放射線技師の専門知識を相乗化する。我々のアプローチは、LLM評価を放射線学の基準と整合させ、人間とAIが生成したレポートの詳細な比較を可能にする。実験の結果, 詳細な GPT-4 (5-shot) モデルでは0.48 のスコアが得られ, METEOR のスコアは0.19 を上回った。
論文参考訳（メタデータ） (2024-01-29T21:24:43Z)
IMITATE: Clinical Prior Guided Hierarchical Vision-Language Pre-training [15.04212780946932]
階層的視覚言語アライメントを用いた医療報告から構造情報を学習するための新しいフレームワークImitateを提案する。このフレームワークは胸部X線(CXR)画像から多段階の視覚特徴を導出し、これらの特徴を階層的な医療報告に符号化された記述的および決定的テキストと別々に整列する。
論文参考訳（メタデータ） (2023-10-11T10:12:43Z)
FRASIMED: a Clinical French Annotated Resource Produced through Crosslingual BERT-Based Annotation Projection [0.6116681488656472]
本稿では,言語横断的アノテーション投影による注釈付きデータセットの翻訳版を生成する手法を紹介する。本報告では,フランスにおける2'051の合成臨床症例からなる注釈コーパスであるFRASIMED(Francial Annotated Resource with Semantic Information for Medical Detection)の作成について述べる。
論文参考訳（メタデータ） (2023-09-19T17:17:28Z)
Rethinking Semi-Supervised Medical Image Segmentation: A Variance-Reduction Perspective [51.70661197256033]
医用画像セグメンテーションのための階層化グループ理論を用いた半教師付きコントラスト学習フレームワークARCOを提案する。まず、分散還元推定の概念を用いてARCOを構築することを提案し、特定の分散還元技術が画素/ボクセルレベルのセグメンテーションタスクにおいて特に有用であることを示す。 5つの2D/3D医療データセットと3つのセマンティックセグメンテーションデータセットのラベル設定が異なる8つのベンチマークで、我々のアプローチを実験的に検証する。
論文参考訳（メタデータ） (2023-02-03T13:50:25Z)
FewNLU: Benchmarking State-of-the-Art Methods for Few-Shot Natural Language Understanding [89.92513889132825]
本稿では,従来の評価手順を,テスト性能,開発-テスト相関,安定性の3つの重要な側面で改善する評価フレームワークを提案する。評価フレームワークを実装したツールキットFewNLUと、最先端のメソッドをオープンソースとして公開しています。
論文参考訳（メタデータ） (2021-09-27T00:57:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。