Fugu-MT 論文翻訳(概要): Classification of Radiological Text in Small and Imbalanced Datasets in a Non-English Language

論文の概要: Classification of Radiological Text in Small and Imbalanced Datasets in a Non-English Language

arxiv url: http://arxiv.org/abs/2409.20147v1
Date: Mon, 30 Sep 2024 09:52:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-02 13:17:59.009755
Title: Classification of Radiological Text in Small and Imbalanced Datasets in a Non-English Language
Title（参考訳）: 非英語における小・不均衡データセットにおける放射線学的テキストの分類
Authors: Vincent Beliveau, Helene Kaas, Martin Prener, Claes N. Ladefoged, Desmond Elliott, Gitte M. Knudsen, Lars H. Pinborg, Melanie Ganz,
Abstract要約: 自然言語処理は、非英語の小さなデータセットを含む現実世界のアプリケーションでは性能が劣る可能性がある。 BERT-like transformer, few-shot learning with sentence transformer (SetFit) などのNLPモデルのセットを評価し,大規模言語モデル (LLM) を誘導した。以上の結果から,放射線学報告の対象領域で事前訓練されたBERT様モデルでは,このシナリオに最適な性能が得られることが示唆された。
参考スコア（独自算出の注目度）: 8.93554009307115
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Natural language processing (NLP) in the medical domain can underperform in real-world applications involving small datasets in a non-English language with few labeled samples and imbalanced classes. There is yet no consensus on how to approach this problem. We evaluated a set of NLP models including BERT-like transformers, few-shot learning with sentence transformers (SetFit), and prompted large language models (LLM), using three datasets of radiology reports on magnetic resonance images of epilepsy patients in Danish, a low-resource language. Our results indicate that BERT-like models pretrained in the target domain of radiology reports currently offer the optimal performances for this scenario. Notably, the SetFit and LLM models underperformed compared to BERT-like models, with LLM performing the worst. Importantly, none of the models investigated was sufficiently accurate to allow for text classification without any supervision. However, they show potential for data filtering, which could reduce the amount of manual labeling required.
Abstract（参考訳）: 医学領域における自然言語処理(NLP)は、ラベル付きサンプルが少なく、不均衡なクラスを持つ非英語言語において、小さなデータセットを含む現実世界のアプリケーションでは性能が劣る可能性がある。この問題にどう対処するかについては、まだ合意が得られていない。我々は,低リソース言語であるデンマークのてんかん患者の磁気共鳴画像に関する3つの画像データを用いて,BERT様変換器,文変換器を用いた少数ショット学習(SetFit),および大規模言語モデル(LLM)などを含むNLPモデルのセットを評価した。以上の結果から,放射線学報告の対象領域で事前訓練されたBERT様モデルでは,このシナリオに最適な性能が得られることが示唆された。特に、SetFitとLLMはBERTのようなモデルに比べて性能が劣り、LLMは最悪だった。重要な点として、調査対象のどのモデルも十分な正確性を持たず、いかなる監督も受けずにテキスト分類が可能であった。しかし、これらはデータフィルタリングの可能性を示しており、手動ラベリングの量を減らすことができる。

関連論文リスト

Evaluating Extremely Low-Resource Machine Translation: A Comparative Study of ChrF++ and BLEU Metrics [69.2321983942375]
本研究では,n-gram-based metricであるBLEUと,文字-based metricであるChrF++を比較して,EMRL設定におけるMT評価を行う。本研究は,3つのELRL(Magahi,Bhojpuri,Chhattisgarhi)にまたがる幻覚,反復,原文複写,ダイアクリティック(textitmatra)の変化など,各指標が翻訳物にどう反応するかを検討する。最近の研究はChrF++にのみ依存することが多いが、BLEUは絶対スコアが低いにもかかわらず、解釈可能性を改善するための補完的な語彙精度の洞察を提供する。
論文参考訳（メタデータ） (2026-02-19T14:56:42Z)
Beyond Many-Shot Translation: Scaling In-Context Demonstrations For Low-Resource Machine Translation [49.82863380286994]
In-context Learningは、低リソース機械翻訳にLarge Language Modelsを適用する新しい方法を提供するかもしれない。本研究では,Long-context モデルを用いた数千例のサンプルに対して,数ショット設定以上の低リソース機械翻訳ICLのスケーリングについて検討する。 JavaneseとSundaneseに関する我々の実験は、追加のコンテキストからのゲインがすばやく飽和し、最大コンテキストウィンドウの近くで分解可能であることを示している。
論文参考訳（メタデータ） (2026-02-04T17:02:22Z)
A Patient-Doctor-NLP-System to contest inequality for less privileged [0.688204255655161]
この研究は、視覚障害者やヒンディー語のような低リソース言語話者が利用できる限られたサポートに対処する。本稿では, モデル蒸留, 周波数領域変調, アンサンブル学習, ランダム化アクティベーションパターンを統合した小型トランスフォーマーアーキテクチャであるPDFTEMRAを提案する。その結果, PDFTEMRA は計算性能が著しく低く, 高い性能を示した。
論文参考訳（メタデータ） (2025-12-07T08:59:15Z)
Tiny language models [0.0]
本研究では,小言語モデル (TLMs) が大言語モデル (LLMs) と同じ鍵質的特徴を示すかどうかを検討する。我々は,TLMが事前訓練されたモデルと非訓練されたモデルの間に,分類タスク間で明らかな性能差を示すことを示した。事前訓練された深部TLMアーキテクチャによって達成された分類精度は、複数の独立に訓練された浅部アーキテクチャからなるソフト委員会によって再現することができる。
論文参考訳（メタデータ） (2025-07-20T08:49:57Z)
Leveraging Language Models for Automated Patient Record Linkage [0.5461938536945723]
本研究では,言語モデルを用いた患者記録自動リンクの実現可能性について検討した。我々はミズーリ癌登録研究センターの実際の医療データを活用している。
論文参考訳（メタデータ） (2025-04-21T17:41:15Z)
Pre-training a Transformer-Based Generative Model Using a Small Sepedi Dataset [0.5530212768657544]
南アフリカのいくつかのリソースから得られたSepedi monolingual(SepMono)データセットと、ラジオニュースドメインからのSepedi Radio News(SepNews)データセットを使用します。以上の結果から,非閉塞モデルの方が,検証損失とパープレキシティの測定において,オクルージョンベースモデルよりも優れた性能を示した。
論文参考訳（メタデータ） (2025-01-25T17:25:06Z)
Challenges in Adapting Multilingual LLMs to Low-Resource Languages using LoRA PEFT Tuning [0.4194295877935868]
本研究では,ローランド適応 (LoRA) -高効率ファインチューニング (PEFT) がマラウイの多言語Gemmaモデルに及ぼす影響について検討した。 52,000対の命令応答対を持つ翻訳データセットを用いて、評価結果が微調整後に低下する一方で、手動による評価では、微調整されたモデルが元のモデルよりも優れていることがしばしば示唆されている。
論文参考訳（メタデータ） (2024-11-27T18:14:38Z)
LLMs-in-the-loop Part-1: Expert Small AI Models for Bio-Medical Text Translation [0.0]
本研究では,医療用テキストに最適化された教師ありニューラルマシン翻訳モデルを開発するために,新しい"LLMs-in-the-loop"アプローチを提案する。 6つの言語での独自の平行コーパスは、科学論文、人工的に生成された臨床文書、医療文書から編纂された。 MarianMTベースのモデルは、Google Translate、DeepL、GPT-4-Turboより優れている。
論文参考訳（メタデータ） (2024-07-16T19:32:23Z)
Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。 Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文参考訳（メタデータ） (2024-07-04T15:14:17Z)
Classifying Cancer Stage with Open-Source Clinical Large Language Models [0.35998666903987897]
オープンソースの臨床大言語モデル(LLMs)は、実世界の病理報告から病理組織学的腫瘍-リンパ節転移(pTNM)のステージング情報を抽出することができる。以上より, LLMは腫瘍 (T) 分類においてサブパーパフォーマンスを示すが, プロンプト戦略の適切な適用により, 転移 (M) では同等の性能を示し, Node (N) 分類では性能が向上することが示唆された。
論文参考訳（メタデータ） (2024-04-02T02:30:47Z)
Interpretable Medical Diagnostics with Structured Data Extraction by Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文参考訳（メタデータ） (2023-06-08T09:12:28Z)
An Iterative Optimizing Framework for Radiology Report Summarization with ChatGPT [80.33783969507458]
放射線医学報告の「印象」セクションは、放射線医と他の医師とのコミュニケーションにとって重要な基盤である。近年の研究では、大規模医療用テキストデータを用いた印象自動生成の有望な成果が得られている。これらのモデルは、しばしば大量の医療用テキストデータを必要とし、一般化性能が劣る。
論文参考訳（メタデータ） (2023-04-17T17:13:42Z)
Vision-Language Modelling For Radiological Imaging and Reports In The Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文参考訳（メタデータ） (2023-03-30T18:20:00Z)
mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。事実整合性評価モデルを利用して、多言語要約を改善する。
論文参考訳（メタデータ） (2022-12-20T19:52:41Z)
Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文参考訳（メタデータ） (2022-04-10T21:46:52Z)
Evaluating the Robustness of Neural Language Models to Input Perturbations [7.064032374579076]
本研究では,雑音の多い入力テキストをシミュレートするために,文字レベルおよび単語レベルの摂動法を設計し,実装する。本稿では,BERT,XLNet,RoBERTa,ELMoなどの高性能言語モデルを用いて,入力摂動の異なるタイプの処理能力について検討する。その結果, 言語モデルは入力摂動に敏感であり, 小さな変化が生じても性能が低下することが示唆された。
論文参考訳（メタデータ） (2021-08-27T12:31:17Z)
Fine-tuning BERT for Low-Resource Natural Language Understanding via Active Learning [30.5853328612593]
本研究では,事前学習した Transformer ベースの言語モデル BERT の微調整手法について検討する。実験結果から,モデルの知識獲得度を最大化することで,モデル性能の優位性を示す。我々は、微調整中の言語モデルの凍結層の利点を分析し、トレーニング可能なパラメータの数を減らす。
論文参考訳（メタデータ） (2020-12-04T08:34:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。