論文の概要: Token Imbalance Adaptation for Radiology Report Generation
- arxiv url: http://arxiv.org/abs/2304.09185v1
- Date: Tue, 18 Apr 2023 23:09:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-20 16:34:51.720136
- Title: Token Imbalance Adaptation for Radiology Report Generation
- Title(参考訳): 放射線レポート生成のためのトークン不均衡適応
- Authors: Yuexin Wu, I-Chan Huang, Xiaolei Huang
- Abstract要約: 不均衡なトークンの分布はテキスト文書に自然に存在するため、ニューラルネットワークモデルは頻繁なトークンに過度に適合する。
現在の最先端モデルは、2つのベンチマークデータセットで頻繁なトークンを生成できない。
textbfToken textbfIm Balance Adapttextbfer (textitTIMER) を提案する。
- 参考スコア(独自算出の注目度): 9.797473257499414
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imbalanced token distributions naturally exist in text documents, leading
neural language models to overfit on frequent tokens. The token imbalance may
dampen the robustness of radiology report generators, as complex medical terms
appear less frequently but reflect more medical information. In this study, we
demonstrate how current state-of-the-art models fail to generate infrequent
tokens on two standard benchmark datasets (IU X-RAY and MIMIC-CXR) of radiology
report generation. % However, no prior study has proposed methods to adapt
infrequent tokens for text generators feeding with medical images. To solve the
challenge, we propose the \textbf{T}oken \textbf{Im}balance Adapt\textbf{er}
(\textit{TIMER}), aiming to improve generation robustness on infrequent tokens.
The model automatically leverages token imbalance by an unlikelihood loss and
dynamically optimizes generation processes to augment infrequent tokens. We
compare our approach with multiple state-of-the-art methods on the two
benchmarks. Experiments demonstrate the effectiveness of our approach in
enhancing model robustness overall and infrequent tokens. Our ablation analysis
shows that our reinforcement learning method has a major effect in adapting
token imbalance for radiology report generation.
- Abstract(参考訳): 不均衡なトークン分布はテキスト文書に自然に存在するため、ニューラルネットワークモデルは頻繁なトークンに過剰に適合する。
トークンの不均衡は、複雑な医療用語が頻繁に現れるが、より多くの医療情報を反映しているため、放射線レポートジェネレータの堅牢さを損なう可能性がある。
本研究では,放射線学レポート生成の2つの標準ベンチマークデータセット (IU X-RAY と MIMIC-CXR) 上で,現在の最先端モデルが頻繁なトークンを生成できないことを示す。
%, 医療用画像を用いたテキスト生成装置において, 頻繁なトークンを適応させる手法は提案されていない。
この課題を解決するために,不適切なトークンの生成ロバスト性を改善することを目的とした, \textbf{t}oken \textbf{im}balance adapt\textbf{er} (\textit{timer})を提案する。
このモデルはトークンの不均衡を不規則な損失によって自動的に利用し、生成プロセスを動的に最適化し、頻繁なトークンを増やす。
提案手法を2つのベンチマークで複数の最先端手法と比較する。
実験は,モデルロバスト性を高めるための手法の有効性を実証する。
アブレーション解析の結果, 放射線レポート生成におけるトークン不均衡の適応には強化学習法が大きな影響を与えていることがわかった。
関連論文リスト
- Fluid: Scaling Autoregressive Text-to-image Generative Models with Continuous Tokens [53.99177152562075]
視覚における自己回帰モデルのスケールアップは、大きな言語モデルほど有益でないことが証明されている。
モデルが離散トークンを使用するか、連続トークンを使用するか、BERTやGPTのようなトランスフォーマーアーキテクチャを用いてランダムまたは固定順序でトークンを生成するか、という2つの重要な要素に焦点を当てる。
その結果,すべてのモデルが検証損失の点で効果的にスケールしているのに対して,評価性能はFID,GenEvalスコア,視覚的品質などによって異なる傾向を呈することがわかった。
論文 参考訳(メタデータ) (2024-10-17T17:59:59Z) - Mitigating Frequency Bias and Anisotropy in Language Model Pre-Training with Syntactic Smoothing [6.726629754291751]
本稿では,言語モデルの周波数バイアスを定量化する手法を提案する。
そこで本研究では,事前学習中のトークン表現に対して構文的事前表現を誘導することにより,言語モデルの周波数バイアスを低減する手法を提案する。
このアプローチにより、頻度の低い英語トークンの性能が向上し、異方性も低下する。
論文 参考訳(メタデータ) (2024-10-15T10:09:57Z) - Autoregressive Speech Synthesis without Vector Quantization [135.4776759536272]
テキストから音声合成(TTS)のための新しい連続値トークンに基づく言語モデリング手法であるMELLEを提案する。
MELLEはテキスト条件から直接連続メル-スペクトログラムフレームを自動回帰生成する。
論文 参考訳(メタデータ) (2024-07-11T14:36:53Z) - TokenUnify: Scalable Autoregressive Visual Pre-training with Mixture Token Prediction [61.295716741720284]
TokenUnifyは、ランダムトークン予測、次のトークン予測、次のトークン予測を統合する新しい事前学習手法である。
TokenUnifyと共同で,超高解像度の大規模電子顕微鏡画像データセットを構築した。
このデータセットには1億2000万以上の注釈付きボクセルが含まれており、これまでで最大のニューロンセグメンテーションデータセットとなっている。
論文 参考訳(メタデータ) (2024-05-27T05:45:51Z) - Debiasing Cardiac Imaging with Controlled Latent Diffusion Models [1.802269171647208]
本稿では,データセットに固有の不均衡を,合成データの生成によって緩和する手法を提案する。
我々は,患者メタデータと心臓の形状から合成したテキストを条件に,拡散確率モデルに基づく制御ネットを採用する。
本実験は,データセットの不均衡を緩和する手法の有効性を実証するものである。
論文 参考訳(メタデータ) (2024-03-28T15:41:43Z) - MCRAGE: Synthetic Healthcare Data for Fairness [3.0089659534785853]
そこで本稿では,MCRAGE (Generative Modeling) の強化による不均衡データセットの増大によるマイノリティクラス再バランスを提案する。
MCRAGEは、デノイング拡散確率モデル (Denoising Diffusion Probabilistic Model, CDDPM) を訓練し、未表現のクラスから高品質な合成EHRサンプルを生成する。
この合成データを使用して、既存の不均衡なデータセットを増大させ、その結果、すべてのクラスにまたがるよりバランスの取れた分散を実現します。
論文 参考訳(メタデータ) (2023-10-27T19:02:22Z) - Weakly Supervised Contrastive Learning for Chest X-Ray Report Generation [3.3978173451092437]
放射線画像から記述テキストを自動的に生成することを目的とした放射線学レポート生成。
典型的な設定は、エンコーダとデコーダのモデルを、クロスエントロピー損失のあるイメージレポートペアでトレーニングする。
本稿では,医療報告生成におけるコントラスト損失の弱化について提案する。
論文 参考訳(メタデータ) (2021-09-25T00:06:23Z) - Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for
Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。
胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。
本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T02:29:30Z) - Understanding Neural Abstractive Summarization Models via Uncertainty [54.37665950633147]
seq2seq抽象要約モデルは、自由形式の方法でテキストを生成する。
モデルのトークンレベルの予測のエントロピー、すなわち不確実性について検討する。
要約とテキスト生成モデルをより広範囲に解析する上で,不確実性は有用であることを示す。
論文 参考訳(メタデータ) (2020-10-15T16:57:27Z) - Token-level Adaptive Training for Neural Machine Translation [84.69646428587548]
異なるトークンが異なる周波数で現れるため、自然言語にはトークンの不均衡現象が存在する。
バニラNMTモデルは、通常、異なる周波数のターゲットトークンに対して、自明な等重の目的を採用する。
低周波トークンは、無視された後に翻訳品質に影響を与える重要な意味情報を運ぶことができる。
論文 参考訳(メタデータ) (2020-10-09T05:55:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。