論文の概要: Noise Pollution in Hospital Readmission Prediction: Long Document
Classification with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2005.01259v2
- Date: Sat, 23 May 2020 04:36:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 00:01:34.247097
- Title: Noise Pollution in Hospital Readmission Prediction: Long Document
Classification with Reinforcement Learning
- Title(参考訳): 病院入所予測における騒音汚染:強化学習による長期文書分類
- Authors: Liyan Xu, Julien Hogan, Rachel E. Patzer and Jinho D. Choi
- Abstract要約: 本稿では,腎移植後の可読性予測のための長期臨床文書中のノイズ抽出のための強化学習手法を提案する。
まず、4種類のエンコーダを実験して、最適な文書表現を実証的に決定し、さらに長い文書からノイズの多いテキストを除去するために強化学習を適用する。
- 参考スコア(独自算出の注目度): 15.476161876559074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a reinforcement learning approach to extract noise in
long clinical documents for the task of readmission prediction after kidney
transplant. We face the challenges of developing robust models on a small
dataset where each document may consist of over 10K tokens with full of noise
including tabular text and task-irrelevant sentences. We first experiment four
types of encoders to empirically decide the best document representation, and
then apply reinforcement learning to remove noisy text from the long documents,
which models the noise extraction process as a sequential decision problem. Our
results show that the old bag-of-words encoder outperforms deep learning-based
encoders on this task, and reinforcement learning is able to improve upon
baseline while pruning out 25% text segments. Our analysis depicts that
reinforcement learning is able to identify both typical noisy tokens and
task-specific noisy text.
- Abstract(参考訳): 本稿では,腎移植後の可読性予測のための長期臨床文書中のノイズ抽出のための強化学習手法を提案する。
我々は、各文書が表文やタスクに関係のない文を含むノイズの多い10万以上のトークンで構成される小さなデータセット上で、堅牢なモデルを開発するという課題に直面している。
まず4種類のエンコーダを実験し,最善の文書表現を経験的に決定し,ノイズ抽出過程を逐次的決定問題としてモデル化した長文からノイズ文を除去するために強化学習を適用した。
以上の結果から,従来の単語エンコーダは,このタスクにおいて深層学習に基づくエンコーダよりも優れており,強化学習は25%のテキストセグメントを抽出しながらベースラインを改善することができることがわかった。
分析の結果,強化学習は典型的なノイズトークンとタスク固有のノイズテキストの両方を識別できることがわかった。
関連論文リスト
- Learning Robust Named Entity Recognizers From Noisy Data With Retrieval Augmentation [67.89838237013078]
名前付きエンティティ認識(NER)モデルは、しばしばノイズの多い入力に悩まされる。
ノイズの多いテキストとそのNERラベルのみを利用できる、より現実的な設定を提案する。
我々は、推論中にテキストを取得することなく、堅牢なNERを改善するマルチビュートレーニングフレームワークを採用している。
論文 参考訳(メタデータ) (2024-07-26T07:30:41Z) - NoisyAG-News: A Benchmark for Addressing Instance-Dependent Noise in Text Classification [7.464154519547575]
ノイズラベルを用いた学習に関する既存の研究は、主に合成ノイズパターンに焦点を当てている。
実世界のテキスト分類設定においてラベルノイズをよりよく理解するためのベンチマークデータセットを構築した。
以上の結果から,事前学習モデルでは合成ノイズに耐性があるものの,インスタンス依存ノイズには耐え難いことが判明した。
論文 参考訳(メタデータ) (2024-07-09T06:18:40Z) - Improving the Robustness of Summarization Systems with Dual Augmentation [68.53139002203118]
頑健な要約システムは、入力中の特定の単語の選択やノイズに関わらず、文書のギストをキャプチャできるべきである。
まず,単語レベルの同義語置換や雑音を含む摂動に対する要約モデルの頑健性について検討する。
SummAttackerを提案する。これは言語モデルに基づく対数サンプルを生成するための効率的な手法である。
論文 参考訳(メタデータ) (2023-06-01T19:04:17Z) - Tram: A Token-level Retrieval-augmented Mechanism for Source Code Summarization [76.57699934689468]
ニューラルモデルの性能を高めるために,デコーダ側で詳細なTokenレベル検索強化機構(Tram)を提案する。
文脈的コードセマンティクスの取得におけるトークンレベルの検索の課題を克服するために,コードセマンティクスを個々の要約トークンに統合することを提案する。
論文 参考訳(メタデータ) (2023-05-18T16:02:04Z) - Coherence and Diversity through Noise: Self-Supervised Paraphrase
Generation via Structure-Aware Denoising [5.682665111938764]
制御ノイズ注入によるパラフレーズ処理のための教師なしフレームワークであるSCANINGを提案する。
本稿では,オンライン教育に実践的な応用を持つ代数的単語問題を言い換える新しい課題に焦点をあてる。
我々はSCANingが意味保存と多種多様なパラフレーズの生成の両方の観点から性能を著しく向上させることを示した。
論文 参考訳(メタデータ) (2023-02-06T13:50:57Z) - Improving the Robustness of Summarization Models by Detecting and
Removing Input Noise [50.27105057899601]
本研究では,様々な種類の入力ノイズから,様々なデータセットやモデルサイズに対する性能損失を定量化する大規模な実験的検討を行った。
本稿では,モデル推論中の入力中のそのようなノイズを検出し,除去するための軽量な手法を提案する。
論文 参考訳(メタデータ) (2022-12-20T00:33:11Z) - TEACHTEXT: CrossModal Generalized Distillation for Text-Video Retrieval [103.85002875155551]
本研究では,大規模言語前訓練を利用した一般化蒸留法TeachTextを提案する。
提案手法をビデオ側モダリティに拡張し,テスト時に使用するモダリティの数を効果的に削減できることを示す。
提案手法は,いくつかのビデオ検索ベンチマークの精度を著しく向上させ,テスト時の計算オーバーヘッドを増加させない。
論文 参考訳(メタデータ) (2021-04-16T17:55:28Z) - Towards Robustness to Label Noise in Text Classification via Noise
Modeling [7.863638253070439]
NLPの大規模なデータセットは、誤った自動および人間のアノテーション手順のために、ノイズの多いラベルに悩まされる。
本稿では,ラベルノイズを用いたテキスト分類の問題について検討し,分類器上での補助雑音モデルを用いてこのノイズを捉えることを目的とする。
論文 参考訳(メタデータ) (2021-01-27T05:41:57Z) - Learning Not to Learn in the Presence of Noisy Labels [104.7655376309784]
ギャンブラーの損失と呼ばれる新しい種類の損失関数は、様々なレベルの汚職にまたがってノイズをラベル付けするのに強い堅牢性をもたらすことを示す。
この損失関数によるトレーニングは、ノイズのあるラベルを持つデータポイントでの学習を"維持"することをモデルに促すことを示す。
論文 参考訳(メタデータ) (2020-02-16T09:12:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。