論文の概要: Content Reduction, Surprisal and Information Density Estimation for Long
Documents
- arxiv url: http://arxiv.org/abs/2309.06009v1
- Date: Tue, 12 Sep 2023 07:08:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-13 14:11:42.549626
- Title: Content Reduction, Surprisal and Information Density Estimation for Long
Documents
- Title(参考訳): 長期文書のコンテンツ削減, 予備的, 情報密度推定
- Authors: Shaoxiong Ji and Wei Sun and Pekka Marttinen
- Abstract要約: 本稿では,長期文書に分散する情報と,トークン選択やテキスト要約などのコンテンツ削減が,長期文書における情報密度にどのように影響するか,という2つの興味深い研究課題について考察する。
本研究では,長期文書における情報密度推定の基準として,推定値,エントロピー,均一情報密度,語彙密度の4つを提示する。
そこで本研究では,各領域における長文情報密度の系統的差異を明らかにした。
- 参考スコア(独自算出の注目度): 12.879618442655431
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many computational linguistic methods have been proposed to study the
information content of languages. We consider two interesting research
questions: 1) how is information distributed over long documents, and 2) how
does content reduction, such as token selection and text summarization, affect
the information density in long documents. We present four criteria for
information density estimation for long documents, including surprisal,
entropy, uniform information density, and lexical density. Among those
criteria, the first three adopt the measures from information theory. We
propose an attention-based word selection method for clinical notes and study
machine summarization for multiple-domain documents. Our findings reveal the
systematic difference in information density of long text in various domains.
Empirical results on automated medical coding from long clinical notes show the
effectiveness of the attention-based word selection method.
- Abstract(参考訳): 言語の情報内容を研究するために多くの計算言語的手法が提案されている。
2つの興味深い研究課題を考えます
1) 長期文書上での情報はどのように分配されているか。
2)トークン選択やテキスト要約といったコンテンツ削減は,長い文書の情報密度にどのように影響するか。
本稿では,超越性,エントロピー,一様情報密度,語彙密度の4つの長文情報密度推定基準を提案する。
これらの基準のうち、第1の3つは情報理論の尺度である。
臨床ノートのための注意に基づく単語選択手法を提案し,複数ドメイン文書を対象とした機械要約について検討する。
本研究では,各領域における長文情報密度の系統的差異を明らかにする。
長い臨床ノートから自動医療コーディングを行った結果,注意に基づく単語選択法の有効性が示された。
関連論文リスト
- Advancements in eHealth Data Analytics through Natural Language
Processing and Deep Learning [0.614609308117547]
この章では、非構造化(画像およびテキスト)eヘルスデータを解析するための、現在で最も高性能なソリューションについて批判的な研究を行っている。
この研究は、eHealthコンテキストにおける現在の自然言語処理とディープラーニング技術の比較も提供する。
論文 参考訳(メタデータ) (2024-01-19T17:51:11Z) - Preserving the knowledge of long clinical texts using aggregated
ensembles of large language models [0.0]
臨床テキストには、様々な臨床結果予測タスクに使用できる、豊富で価値のある情報が含まれている。
BERTベースのモデルのような大きな言語モデルを臨床テキストに適用することは、2つの大きな課題をもたらす。
本稿では,大規模言語モデルの集合アンサンブルを用いて,長期臨床テキストの知識を保存するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-02T19:50:02Z) - Multimodal Modeling For Spoken Language Identification [57.94119986116947]
音声言語識別とは、ある発話中の音声言語を自動的に予測するタスクを指す。
本稿では,多モーダル音声言語識別手法であるMuSeLIを提案する。
論文 参考訳(メタデータ) (2023-09-19T12:21:39Z) - Making the Most Out of the Limited Context Length: Predictive Power
Varies with Clinical Note Type and Note Section [70.37720062263176]
本研究では,高い予測力で区間を解析する枠組みを提案する。
MIMIC-IIIを用いて,(1)看護用音符と退院用音符とでは予測電力分布が異なること,(2)文脈長が大きい場合の音符の組み合わせにより性能が向上することが示唆された。
論文 参考訳(メタデータ) (2023-07-13T20:04:05Z) - Development and validation of a natural language processing algorithm to
pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。
臨床文献のコーパスを12種類に分類した。
私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文 参考訳(メタデータ) (2023-03-23T17:17:46Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z) - Ranking the information content of distance measures [61.754016309475745]
2つの異なる距離測度を用いて保持する相対的情報を評価する統計的テストを導入する。
これにより、候補者のプールから最も情報に富んだ距離を測定することができる。
論文 参考訳(メタデータ) (2021-04-30T15:57:57Z) - TRIE: End-to-End Text Reading and Information Extraction for Document
Understanding [56.1416883796342]
本稿では,統合されたエンドツーエンドのテキスト読解と情報抽出ネットワークを提案する。
テキスト読解のマルチモーダル視覚的特徴とテキスト的特徴は、情報抽出のために融合される。
提案手法は, 精度と効率の両面において, 最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-05-27T01:47:26Z) - On the Combined Use of Extrinsic Semantic Resources for Medical
Information Search [0.0]
本研究は,頭部医学的概念を冗長な問合せで強調・拡張する枠組みを開発する。
また、意味的に強化された逆インデックス文書も作成する。
提案手法の有効性を実証するため,CLEF 2014データセット上でいくつかの実験を行った。
論文 参考訳(メタデータ) (2020-05-17T14:18:04Z) - Extending Text Informativeness Measures to Passage Interestingness
Evaluation (Language Model vs. Word Embedding) [1.2998637003026272]
本稿では、インフォマティヴネスの概念をインフォマティヴネスの一般化として定義する。
次に、この一般化に対応するために、アートインフォーマティヴネス対策の状態を調査する。
CLEF-INEX Tweet Contextualization 2012 Logarithm similarity measure が最適であることを示す。
論文 参考訳(メタデータ) (2020-04-14T18:22:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。