論文の概要: LongBoX: Evaluating Transformers on Long-Sequence Clinical Tasks
- arxiv url: http://arxiv.org/abs/2311.09564v1
- Date: Thu, 16 Nov 2023 04:57:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 16:39:48.920317
- Title: LongBoX: Evaluating Transformers on Long-Sequence Clinical Tasks
- Title(参考訳): LongBoX: 長期臨床におけるトランスフォーマーの評価
- Authors: Mihir Parmar, Aakanksha Naik, Himanshu Gupta, Disha Agrawal, Chitta
Baral
- Abstract要約: LongBoXは、テキストからテキストへのフォーマットで7つの医療データセットのコレクションである。
予備実験により、医療用LLMと強力な一般用LLMの両方がこのベンチマークで苦戦していることが明らかとなった。
長周期処理のための2つの手法を評価する: (i) 局所的言語的注意と (ii) フュージョン・イン・デコーダ (FiD)
- 参考スコア(独自算出の注目度): 44.89857441408805
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Many large language models (LLMs) for medicine have largely been evaluated on
short texts, and their ability to handle longer sequences such as a complete
electronic health record (EHR) has not been systematically explored. Assessing
these models on long sequences is crucial since prior work in the general
domain has demonstrated performance degradation of LLMs on longer texts.
Motivated by this, we introduce LongBoX, a collection of seven medical datasets
in text-to-text format, designed to investigate model performance on long
sequences. Preliminary experiments reveal that both medical LLMs (e.g., BioGPT)
and strong general domain LLMs (e.g., FLAN-T5) struggle on this benchmark. We
further evaluate two techniques designed for long-sequence handling: (i)
local-global attention, and (ii) Fusion-in-Decoder (FiD). Our results
demonstrate mixed results with long-sequence handling - while scores on some
datasets increase, there is substantial room for improvement. We hope that
LongBoX facilitates the development of more effective long-sequence techniques
for the medical domain. Data and source code are available at
https://github.com/Mihir3009/LongBoX.
- Abstract(参考訳): 医学用大規模言語モデル(LLM)の多くは短いテキストで評価されており、完全電子健康記録(EHR)のような長いシーケンスを扱う能力は体系的に研究されていない。
これらのモデルを長いシーケンスで評価することは、一般的なドメインでの先行研究が長いテキスト上でのLLMの性能劣化を実証しているため、非常に重要である。
そこで本研究では,テキストからテキストへのフォーマットによる7つの医療データセットのコレクションであるlongboxを提案する。
予備実験により、医療用LLM(例:BioGPT)と強力な一般用LLM(例:FLAN-T5)がこのベンチマークで苦戦していることが明らかとなった。
時系列処理のための2つの手法を更に評価する。
(i)地域的注目,及び
(II)Fusion-in-Decoder(FiD)
結果から,長期処理による混合結果が得られた。いくつかのデータセットのスコアは増加するが,改善の余地は十分にある。
我々はLongBoXが医療分野でより効果的なロングシーケンス技術の開発を促進することを願っている。
データとソースコードはhttps://github.com/Mihir3009/LongBoXで入手できる。
関連論文リスト
- Longitudinal Ensemble Integration for sequential classification with multimodal data [2.4554016712597138]
逐次分類のためのLongitudinal Ensemble Integration(LEI)を開発した。
認知症早期発見のために, LEIの性能を評価し, 既存のアプローチと比較した。
LEIの設計により、認知症関連診断の効果的な予測のために、時間を通して一貫して重要な特徴を識別できるようになった。
論文 参考訳(メタデータ) (2024-11-08T21:31:48Z) - Language Models can Self-Lengthen to Generate Long Texts [74.96074422345806]
本稿では,Self-Lengthenというイノベーティブな反復学習フレームワークを紹介する。
補助的なデータやプロプライエタリなモデルを必要としない、大規模言語モデルの本質的な知識とスキルのみを活用する。
ベンチマークと人的評価の実験により、Self-Lengthenは長文生成において既存の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-10-31T13:47:10Z) - Selecting Influential Samples for Long Context Alignment via Homologous Models' Guidance and Contextual Awareness Measurement [62.87020831987625]
本稿では,長距離依存関係に富む影響力のある,高品質なサンプルを識別する新しいフレームワークを提案する。
我々は、長距離依存を効果的にフレーム化するために、影響力のあるデータとして最も難しいサンプルを選択する。
実験により, GATEAUは長距離依存関係に富んだサンプルを効果的に同定し, これらのサンプルに基づいて訓練したモデルにより, より優れた指示追従と長文理解能力を示すことが示された。
論文 参考訳(メタデータ) (2024-10-21T04:30:53Z) - LongSkywork: A Training Recipe for Efficiently Extending Context Length in Large Language Models [61.12177317970258]
LongSkyworkは、最大20万のトークンを処理できる、長いコンテキストのLarge Language Modelである。
我々は合成データを作成する2つの新しい方法を開発した。
LongSkyworkは、様々なロングコンテキストベンチマークで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-06-02T03:34:41Z) - Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks [76.43527940649939]
大規模言語モデル(LLM)の長文理解を評価するベンチマークであるAda-LEvalを紹介する。
Ada-LEvalにはTSortとBestAnswerという2つの挑戦的なサブセットが含まれている。
Ada-LEvalを用いた4つの最先端クローズドソースAPIモデルと6つのオープンソースモデルを評価した。
論文 参考訳(メタデータ) (2024-04-09T17:30:48Z) - Effective Long-Context Scaling of Foundation Models [90.57254298730923]
最大32,768個のトークンの効率的なコンテキストウィンドウをサポートする長文LLMを提示する。
我々のモデルは、ほとんどの通常のタスクにおいて一貫した改善を達成し、Llama 2よりも長いコンテキストタスクを大幅に改善します。
論文 参考訳(メタデータ) (2023-09-27T21:41:49Z) - How Long Is Enough? Exploring the Optimal Intervals of Long-Range
Clinical Note Language Modeling [37.247872987053654]
大規模事前訓練言語モデル(LM)は、生物医学および臨床領域で広く採用されている。
この研究は、Longformer を用いた LM からの長距離適応を探究し、LM がより長い臨床メモのコンテキストを捉えることを可能にする。
3つのn2c2課題データセットと香港病院電子健康記録システムによる縦断的臨床データセットについて実験を行った。
論文 参考訳(メタデータ) (2022-10-25T09:21:28Z) - Extend and Explain: Interpreting Very Long Language Models [0.0]
本稿では,予測に寄与するテキストブロックを識別するための新しいMasked Smpling procedure (MSP)を提案する。
MSPは、以前の最先端よりも1.7倍の臨床的に有益なテキストブロックを特定し、100倍の速度で走り、重要なフレーズペアを生成することができる。
論文 参考訳(メタデータ) (2022-09-02T17:15:43Z) - Longformer: The Long-Document Transformer [40.18988262517733]
トランスフォーマーベースのモデルでは、シーケンス長と2次スケールの自己アテンション操作のため、長いシーケンスを処理できない。
我々はLongformerを導入し、シーケンス長と線形にスケールするアテンション機構を導入し、何千ものトークンの文書を簡単に処理できるようにした。
Longformerのアテンションメカニズムは、標準的な自己アテンションをドロップインで置き換えることであり、ローカルなウインドウのアテンションと、グローバルなアテンションを動機付けるタスクを組み合わせたものである。
論文 参考訳(メタデータ) (2020-04-10T17:54:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。