論文の概要: LongBoX: Evaluating Transformers on Long-Sequence Clinical Tasks
- arxiv url: http://arxiv.org/abs/2311.09564v1
- Date: Thu, 16 Nov 2023 04:57:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-11-17 16:39:48.920317
- Title: LongBoX: Evaluating Transformers on Long-Sequence Clinical Tasks
- Title(参考訳): LongBoX: 長期臨床におけるトランスフォーマーの評価
- Authors: Mihir Parmar, Aakanksha Naik, Himanshu Gupta, Disha Agrawal, Chitta
Baral
- Abstract要約: LongBoXは、テキストからテキストへのフォーマットで7つの医療データセットのコレクションである。
予備実験により、医療用LLMと強力な一般用LLMの両方がこのベンチマークで苦戦していることが明らかとなった。
長周期処理のための2つの手法を評価する: (i) 局所的言語的注意と (ii) フュージョン・イン・デコーダ (FiD)
- 参考スコア(独自算出の注目度): 44.89857441408805
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Many large language models (LLMs) for medicine have largely been evaluated on
short texts, and their ability to handle longer sequences such as a complete
electronic health record (EHR) has not been systematically explored. Assessing
these models on long sequences is crucial since prior work in the general
domain has demonstrated performance degradation of LLMs on longer texts.
Motivated by this, we introduce LongBoX, a collection of seven medical datasets
in text-to-text format, designed to investigate model performance on long
sequences. Preliminary experiments reveal that both medical LLMs (e.g., BioGPT)
and strong general domain LLMs (e.g., FLAN-T5) struggle on this benchmark. We
further evaluate two techniques designed for long-sequence handling: (i)
local-global attention, and (ii) Fusion-in-Decoder (FiD). Our results
demonstrate mixed results with long-sequence handling - while scores on some
datasets increase, there is substantial room for improvement. We hope that
LongBoX facilitates the development of more effective long-sequence techniques
for the medical domain. Data and source code are available at
https://github.com/Mihir3009/LongBoX.
- Abstract(参考訳): 医学用大規模言語モデル(LLM)の多くは短いテキストで評価されており、完全電子健康記録(EHR)のような長いシーケンスを扱う能力は体系的に研究されていない。
これらのモデルを長いシーケンスで評価することは、一般的なドメインでの先行研究が長いテキスト上でのLLMの性能劣化を実証しているため、非常に重要である。
そこで本研究では,テキストからテキストへのフォーマットによる7つの医療データセットのコレクションであるlongboxを提案する。
予備実験により、医療用LLM(例:BioGPT)と強力な一般用LLM(例:FLAN-T5)がこのベンチマークで苦戦していることが明らかとなった。
時系列処理のための2つの手法を更に評価する。
(i)地域的注目,及び
(II)Fusion-in-Decoder(FiD)
結果から,長期処理による混合結果が得られた。いくつかのデータセットのスコアは増加するが,改善の余地は十分にある。
我々はLongBoXが医療分野でより効果的なロングシーケンス技術の開発を促進することを願っている。
データとソースコードはhttps://github.com/Mihir3009/LongBoXで入手できる。
関連論文リスト
- LLM$\times$MapReduce-V2: Entropy-Driven Convolutional Test-Time Scaling for Generating Long-Form Articles from Extremely Long Resources [65.41986915457058]
ロングフォーム生成は、幅広い実用用途に欠かせない。
短期から長期の世代は注目されているが、極端に長い資源から長いテキストを生成することは、比較的過小評価されている。
LLM$times$MapReduce-V2は,大規模言語モデルによる極めて長い入力処理能力の向上を目的とした,新しいテスト時間スケーリング戦略である。
論文 参考訳(メタデータ) (2025-04-08T07:03:48Z) - A LongFormer-Based Framework for Accurate and Efficient Medical Text Summarization [3.4635278365524673]
本稿では,LongFormerに基づく医用テキスト要約手法を提案する。
従来の要約法は短期記憶によって制限されることが多い。
LongFormerはテキスト内の長距離依存関係を効果的にキャプチャし、より重要な情報を保持する。
論文 参考訳(メタデータ) (2025-03-10T03:33:45Z) - LongEval: A Comprehensive Analysis of Long-Text Generation Through a Plan-based Paradigm [21.661578831520963]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な成功を収めた。
解析の結果,LLMは長文生成における長文要求や情報密度に悩まされていることが明らかとなった。
提案するLongEvalは,直接および計画に基づく生成パラダイムを用いて,長文生成を評価するベンチマークである。
論文 参考訳(メタデータ) (2025-02-26T12:46:36Z) - Time2Lang: Bridging Time-Series Foundation Models and Large Language Models for Health Sensing Beyond Prompting [3.2688127177376227]
大規模言語モデル(LLM)は、行動センシングデータと組み合わせることで、健康上の応用を約束する。
従来のアプローチでは、センサデータをテキストプロンプトに変換するが、このプロセスはエラーを起こしやすく、計算コストが高く、ドメインの専門知識を必要とする。
本稿では, TFM 出力を中間テキスト変換なしで LLM 表現に直接マッピングするフレームワーク Time2Lang を提案する。
論文 参考訳(メタデータ) (2025-02-11T14:58:54Z) - HC-LLM: Historical-Constrained Large Language Models for Radiology Report Generation [89.3260120072177]
本稿では,放射線学レポート生成のための歴史制約付き大規模言語モデル (HC-LLM) フレームワークを提案する。
胸部X線写真から経時的特徴と経時的特徴を抽出し,疾患の進行を捉える診断報告を行った。
特に,本手法は,テスト中の履歴データなしでも良好に動作し,他のマルチモーダル大規模モデルにも容易に適用可能である。
論文 参考訳(メタデータ) (2024-12-15T06:04:16Z) - Longitudinal Ensemble Integration for sequential classification with multimodal data [2.4554016712597138]
逐次分類のためのLongitudinal Ensemble Integration(LEI)を開発した。
認知症早期発見のために, LEIの性能を評価し, 既存のアプローチと比較した。
LEIの設計により、認知症関連診断の効果的な予測のために、時間を通して一貫して重要な特徴を識別できるようになった。
論文 参考訳(メタデータ) (2024-11-08T21:31:48Z) - Language Models can Self-Lengthen to Generate Long Texts [74.96074422345806]
本稿では,Self-Lengthenというイノベーティブな反復学習フレームワークを紹介する。
補助的なデータやプロプライエタリなモデルを必要としない、大規模言語モデルの本質的な知識とスキルのみを活用する。
ベンチマークと人的評価の実験により、Self-Lengthenは長文生成において既存の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-10-31T13:47:10Z) - Selecting Influential Samples for Long Context Alignment via Homologous Models' Guidance and Contextual Awareness Measurement [62.87020831987625]
本稿では,長距離依存関係に富む影響力のある,高品質なサンプルを識別する新しいフレームワークを提案する。
我々は、長距離依存を効果的にフレーム化するために、影響力のあるデータとして最も難しいサンプルを選択する。
実験により, GATEAUは長距離依存関係に富んだサンプルを効果的に同定し, これらのサンプルに基づいて訓練したモデルにより, より優れた指示追従と長文理解能力を示すことが示された。
論文 参考訳(メタデータ) (2024-10-21T04:30:53Z) - LongSkywork: A Training Recipe for Efficiently Extending Context Length in Large Language Models [61.12177317970258]
LongSkyworkは、最大20万のトークンを処理できる、長いコンテキストのLarge Language Modelである。
我々は合成データを作成する2つの新しい方法を開発した。
LongSkyworkは、様々なロングコンテキストベンチマークで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-06-02T03:34:41Z) - Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks [76.43527940649939]
大規模言語モデル(LLM)の長文理解を評価するベンチマークであるAda-LEvalを紹介する。
Ada-LEvalにはTSortとBestAnswerという2つの挑戦的なサブセットが含まれている。
Ada-LEvalを用いた4つの最先端クローズドソースAPIモデルと6つのオープンソースモデルを評価した。
論文 参考訳(メタデータ) (2024-04-09T17:30:48Z) - Effective Long-Context Scaling of Foundation Models [90.57254298730923]
最大32,768個のトークンの効率的なコンテキストウィンドウをサポートする長文LLMを提示する。
我々のモデルは、ほとんどの通常のタスクにおいて一貫した改善を達成し、Llama 2よりも長いコンテキストタスクを大幅に改善します。
論文 参考訳(メタデータ) (2023-09-27T21:41:49Z) - How Long Is Enough? Exploring the Optimal Intervals of Long-Range
Clinical Note Language Modeling [37.247872987053654]
大規模事前訓練言語モデル(LM)は、生物医学および臨床領域で広く採用されている。
この研究は、Longformer を用いた LM からの長距離適応を探究し、LM がより長い臨床メモのコンテキストを捉えることを可能にする。
3つのn2c2課題データセットと香港病院電子健康記録システムによる縦断的臨床データセットについて実験を行った。
論文 参考訳(メタデータ) (2022-10-25T09:21:28Z) - Extend and Explain: Interpreting Very Long Language Models [0.0]
本稿では,予測に寄与するテキストブロックを識別するための新しいMasked Smpling procedure (MSP)を提案する。
MSPは、以前の最先端よりも1.7倍の臨床的に有益なテキストブロックを特定し、100倍の速度で走り、重要なフレーズペアを生成することができる。
論文 参考訳(メタデータ) (2022-09-02T17:15:43Z) - Longformer: The Long-Document Transformer [40.18988262517733]
トランスフォーマーベースのモデルでは、シーケンス長と2次スケールの自己アテンション操作のため、長いシーケンスを処理できない。
我々はLongformerを導入し、シーケンス長と線形にスケールするアテンション機構を導入し、何千ものトークンの文書を簡単に処理できるようにした。
Longformerのアテンションメカニズムは、標準的な自己アテンションをドロップインで置き換えることであり、ローカルなウインドウのアテンションと、グローバルなアテンションを動機付けるタスクを組み合わせたものである。
論文 参考訳(メタデータ) (2020-04-10T17:54:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。