論文の概要: MedOdyssey: A Medical Domain Benchmark for Long Context Evaluation Up to 200K Tokens
- arxiv url: http://arxiv.org/abs/2406.15019v1
- Date: Fri, 21 Jun 2024 09:46:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-24 13:53:51.459234
- Title: MedOdyssey: A Medical Domain Benchmark for Long Context Evaluation Up to 200K Tokens
- Title(参考訳): MedOdyssey: 2万トンまでの長期コンテキスト評価のための医療ドメインベンチマーク
- Authors: Yongqi Fan, Hongli Sun, Kui Xue, Xiaofan Zhang, Shaoting Zhang, Tong Ruan,
- Abstract要約: 医療領域では、タスクは独自のコンテキストとドメインの専門知識を必要とするため、独特である。
MedOdysseyは、4Kトークンから200Kトークンまでの7つの長さレベルを持つ最初の医用長文ベンチマークである。
- 参考スコア(独自算出の注目度): 10.26540393302624
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Numerous advanced Large Language Models (LLMs) now support context lengths up to 128K, and some extend to 200K. Some benchmarks in the generic domain have also followed up on evaluating long-context capabilities. In the medical domain, tasks are distinctive due to the unique contexts and need for domain expertise, necessitating further evaluation. However, despite the frequent presence of long texts in medical scenarios, evaluation benchmarks of long-context capabilities for LLMs in this field are still rare. In this paper, we propose MedOdyssey, the first medical long-context benchmark with seven length levels ranging from 4K to 200K tokens. MedOdyssey consists of two primary components: the medical-context "needles in a haystack" task and a series of tasks specific to medical applications, together comprising 10 datasets. The first component includes challenges such as counter-intuitive reasoning and novel (unknown) facts injection to mitigate knowledge leakage and data contamination of LLMs. The second component confronts the challenge of requiring professional medical expertise. Especially, we design the ``Maximum Identical Context'' principle to improve fairness by guaranteeing that different LLMs observe as many identical contexts as possible. Our experiment evaluates advanced proprietary and open-source LLMs tailored for processing long contexts and presents detailed performance analyses. This highlights that LLMs still face challenges and need for further research in this area. Our code and data are released in the repository: \url{https://github.com/JOHNNY-fans/MedOdyssey.}
- Abstract(参考訳): 多数の高度な大規模言語モデル(LLM)がコンテキスト長を128Kまでサポートし、いくつかは200Kまで拡張されている。
ジェネリックドメインのいくつかのベンチマークも、ロングコンテキスト機能の評価に追随している。
医学領域では、タスクは独自のコンテキストとドメインの専門知識を必要とするため、さらなる評価を必要とする。
しかし、医学的シナリオに長いテキストが頻繁に存在するにもかかわらず、この分野でのLLMの長文能力の評価ベンチマークはいまだに稀である。
本稿では,4Kトークンから200Kトークンまでの7つの長さレベルを持つ,最初の医用長文ベンチマークであるMedOdysseyを提案する。
MedOdysseyは、2つの主要なコンポーネントで構成されている。医療コンテキストは「干し草のスタックに潜む」タスクと、10つのデータセットからなる医療応用に特化した一連のタスクである。
第1のコンポーネントは、反直感的推論や、知識リークを軽減し、LLMのデータ汚染を緩和する新しい(未知の)事実注入といった課題を含む。
第2の要素は、専門的な専門知識を必要とするという課題に直面している。
特に,異なるLLMが可能な限り多くの同一コンテキストを観測することを保証することにより,公平性を向上させるために, ``maximum Identical Context'' 原理を設計する。
本実験では,長いコンテキストの処理に適した,プロプライエタリかつオープンソースのLLMを評価し,詳細な性能解析を行う。
このことはLLMが依然として課題に直面しており、この分野のさらなる研究の必要性を浮き彫りにしている。
私たちのコードとデータは、リポジトリでリリースされます。
※
関連論文リスト
- Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - A Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor? [33.70022886795487]
OpenAIのo1は、強化学習戦略を使ったチェーン・オブ・ソート技術を使った最初のモデルとして際立っている。
本報告では、様々な医療シナリオにおけるo1の総合的な探索を行い、理解、推論、多言語性という3つの重要な側面について検討する。
論文 参考訳(メタデータ) (2024-09-23T17:59:43Z) - DetectiveQA: Evaluating Long-Context Reasoning on Detective Novels [89.51834016940153]
本稿では,100K以上の平均コンテキスト長を持つナラティブ推論ベンチマークであるTectiveQAを紹介する。
探偵小説をデータソースとして使用し、様々な理由付け要素を自然に持っている。
私たちは中国語で600の質問を手動で注釈付けし、文脈情報と質問の英語版も提供しました。
論文 参考訳(メタデータ) (2024-09-04T06:28:22Z) - NeedleBench: Can LLMs Do Retrieval and Reasoning in 1 Million Context Window? [37.64593022203498]
NeedleBenchは、バイリンガルの長期コンテキスト能力を評価するための、徐々に難しいタスクからなるフレームワークである。
私たちはこのフレームワークを使って、主要なオープンソースモデルがその疑問に関連する重要な情報をどの程度正確に特定できるかを評価する。
本稿では,実世界の長文タスクに現れる可能性の高い論理的推論課題の複雑さを模倣するAncestral Trace Challengeを提案する。
論文 参考訳(メタデータ) (2024-07-16T17:59:06Z) - MultifacetEval: Multifaceted Evaluation to Probe LLMs in Mastering Medical Knowledge [4.8004472307210255]
大規模言語モデル (LLMs) はドメイン間で優れており、医療評価ベンチマークで顕著なパフォーマンスを提供している。
しかし、実際の医療シナリオにおける報告されたパフォーマンスと実践的効果の間には、依然として大きなギャップがある。
医療知識のエンコーディングと習得におけるLLMの程度と範囲を検討するための,新しい評価フレームワークであるMultifacetEvalを開発した。
論文 参考訳(メタデータ) (2024-06-05T04:15:07Z) - Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks [76.43527940649939]
大規模言語モデル(LLM)の長文理解を評価するベンチマークであるAda-LEvalを紹介する。
Ada-LEvalにはTSortとBestAnswerという2つの挑戦的なサブセットが含まれている。
Ada-LEvalを用いた4つの最先端クローズドソースAPIモデルと6つのオープンソースモデルを評価した。
論文 参考訳(メタデータ) (2024-04-09T17:30:48Z) - NovelQA: Benchmarking Question Answering on Documents Exceeding 200K Tokens [63.7488938083696]
NovelQAは拡張テキストによる大規模言語モデルの能力をテストするために設計されたベンチマークである。
本稿では,ノベルQAの設計と構築について述べる。
NovelQAにおけるLong-context LLMの評価により,モデルの性能に関する重要な知見が得られた。
論文 参考訳(メタデータ) (2024-03-18T17:32:32Z) - $\infty$Bench: Extending Long Context Evaluation Beyond 100K Tokens [64.08660301017302]
現在、この長期コンテキスト機能を評価するための標準ベンチマークが欠落している。
$infty$Benchは、平均データ長が100Kを超える最初のベンチマークである。
その結果,100K以上のコンテキストを効果的に処理するには,既存の長期的LLMの大幅な進歩が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-02-21T11:30:29Z) - OmniMedVQA: A New Large-Scale Comprehensive Evaluation Benchmark for Medical LVLM [48.16696073640864]
我々は,新しい包括的ビジュアル質問回答(VQA)ベンチマークであるOmniMedVQAを紹介する。
このベンチマークのすべての画像は、本物の医療シナリオから得られたものです。
既存のLVLMはこれらの医療用VQA問題に効果的に取り組むのに苦労していることがわかった。
論文 参考訳(メタデータ) (2024-02-14T13:51:56Z) - MedAgents: Large Language Models as Collaborators for Zero-shot Medical Reasoning [35.804520192679874]
大規模言語モデル(LLM)は医療や医療において重大な障壁に直面している。
MedAgentsは医療分野のための新しい多分野連携フレームワークである。
私たちの研究は、現実世界のシナリオに適用可能なゼロショット設定に焦点を当てています。
論文 参考訳(メタデータ) (2023-11-16T11:47:58Z) - Medical Coding with Biomedical Transformer Ensembles and Zero/Few-shot
Learning [2.857247558624978]
医用符号化(MC)は、信頼性の高いデータ検索とレポートに必須の前提条件である。
我々は、従来のBERTに基づく分類と最近のゼロ/ファウショット学習手法(TARS)を組み合わせたxTARSという新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-05-01T22:49:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。