論文の概要: ETHIC: Evaluating Large Language Models on Long-Context Tasks with High Information Coverage
- arxiv url: http://arxiv.org/abs/2410.16848v1
- Date: Tue, 22 Oct 2024 09:35:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:25:43.664900
- Title: ETHIC: Evaluating Large Language Models on Long-Context Tasks with High Information Coverage
- Title(参考訳): ETHIC:情報カバレッジの高い長期タスクにおける大規模言語モデルの評価
- Authors: Taewhoo Lee, Chanwoong Yoon, Kyochul Jang, Donghyeon Lee, Minju Song, Hyunjae Kim, Jaewoo Kang,
- Abstract要約: 本稿では,クエリの応答に必要な入力コンテキストの割合を定量化する,情報カバレッジ(IC)と呼ばれる新しい指標を提案する。
ETHICは、LLMがコンテキスト全体を活用する能力を評価するために設計された新しいベンチマークである。
- 参考スコア(独自算出の注目度): 21.036912648701264
- License:
- Abstract: Recent advancements in large language models (LLM) capable of processing extremely long texts highlight the need for a dedicated evaluation benchmark to assess their long-context capabilities. However, existing methods, like the needle-in-a-haystack test, do not effectively assess whether these models fully utilize contextual information, raising concerns about the reliability of current evaluation techniques. To thoroughly examine the effectiveness of existing benchmarks, we introduce a new metric called information coverage (IC), which quantifies the proportion of the input context necessary for answering queries. Our findings indicate that current benchmarks exhibit low IC; although the input context may be extensive, the actual usable context is often limited. To address this, we present ETHIC, a novel benchmark designed to assess LLMs' ability to leverage the entire context. Our benchmark comprises 2,648 test instances spanning four long-context tasks with high IC scores in the domains of books, debates, medicine, and law. Our evaluations reveal significant performance drops in contemporary LLMs, highlighting a critical challenge in managing long contexts. Our benchmark is available at https://github.com/dmis-lab/ETHIC.
- Abstract(参考訳): 非常に長いテキストを処理できる大規模言語モデル(LLM)の最近の進歩は、その長文能力を評価するための専用の評価ベンチマークの必要性を浮き彫りにしている。
しかし、既存の手法、例えばニードル・イン・ア・ヘイスタックテストは、これらのモデルが文脈情報を完全に活用しているかどうかを効果的に評価せず、現在の評価手法の信頼性に関する懸念を提起する。
既存のベンチマークの有効性を徹底的に検証するために,クエリの応答に必要な入力コンテキストの割合を定量化する情報カバレッジ(IC)と呼ばれる新しい指標を導入する。
その結果,現在のベンチマークではICが低く,入力コンテキストは広いが,実際の使用状況は限られていることがわかった。
そこで本研究では,LLMがコンテキスト全体を活用する能力を評価するための新しいベンチマークであるETHICを提案する。
本ベンチマークでは,書籍,討論,医学,法律の各分野において,ICスコアの高い4つの長文タスクにまたがる2,648のテストインスタンスについて検討した。
評価の結果,従来のLLMでは,長期のコンテキスト管理における重要な課題として,大幅な性能低下がみられた。
私たちのベンチマークはhttps://github.com/dmis-lab/ETHIC.comで公開されています。
関連論文リスト
- MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - HELMET: How to Evaluate Long-Context Language Models Effectively and Thoroughly [34.205934899868346]
HELMETは7つの多様なアプリケーション中心のカテゴリを包含する総合ベンチマークである。
NIAHのような合成タスクは、下流のパフォーマンスの予測に適していないことが分かりました。
ほとんどのLCLMは完全なNIAHスコアを達成しているが、タスクがフルコンテキスト推論を必要とする場合、オープンソースモデルはクローズドなスコアよりも大幅に遅れている。
論文 参考訳(メタデータ) (2024-10-03T17:20:11Z) - A Controlled Study on Long Context Extension and Generalization in LLMs [85.4758128256142]
広義のテキスト理解とテキスト内学習は、完全な文書コンテキストを利用する言語モデルを必要とする。
長期コンテキストモデルを直接訓練する際の実装上の課題のため、長期コンテキストを扱うためにモデルを拡張する多くの方法が提案されている。
我々は,一貫したベースモデルと拡張データを利用して,標準化された評価による拡張メソッドの制御プロトコルを実装した。
論文 参考訳(メタデータ) (2024-09-18T17:53:17Z) - DetectiveQA: Evaluating Long-Context Reasoning on Detective Novels [89.51834016940153]
本稿では,100K以上の平均コンテキスト長を持つナラティブ推論ベンチマークであるTectiveQAを紹介する。
探偵小説をデータソースとして使用し、様々な理由付け要素を自然に持っている。
私たちは中国語で600の質問を手動で注釈付けし、文脈情報と質問の英語版も提供しました。
論文 参考訳(メタデータ) (2024-09-04T06:28:22Z) - Stress-Testing Long-Context Language Models with Lifelong ICL and Task Haystack [33.178008350124315]
長文言語モデル(LM)に挑戦し、テキスト内学習(ICL)を通して言語タスクのシーケンスから学習する問題設定であるLifelong ICLを導入する。
長文LMがLifelong ICLのコンテキストをどのように利用するかを評価し診断するための評価スイートであるTask Haystackを紹介する。
論文 参考訳(メタデータ) (2024-07-23T17:57:41Z) - Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA [71.04146366608904]
長いコンテキストモデリング能力は広く注目を集めており、超コンテキストウィンドウを持つLarge Language Models (LLMs) の出現につながっている。
拡張多文書質問応答(QA)によって現実的なシナリオに整合する新しい長文ベンチマークであるLoongを提案する。
Loong氏は、Spotlight Locating, Comparison, Clustering, Chain of Reasoningという、コンテキスト長の4つのタスクを紹介している。
論文 参考訳(メタデータ) (2024-06-25T09:42:56Z) - RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - NovelQA: Benchmarking Question Answering on Documents Exceeding 200K Tokens [63.7488938083696]
NovelQAは拡張テキストによる大規模言語モデルの能力をテストするために設計されたベンチマークである。
本稿では,ノベルQAの設計と構築について述べる。
NovelQAにおけるLong-context LLMの評価により,モデルの性能に関する重要な知見が得られた。
論文 参考訳(メタデータ) (2024-03-18T17:32:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。