論文の概要: LV-Eval: A Balanced Long-Context Benchmark with 5 Length Levels Up to 256K
- arxiv url: http://arxiv.org/abs/2402.05136v2
- Date: Thu, 03 Oct 2024 07:54:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-04 23:30:39.433619
- Title: LV-Eval: A Balanced Long-Context Benchmark with 5 Length Levels Up to 256K
- Title(参考訳): LV-Eval: 256Kまでの5つのレベルを持つバランスのとれたロングコンテキストベンチマーク
- Authors: Tao Yuan, Xuefei Ning, Dong Zhou, Zhijie Yang, Shiyao Li, Minghui Zhuang, Zheyue Tan, Zhuyu Yao, Dahua Lin, Boxun Li, Guohao Dai, Shengen Yan, Yu Wang,
- Abstract要約: LV-Evalは5つの長さレベルが256kまで達する長文の長文ベンチマークである。
LV-Evalの利点は、異なるコンテキストの長さにわたる制御可能な評価、紛らわしい事実を持つテストインスタンスへの挑戦、より客観的な評価である。
- 参考スコア(独自算出の注目度): 46.966627564849944
- License:
- Abstract: State-of-the-art large language models (LLMs) are now claiming remarkable supported context lengths of 256k or even more. In contrast, the average context lengths of mainstream benchmarks are insufficient (5k-21k), and they suffer from potential knowledge leakage and inaccurate metrics, resulting in biased evaluation. This paper introduces LV-Eval, a challenging long-context benchmark with five length levels (16k, 32k, 64k, 128k, and 256k) reaching up to 256k words. LV-Eval features two main tasks, single-hop QA and multi-hop QA, comprising 11 bilingual datasets. The design of LV-Eval has incorporated three key techniques, namely confusing facts insertion, keyword and phrase replacement, and keyword-recall-based metric design. The advantages of LV-Eval include controllable evaluation across different context lengths, challenging test instances with confusing facts, mitigated knowledge leakage, and more objective evaluations. We evaluate 15 LLMs on LV-Eval and conduct ablation studies on the benchmarking techniques. The results reveal that: (i) Moonshot-v1 and recent large-scale open-source models, such as Qwen-2.5-72B and Llama-3.1-70B, achieve the highest performance on LV-Eval, particularly at lengths below 64k. (ii) Models exhibit distinct score trends. For example, GLM-4-9B-128k, Yi-6B-200k, and Llama3-8B-1M exhibit a relatively gentle degradation of performance, but their absolute performances may not necessarily be higher than those of LLMs with shorter context lengths. (iii) LLMs' performances can significantly degrade in the presence of confusing information, especially in the pressure test of "needle in a haystack". (iv) Issues related to knowledge leakage and inaccurate metrics introduce bias in evaluation, and these concerns are alleviated in LV-Eval. All datasets and evaluation codes are released at: https://github.com/infinigence/LVEval.
- Abstract(参考訳): State-of-the-art large language model (LLMs) は256k以上のコンテキスト長が顕著にサポートされていると主張している。
対照的に、主流ベンチマークの平均コンテキスト長は不十分(5k-21k)で、潜在的な知識リークと不正確なメトリクスに悩まされ、バイアス評価がもたらされる。
本稿では,LV-Evalを提案する。LV-Evalは,最大256k語までの5つの長文レベル(16k,32k,64k,128k,256k)の長文ベンチマークである。
LV-Evalは、シングルホップQAとマルチホップQAという、11のバイリンガルデータセットからなる2つの主要なタスクを備えている。
LV-Evalの設計には3つの重要なテクニックが組み込まれている。
LV-Evalの利点は、異なるコンテキストの長さにわたる制御可能な評価、紛らわしい事実を持つテストインスタンスへの挑戦、知識リークの軽減、より客観的な評価である。
LV-Eval 上で15 LLM の評価を行い,ベンチマーク手法のアブレーション研究を行った。
その結果、以下のことが判明した。
(i)Moonshot-v1および最近の大規模オープンソースモデル(Qwen-2.5-72BやLlama-3.1-70B)は、特に64k未満のLV-Evalで最高性能を達成している。
(ii)異なるスコア傾向を示すモデル。
例えば、GLM-4-9B-128k、Yi-6B-200k、Llama3-8B-1Mは比較的穏やかな性能低下を示すが、その絶対的な性能は文脈長が短いLLMよりも必ずしも高いとは限らない。
三 LLMの性能は、特に「干し草に潜む」圧力試験において、紛らわしい情報の存在下で著しく劣化する。
(4)知識漏洩や不正確な指標に関する問題は評価のバイアスをもたらし、これらの懸念はLV-Evalで緩和される。
すべてのデータセットと評価コードは、https://github.com/infinigence/LVEval.comでリリースされている。
関連論文リスト
- HumanEval-V: Evaluating Visual Understanding and Reasoning Abilities of Large Multimodal Models Through Coding Tasks [25.959032350818795]
HumanEval-Vは、コード生成による大規模言語モデルの視覚的理解と推論能力を評価するために設計されたベンチマークである。
HumanEval-Vには、CodeForcesやStack Overflowといったプラットフォームから派生した、108の慎重に構築されたエントリーレベルのPythonコーディングタスクが含まれている。
我々はHumanEval-Vを用いて19の最先端LMMを評価し、重要な課題を明らかにした。
論文 参考訳(メタデータ) (2024-10-16T09:04:57Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - One Thousand and One Pairs: A "novel" challenge for long-context language models [56.60667988954638]
NoChaは、67冊の架空の書籍に関する1,001対の真偽の主張のデータセットである。
当社のアノテータは、NoChaにおけるペアの最大シェアは、本全体に対するグローバルな推論を必要としていることを確認しています。
平均的なモデルでは、文レベルの検索しか必要としないペアの方が、グローバルな推論よりもはるかに優れています。
論文 参考訳(メタデータ) (2024-06-24T02:03:57Z) - Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks [76.43527940649939]
大規模言語モデル(LLM)の長文理解を評価するベンチマークであるAda-LEvalを紹介する。
Ada-LEvalにはTSortとBestAnswerという2つの挑戦的なサブセットが含まれている。
Ada-LEvalを用いた4つの最先端クローズドソースAPIモデルと6つのオープンソースモデルを評価した。
論文 参考訳(メタデータ) (2024-04-09T17:30:48Z) - Are We on the Right Way for Evaluating Large Vision-Language Models? [92.5761176224556]
大規模視覚言語モデル(LVLM)は、最近急速に進歩し、そのマルチモーダル能力を評価するために多くの研究を巻き起こした。
視覚コンテンツは多くのサンプルに対して不要であり、意図的なデータ漏洩が存在する。
本稿では,人間によって精巧に選択された1500個のサンプルからなる,高度に視覚に欠かせないマルチモーダルベンチマークMMStarを提案する。
論文 参考訳(メタデータ) (2024-03-29T17:59:34Z) - Top Leaderboard Ranking = Top Coding Proficiency, Always? EvoEval: Evolving Coding Benchmarks via LLM [13.324171480106715]
EvoEvalは、既存のベンチマークを異なるターゲットドメインに進化させたプログラム合成ベンチマークスイートである。
我々の研究では、HumanEvalのような標準ベンチマークで得られたハイパフォーマンスと比較して、パフォーマンスが大幅に低下していることが示されている。
本稿では,リワードや微妙な変化に遭遇した場合の命令追従モデルの脆さなど,様々な知見を紹介する。
論文 参考訳(メタデータ) (2024-03-28T03:10:39Z) - L-Eval: Instituting Standardized Evaluation for Long Context Language
Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。
20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。
その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文 参考訳(メタデータ) (2023-07-20T17:59:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。