論文の概要: LV-Eval: A Balanced Long-Context Benchmark with 5 Length Levels Up to
256K
- arxiv url: http://arxiv.org/abs/2402.05136v1
- Date: Tue, 6 Feb 2024 13:11:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 17:56:27.551460
- Title: LV-Eval: A Balanced Long-Context Benchmark with 5 Length Levels Up to
256K
- Title(参考訳): LV-Eval: 256Kまでの5つのレベルを持つバランスのとれたロングコンテキストベンチマーク
- Authors: Tao Yuan, Xuefei Ning, Dong Zhou, Zhijie Yang, Shiyao Li, Minghui
Zhuang, Zheyue Tan, Zhuyu Yao, Dahua Lin, Boxun Li, Guohao Dai, Shengen Yan,
Yu Wang
- Abstract要約: LV-Evalは5つの長さレベルが256kまで達する長文の長文ベンチマークである。
LV-Evalの設計には3つの重要なテクニックが組み込まれている。
LV-Evalの利点は、異なるコンテキストの長さにわたる制御可能な評価、紛らわしい事実を持つテストインスタンスへの挑戦、より客観的な評価である。
- 参考スコア(独自算出の注目度): 48.11471429292751
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art large language models (LLMs) are now claiming remarkable
supported context lengths of 256k or even more. In contrast, the average
context lengths of mainstream benchmarks are insufficient (5k-21k), and they
suffer from potential knowledge leakage and inaccurate metrics, resulting in
biased evaluation. This paper introduces LV-Eval, a challenging long-context
benchmark with five length levels (16k, 32k, 64k, 128k, and 256k) reaching up
to 256k words. LV-Eval features two main tasks, single-hop QA and multi-hop QA,
comprising 11 bilingual datasets. The design of LV-Eval has incorporated three
key techniques, namely confusing facts insertion, keyword and phrase
replacement, and keyword-recall-based metric design. The advantages of LV-Eval
include controllable evaluation across different context lengths, challenging
test instances with confusing facts, mitigated knowledge leakage, and more
objective evaluations. We evaluate 10 LLMs on LV-Eval and conduct ablation
studies on the techniques used in LV-Eval construction. The results reveal
that: (i) Commercial LLMs generally outperform open-source LLMs when evaluated
within length levels shorter than their claimed context length. However, their
overall performance is surpassed by open-source LLMs with longer context
lengths. (ii) Extremely long-context LLMs, such as Yi-6B-200k, exhibit a
relatively gentle degradation of performance, but their absolute performances
may not necessarily be higher than those of LLMs with shorter context lengths.
(iii) LLMs' performances can significantly degrade in the presence of confusing
information, especially in the pressure test of "needle in a haystack". (iv)
Issues related to knowledge leakage and inaccurate metrics introduce bias in
evaluation, and these concerns are alleviated in LV-Eval. All datasets and
evaluation codes are released at: https://github.com/infinigence/LVEval.
- Abstract(参考訳): State-of-the-art large language model (LLMs)は256k以上のコンテキスト長をサポートしている。
対照的に、主流ベンチマークの平均コンテキスト長は不十分(5k-21k)であり、潜在的な知識リークと不正確なメトリクスに悩まされ、バイアス評価をもたらす。
本稿では,5つの長さレベル(16k,32k,64k,128k,256k)が最大256kワードに達する,挑戦的な長コンテキストベンチマークlv-evalを紹介する。
LV-Evalは、シングルホップQAとマルチホップQAという、11のバイリンガルデータセットからなる2つの主要なタスクを備えている。
lv-evalの設計には、事実の挿入の紛らわしさ、キーワードと句の置換、キーワードリコールに基づくメトリックデザインという3つの重要な技法が組み込まれている。
LV-Evalの利点は、異なるコンテキストの長さにわたる制御可能な評価、紛らわしい事実を持つテストインスタンスへの挑戦、知識リークの軽減、より客観的な評価である。
LV-Evalの10LLMを評価し,LV-Evalの工法に関するアブレーション研究を行った。
その結果、以下のことが判明した。
(i)商用LLMは,要求コンテキスト長よりも短い長さで評価した場合,一般的にオープンソースLLMよりも優れる。
しかし、その全体的な性能は、長いコンテキスト長を持つオープンソースのLLMに勝っている。
(II)Yi-6B-200kのような長文LLMは比較的穏やかな性能低下を示すが、その絶対性能は文脈長が短いLLMよりも必ずしも高いとは限らない。
(iii)llmsの性能は,混乱した情報の存在下で,特に「干し草の積み重ね」の圧力試験において著しく低下する可能性がある。
(4)知識漏洩や不正確な指標に関する問題は評価のバイアスをもたらし、これらの懸念はLV-Evalで緩和される。
すべてのデータセットと評価コードは、https://github.com/infinigence/LVEval.comでリリースされる。
関連論文リスト
- HumanEval-V: Evaluating Visual Understanding and Reasoning Abilities of Large Multimodal Models Through Coding Tasks [25.959032350818795]
HumanEval-Vは、コード生成による大規模言語モデルの視覚的理解と推論能力を評価するために設計されたベンチマークである。
HumanEval-Vには、CodeForcesやStack Overflowといったプラットフォームから派生した、108の慎重に構築されたエントリーレベルのPythonコーディングタスクが含まれている。
我々はHumanEval-Vを用いて19の最先端LMMを評価し、重要な課題を明らかにした。
論文 参考訳(メタデータ) (2024-10-16T09:04:57Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - One Thousand and One Pairs: A "novel" challenge for long-context language models [56.60667988954638]
NoChaは、67冊の架空の書籍に関する1,001対の真偽の主張のデータセットである。
当社のアノテータは、NoChaにおけるペアの最大シェアは、本全体に対するグローバルな推論を必要としていることを確認しています。
平均的なモデルでは、文レベルの検索しか必要としないペアの方が、グローバルな推論よりもはるかに優れています。
論文 参考訳(メタデータ) (2024-06-24T02:03:57Z) - Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks [76.43527940649939]
大規模言語モデル(LLM)の長文理解を評価するベンチマークであるAda-LEvalを紹介する。
Ada-LEvalにはTSortとBestAnswerという2つの挑戦的なサブセットが含まれている。
Ada-LEvalを用いた4つの最先端クローズドソースAPIモデルと6つのオープンソースモデルを評価した。
論文 参考訳(メタデータ) (2024-04-09T17:30:48Z) - Are We on the Right Way for Evaluating Large Vision-Language Models? [92.5761176224556]
大規模視覚言語モデル(LVLM)は、最近急速に進歩し、そのマルチモーダル能力を評価するために多くの研究を巻き起こした。
視覚コンテンツは多くのサンプルに対して不要であり、意図的なデータ漏洩が存在する。
本稿では,人間によって精巧に選択された1500個のサンプルからなる,高度に視覚に欠かせないマルチモーダルベンチマークMMStarを提案する。
論文 参考訳(メタデータ) (2024-03-29T17:59:34Z) - Top Leaderboard Ranking = Top Coding Proficiency, Always? EvoEval: Evolving Coding Benchmarks via LLM [13.324171480106715]
EvoEvalは、既存のベンチマークを異なるターゲットドメインに進化させたプログラム合成ベンチマークスイートである。
我々の研究では、HumanEvalのような標準ベンチマークで得られたハイパフォーマンスと比較して、パフォーマンスが大幅に低下していることが示されている。
本稿では,リワードや微妙な変化に遭遇した場合の命令追従モデルの脆さなど,様々な知見を紹介する。
論文 参考訳(メタデータ) (2024-03-28T03:10:39Z) - L-Eval: Instituting Standardized Evaluation for Long Context Language
Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。
20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。
その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文 参考訳(メタデータ) (2023-07-20T17:59:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。