論文の概要: LV-Eval: A Balanced Long-Context Benchmark with 5 Length Levels Up to
256K
- arxiv url: http://arxiv.org/abs/2402.05136v1
- Date: Tue, 6 Feb 2024 13:11:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 17:56:27.551460
- Title: LV-Eval: A Balanced Long-Context Benchmark with 5 Length Levels Up to
256K
- Title(参考訳): LV-Eval: 256Kまでの5つのレベルを持つバランスのとれたロングコンテキストベンチマーク
- Authors: Tao Yuan, Xuefei Ning, Dong Zhou, Zhijie Yang, Shiyao Li, Minghui
Zhuang, Zheyue Tan, Zhuyu Yao, Dahua Lin, Boxun Li, Guohao Dai, Shengen Yan,
Yu Wang
- Abstract要約: LV-Evalは5つの長さレベルが256kまで達する長文の長文ベンチマークである。
LV-Evalの設計には3つの重要なテクニックが組み込まれている。
LV-Evalの利点は、異なるコンテキストの長さにわたる制御可能な評価、紛らわしい事実を持つテストインスタンスへの挑戦、より客観的な評価である。
- 参考スコア(独自算出の注目度): 48.11471429292751
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art large language models (LLMs) are now claiming remarkable
supported context lengths of 256k or even more. In contrast, the average
context lengths of mainstream benchmarks are insufficient (5k-21k), and they
suffer from potential knowledge leakage and inaccurate metrics, resulting in
biased evaluation. This paper introduces LV-Eval, a challenging long-context
benchmark with five length levels (16k, 32k, 64k, 128k, and 256k) reaching up
to 256k words. LV-Eval features two main tasks, single-hop QA and multi-hop QA,
comprising 11 bilingual datasets. The design of LV-Eval has incorporated three
key techniques, namely confusing facts insertion, keyword and phrase
replacement, and keyword-recall-based metric design. The advantages of LV-Eval
include controllable evaluation across different context lengths, challenging
test instances with confusing facts, mitigated knowledge leakage, and more
objective evaluations. We evaluate 10 LLMs on LV-Eval and conduct ablation
studies on the techniques used in LV-Eval construction. The results reveal
that: (i) Commercial LLMs generally outperform open-source LLMs when evaluated
within length levels shorter than their claimed context length. However, their
overall performance is surpassed by open-source LLMs with longer context
lengths. (ii) Extremely long-context LLMs, such as Yi-6B-200k, exhibit a
relatively gentle degradation of performance, but their absolute performances
may not necessarily be higher than those of LLMs with shorter context lengths.
(iii) LLMs' performances can significantly degrade in the presence of confusing
information, especially in the pressure test of "needle in a haystack". (iv)
Issues related to knowledge leakage and inaccurate metrics introduce bias in
evaluation, and these concerns are alleviated in LV-Eval. All datasets and
evaluation codes are released at: https://github.com/infinigence/LVEval.
- Abstract(参考訳): State-of-the-art large language model (LLMs)は256k以上のコンテキスト長をサポートしている。
対照的に、主流ベンチマークの平均コンテキスト長は不十分(5k-21k)であり、潜在的な知識リークと不正確なメトリクスに悩まされ、バイアス評価をもたらす。
本稿では,5つの長さレベル(16k,32k,64k,128k,256k)が最大256kワードに達する,挑戦的な長コンテキストベンチマークlv-evalを紹介する。
LV-Evalは、シングルホップQAとマルチホップQAという、11のバイリンガルデータセットからなる2つの主要なタスクを備えている。
lv-evalの設計には、事実の挿入の紛らわしさ、キーワードと句の置換、キーワードリコールに基づくメトリックデザインという3つの重要な技法が組み込まれている。
LV-Evalの利点は、異なるコンテキストの長さにわたる制御可能な評価、紛らわしい事実を持つテストインスタンスへの挑戦、知識リークの軽減、より客観的な評価である。
LV-Evalの10LLMを評価し,LV-Evalの工法に関するアブレーション研究を行った。
その結果、以下のことが判明した。
(i)商用LLMは,要求コンテキスト長よりも短い長さで評価した場合,一般的にオープンソースLLMよりも優れる。
しかし、その全体的な性能は、長いコンテキスト長を持つオープンソースのLLMに勝っている。
(II)Yi-6B-200kのような長文LLMは比較的穏やかな性能低下を示すが、その絶対性能は文脈長が短いLLMよりも必ずしも高いとは限らない。
(iii)llmsの性能は,混乱した情報の存在下で,特に「干し草の積み重ね」の圧力試験において著しく低下する可能性がある。
(4)知識漏洩や不正確な指標に関する問題は評価のバイアスをもたらし、これらの懸念はLV-Evalで緩和される。
すべてのデータセットと評価コードは、https://github.com/infinigence/LVEval.comでリリースされる。
関連論文リスト
- LooGLE: Can Long-Context Language Models Understand Long Contexts? [50.408957515411096]
LooGLEは、大規模言語モデルの長いコンテキスト理解のためのベンチマークである。
2022年以降に比較的新しい文書が登場し、1ドキュメントあたり24,000以上のトークンと、さまざまな領域にまたがる6,000の新たな質問が提供されている。
LooGLEにおける8つの最先端LCMの評価から,重要な所見が得られた。
論文 参考訳(メタデータ) (2023-11-08T01:45:37Z) - Retrieval meets Long Context Large Language Models [59.431200671427064]
大規模言語モデル(LLM)のコンテキストウィンドウの拡張が最近人気を集めている。
Retrieval-augmentation対ロングコンテキストウィンドウ。
両方の方法を組み合わせることで、両方の世界を最大限に活用できますか?
我々の最良モデルである32Kコンテキストウィンドウ付きLlama2-70Bは、9つの長いコンテキストタスクの平均スコアにおいて、GPT-3.5-turbo-16kとDavinci003より優れています。
論文 参考訳(メタデータ) (2023-10-04T17:59:41Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - LM-Infinite: Zero-Shot Extreme Length Generalization for Large Language
Models [88.19189563759942]
この研究は、この長大一般化失敗に寄与する3つの主要な要因を特定する。
本研究では,LLMの長期処理能力を高めるための簡易かつ効果的な手法であるLM-Infiniteを提案する。
パラメータの更新がないため、2Kまたは4Kのセグメントで事前訓練されたLLMは、パープレキシティを維持しながら最大2億の入力を一般化することができる。
論文 参考訳(メタデータ) (2023-08-30T16:47:51Z) - L-Eval: Instituting Standardized Evaluation for Long Context Language
Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。
20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。
その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文 参考訳(メタデータ) (2023-07-20T17:59:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。