Fugu-MT 論文翻訳(概要): LV-Eval: A Balanced Long-Context Benchmark with 5 Length Levels Up to 256K

論文の概要: LV-Eval: A Balanced Long-Context Benchmark with 5 Length Levels Up to 256K

arxiv url: http://arxiv.org/abs/2402.05136v1
Date: Tue, 6 Feb 2024 13:11:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-09 17:56:27.551460
Title: LV-Eval: A Balanced Long-Context Benchmark with 5 Length Levels Up to 256K
Title（参考訳）: LV-Eval: 256Kまでの5つのレベルを持つバランスのとれたロングコンテキストベンチマーク
Authors: Tao Yuan, Xuefei Ning, Dong Zhou, Zhijie Yang, Shiyao Li, Minghui Zhuang, Zheyue Tan, Zhuyu Yao, Dahua Lin, Boxun Li, Guohao Dai, Shengen Yan, Yu Wang
Abstract要約: LV-Evalは5つの長さレベルが256kまで達する長文の長文ベンチマークである。 LV-Evalの設計には3つの重要なテクニックが組み込まれている。 LV-Evalの利点は、異なるコンテキストの長さにわたる制御可能な評価、紛らわしい事実を持つテストインスタンスへの挑戦、より客観的な評価である。
参考スコア（独自算出の注目度）: 48.11471429292751
License: http://creativecommons.org/licenses/by/4.0/
Abstract: State-of-the-art large language models (LLMs) are now claiming remarkable supported context lengths of 256k or even more. In contrast, the average context lengths of mainstream benchmarks are insufficient (5k-21k), and they suffer from potential knowledge leakage and inaccurate metrics, resulting in biased evaluation. This paper introduces LV-Eval, a challenging long-context benchmark with five length levels (16k, 32k, 64k, 128k, and 256k) reaching up to 256k words. LV-Eval features two main tasks, single-hop QA and multi-hop QA, comprising 11 bilingual datasets. The design of LV-Eval has incorporated three key techniques, namely confusing facts insertion, keyword and phrase replacement, and keyword-recall-based metric design. The advantages of LV-Eval include controllable evaluation across different context lengths, challenging test instances with confusing facts, mitigated knowledge leakage, and more objective evaluations. We evaluate 10 LLMs on LV-Eval and conduct ablation studies on the techniques used in LV-Eval construction. The results reveal that: (i) Commercial LLMs generally outperform open-source LLMs when evaluated within length levels shorter than their claimed context length. However, their overall performance is surpassed by open-source LLMs with longer context lengths. (ii) Extremely long-context LLMs, such as Yi-6B-200k, exhibit a relatively gentle degradation of performance, but their absolute performances may not necessarily be higher than those of LLMs with shorter context lengths. (iii) LLMs' performances can significantly degrade in the presence of confusing information, especially in the pressure test of "needle in a haystack". (iv) Issues related to knowledge leakage and inaccurate metrics introduce bias in evaluation, and these concerns are alleviated in LV-Eval. All datasets and evaluation codes are released at: https://github.com/infinigence/LVEval.
Abstract（参考訳）: State-of-the-art large language model (LLMs)は256k以上のコンテキスト長をサポートしている。対照的に、主流ベンチマークの平均コンテキスト長は不十分(5k-21k)であり、潜在的な知識リークと不正確なメトリクスに悩まされ、バイアス評価をもたらす。本稿では,5つの長さレベル(16k,32k,64k,128k,256k)が最大256kワードに達する,挑戦的な長コンテキストベンチマークlv-evalを紹介する。 LV-Evalは、シングルホップQAとマルチホップQAという、11のバイリンガルデータセットからなる2つの主要なタスクを備えている。 lv-evalの設計には、事実の挿入の紛らわしさ、キーワードと句の置換、キーワードリコールに基づくメトリックデザインという3つの重要な技法が組み込まれている。 LV-Evalの利点は、異なるコンテキストの長さにわたる制御可能な評価、紛らわしい事実を持つテストインスタンスへの挑戦、知識リークの軽減、より客観的な評価である。 LV-Evalの10LLMを評価し,LV-Evalの工法に関するアブレーション研究を行った。その結果、以下のことが判明した。 (i)商用LLMは,要求コンテキスト長よりも短い長さで評価した場合,一般的にオープンソースLLMよりも優れる。しかし、その全体的な性能は、長いコンテキスト長を持つオープンソースのLLMに勝っている。 (II)Yi-6B-200kのような長文LLMは比較的穏やかな性能低下を示すが、その絶対性能は文脈長が短いLLMよりも必ずしも高いとは限らない。 (iii)llmsの性能は,混乱した情報の存在下で,特に「干し草の積み重ね」の圧力試験において著しく低下する可能性がある。 (4)知識漏洩や不正確な指標に関する問題は評価のバイアスをもたらし、これらの懸念はLV-Evalで緩和される。すべてのデータセットと評価コードは、https://github.com/infinigence/LVEval.comでリリースされる。

関連論文リスト

Sequential-NIAH: A Needle-In-A-Haystack Benchmark for Extracting Sequential Needles from Long Contexts [23.076558892985986]
本研究では,長期の文脈から逐次情報を抽出する大規模言語モデルの能力を評価するためのベンチマークであるSequential-NIAHを紹介する。ベンチマークには、長さ8Kから128Kトークンまでのコンテキストと、14,000のサンプル(テスト用に2000が予約されている)のデータセットが含まれている。
論文参考訳（メタデータ） (2025-04-07T03:50:12Z)
NoLiMa: Long-Context Evaluation Beyond Literal Matching [100.00398424275501]
NoLiMaは、NIAHテストを拡張したベンチマークである。干し草の山の中に針を見つけるためには、潜伏関係を推測するモデルが必要である。我々は、少なくとも128Kトークンのコンテキストをサポートすると主張する12のポピュラーな大言語モデルを評価する。
論文参考訳（メタデータ） (2025-02-07T18:49:46Z)
HumanEval-V: Evaluating Visual Understanding and Reasoning Abilities of Large Multimodal Models Through Coding Tasks [25.959032350818795]
HumanEval-Vは、コード生成による大規模言語モデルの視覚的理解と推論能力を評価するために設計されたベンチマークである。 HumanEval-Vには、CodeForcesやStack Overflowといったプラットフォームから派生した、108の慎重に構築されたエントリーレベルのPythonコーディングタスクが含まれている。我々はHumanEval-Vを用いて19の最先端LMMを評価し、重要な課題を明らかにした。
論文参考訳（メタデータ） (2024-10-16T09:04:57Z)
MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。 MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文参考訳（メタデータ） (2024-10-14T04:15:00Z)
One Thousand and One Pairs: A "novel" challenge for long-context language models [56.60667988954638]
NoChaは、67冊の架空の書籍に関する1,001対の真偽の主張のデータセットである。当社のアノテータは、NoChaにおけるペアの最大シェアは、本全体に対するグローバルな推論を必要としていることを確認しています。平均的なモデルでは、文レベルの検索しか必要としないペアの方が、グローバルな推論よりもはるかに優れています。
論文参考訳（メタデータ） (2024-06-24T02:03:57Z)
Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks [76.43527940649939]
大規模言語モデル(LLM)の長文理解を評価するベンチマークであるAda-LEvalを紹介する。 Ada-LEvalにはTSortとBestAnswerという2つの挑戦的なサブセットが含まれている。 Ada-LEvalを用いた4つの最先端クローズドソースAPIモデルと6つのオープンソースモデルを評価した。
論文参考訳（メタデータ） (2024-04-09T17:30:48Z)
Are We on the Right Way for Evaluating Large Vision-Language Models? [92.5761176224556]
大規模視覚言語モデル(LVLM)は、最近急速に進歩し、そのマルチモーダル能力を評価するために多くの研究を巻き起こした。視覚コンテンツは多くのサンプルに対して不要であり、意図的なデータ漏洩が存在する。本稿では,人間によって精巧に選択された1500個のサンプルからなる,高度に視覚に欠かせないマルチモーダルベンチマークMMStarを提案する。
論文参考訳（メタデータ） (2024-03-29T17:59:34Z)
Top Leaderboard Ranking = Top Coding Proficiency, Always? EvoEval: Evolving Coding Benchmarks via LLM [13.324171480106715]
EvoEvalは、既存のベンチマークを異なるターゲットドメインに進化させたプログラム合成ベンチマークスイートである。我々の研究では、HumanEvalのような標準ベンチマークで得られたハイパフォーマンスと比較して、パフォーマンスが大幅に低下していることが示されている。本稿では,リワードや微妙な変化に遭遇した場合の命令追従モデルの脆さなど,様々な知見を紹介する。
論文参考訳（メタデータ） (2024-03-28T03:10:39Z)
L-Eval: Instituting Standardized Evaluation for Long Context Language Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。 20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文参考訳（メタデータ） (2023-07-20T17:59:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。