論文の概要: MiniLongBench: The Low-cost Long Context Understanding Benchmark for Large Language Models
- arxiv url: http://arxiv.org/abs/2505.19959v1
- Date: Mon, 26 May 2025 13:21:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.458612
- Title: MiniLongBench: The Low-cost Long Context Understanding Benchmark for Large Language Models
- Title(参考訳): MiniLongBench: 大規模言語モデルの低コスト長文理解ベンチマーク
- Authors: Zhongzhan Huang, Guoming Ling, Shanshan Zhong, Hefeng Wu, Liang Lin,
- Abstract要約: 長期文脈理解(Long Context Understanding、LCU)は、現在の大言語モデル(LLM)における探索の重要な領域である。
LLMの既存のLCUベンチマークは、しばしば非常に高い評価コストをもたらす。
本稿では,スパース情報特性を持つ長文データに適した簡潔なデータ圧縮手法を提案する。
- 参考スコア(独自算出の注目度): 52.60063131713119
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long Context Understanding (LCU) is a critical area for exploration in current large language models (LLMs). However, due to the inherently lengthy nature of long-text data, existing LCU benchmarks for LLMs often result in prohibitively high evaluation costs, like testing time and inference expenses. Through extensive experimentation, we discover that existing LCU benchmarks exhibit significant redundancy, which means the inefficiency in evaluation. In this paper, we propose a concise data compression method tailored for long-text data with sparse information characteristics. By pruning the well-known LCU benchmark LongBench, we create MiniLongBench. This benchmark includes only 237 test samples across six major task categories and 21 distinct tasks. Through empirical analysis of over 60 LLMs, MiniLongBench achieves an average evaluation cost reduced to only 4.5% of the original while maintaining an average rank correlation coefficient of 0.97 with LongBench results. Therefore, our MiniLongBench, as a low-cost benchmark, holds great potential to substantially drive future research into the LCU capabilities of LLMs. See https://github.com/MilkThink-Lab/MiniLongBench for our code, data and tutorial.
- Abstract(参考訳): ロングコンテキスト理解(Long Context Understanding、LCU)は、現在の大規模言語モデル(LLM)の探索において重要な領域である。
しかし、長文データの本質的に長い性質のため、LLMの既存のLCUベンチマークは、テスト時間や推論コストなど、非常に高い評価コストをもたらすことが多い。
大規模な実験により,既存のLCUベンチマークは大きな冗長性を示し,評価の非効率性を示すことがわかった。
本稿では,スパース情報特性を持つ長文データに適した簡潔なデータ圧縮手法を提案する。
有名なLCUベンチマークであるLongBenchを使って、MiniLongBenchを作成します。
このベンチマークには、6つの主要なタスクカテゴリと21の異なるタスクの237のテストサンプルが含まれている。
60 LLMの実証分析により、MiniLongBenchは平均評価コストを4.5%まで削減し、LongBenchの結果と平均相関係数0.97を維持した。
したがって、私たちのMiniLongBenchは、低コストのベンチマークとして、LLMのLCU能力に関する研究を実質的に推進する大きな可能性を秘めている。
コード、データ、チュートリアルについてはhttps://github.com/MilkThink-Lab/MiniLongBenchを参照してください。
関連論文リスト
- 100-LongBench: Are de facto Long-Context Benchmarks Literally Evaluating Long-Context Ability? [28.694112253150983]
リアルタイムベースの長期コンテキスト評価ベンチマークには2つの大きな欠点がある。
LongBenchのようなベンチマークは、しばしばモデルのベースライン能力とロングコンテキストのパフォーマンスを分離するための適切なメトリクスを提供しない。
長さ制御可能な長文ベンチマークと,ベースライン知識を真の長文能力から切り離す新しいメトリクスを導入する。
論文 参考訳(メタデータ) (2025-05-25T19:58:31Z) - How to Train Long-Context Language Models (Effectively) [75.5418485597276]
言語モデル(LM)の継続学習と教師付き微調整(SFT)を行い,長文情報の有効利用について検討した。
コードリポジトリと書籍は長いデータの優れた情報源であることがわかったが、それらと高品質の短文データを組み合わせることが不可欠である。
最終モデルであるProLong-8Bは、128Kの同様のサイズのモデル間で、最先端の長文性能を示す。
論文 参考訳(メタデータ) (2024-10-03T16:46:52Z) - Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks [76.43527940649939]
大規模言語モデル(LLM)の長文理解を評価するベンチマークであるAda-LEvalを紹介する。
Ada-LEvalにはTSortとBestAnswerという2つの挑戦的なサブセットが含まれている。
Ada-LEvalを用いた4つの最先端クローズドソースAPIモデルと6つのオープンソースモデルを評価した。
論文 参考訳(メタデータ) (2024-04-09T17:30:48Z) - XL$^2$Bench: A Benchmark for Extremely Long Context Understanding with Long-range Dependencies [45.31042312867939]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著なパフォーマンスを示しているが、その小さなコンテキストウィンドウサイズによって制約されている。
最大200Kの入力トークンに対応するために、コンテキストウィンドウを拡張するための様々な取り組みが提案されている。
XL$2$Bench という,長距離依存によるコンテキスト理解のためのベンチマークを導入する。
論文 参考訳(メタデータ) (2024-04-08T12:29:07Z) - LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding [58.20031627237889]
LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。
英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
論文 参考訳(メタデータ) (2023-08-28T11:53:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。