論文の概要: LOOM-Scope: a comprehensive and efficient LOng-cOntext Model evaluation framework
- arxiv url: http://arxiv.org/abs/2507.04723v1
- Date: Mon, 07 Jul 2025 07:33:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.311827
- Title: LOOM-Scope: a comprehensive and efficient LOng-cOntext Model evaluation framework
- Title(参考訳): LOOM-Scope: 包括的で効率的なLOng-cOntext Model評価フレームワーク
- Authors: Zecheng Tang, Haitian Wang, Quantong Qiu, Baibei Ji, Ruoxi Sun, Keyan Zhou, Juntao Li, Min Zhang,
- Abstract要約: LOOM-Scopeは長期コンテキスト評価のための包括的で効率的なフレームワークである。
LOOM-Scopeは様々なベンチマークで評価設定を標準化する。
効率的な長文推論促進手法の展開をサポートする。
- 参考スコア(独自算出の注目度): 29.538368045712822
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-context processing has become a fundamental capability for large language models~(LLMs). To assess model's long-context performance, numerous long-context evaluation benchmarks have been proposed. However, variations in evaluation settings across these benchmarks lead to inconsistent results, making it difficult to draw reliable comparisons. Besides, the high computational cost of long-context evaluation poses a significant barrier for the community to conduct comprehensive assessments of long-context models. In this paper, we propose LOOM-Scope, a comprehensive and efficient framework for long-context evaluation. LOOM-Scope standardizes evaluation settings across diverse benchmarks, supports deployment of efficient long-context inference acceleration methods, and introduces a holistic yet lightweight benchmark suite to evaluate models comprehensively. Homepage: https://loomscope.github.io
- Abstract(参考訳): 長文処理は、大きな言語モデル~(LLM)の基本的な機能となっている。
モデル長文性能を評価するため,多くの長文評価ベンチマークが提案されている。
しかし、これらのベンチマークにおける評価設定のばらつきは、一貫性のない結果をもたらすため、信頼性のある比較を描くことは困難である。
さらに、長期コンテキスト評価の計算コストが高いことは、長期コンテキストモデルの包括的な評価を行う上で、コミュニティにとって大きな障壁となる。
本稿では,LOOM-Scopeを提案する。
LOOM-Scopeは様々なベンチマークで評価設定を標準化し、効率的な長期コンテキスト推論促進手法の展開をサポートし、総合的にモデルを評価するための総合的で軽量なベンチマークスイートを導入している。
ホームページ:https://loomscope.github.io
関連論文リスト
- HELMET: How to Evaluate Long-Context Language Models Effectively and Thoroughly [34.205934899868346]
HELMETは7つの多様なアプリケーション中心のカテゴリを包含する総合ベンチマークである。
NIAHのような合成タスクは、下流のパフォーマンスを確実に予測できない。
ほとんどのLCLMは完全なNIAHスコアを達成しているが、タスクが完全コンテキスト推論を必要とする場合、オープンソースモデルはクローズドなスコアよりも大幅に遅れている。
論文 参考訳(メタデータ) (2024-10-03T17:20:11Z) - Michelangelo: Long Context Evaluations Beyond Haystacks via Latent Structure Queries [54.325172923155414]
ミケランジェロ(Michelangelo)は、大規模言語モデルに対する最小限の、合成的で、未学習の長文推論評価である。
この評価は、任意に長いコンテキストに対する評価のための、新しく統一された枠組みによって導出される。
論文 参考訳(メタデータ) (2024-09-19T10:38:01Z) - A Controlled Study on Long Context Extension and Generalization in LLMs [85.4758128256142]
広義のテキスト理解とテキスト内学習は、完全な文書コンテキストを利用する言語モデルを必要とする。
長期コンテキストモデルを直接訓練する際の実装上の課題のため、長期コンテキストを扱うためにモデルを拡張する多くの方法が提案されている。
我々は,一貫したベースモデルと拡張データを利用して,標準化された評価による拡張メソッドの制御プロトコルを実装した。
論文 参考訳(メタデータ) (2024-09-18T17:53:17Z) - Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA [71.04146366608904]
長いコンテキストモデリング能力は広く注目を集めており、超コンテキストウィンドウを持つLarge Language Models (LLMs) の出現につながっている。
拡張多文書質問応答(QA)によって現実的なシナリオに整合する新しい長文ベンチマークであるLoongを提案する。
Loong氏は、Spotlight Locating, Comparison, Clustering, Chain of Reasoningという、コンテキスト長の4つのタスクを紹介している。
論文 参考訳(メタデータ) (2024-06-25T09:42:56Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。