論文の概要: Counting-Stars: A Simple, Efficient, and Reasonable Strategy for Evaluating Long-Context Large Language Models
- arxiv url: http://arxiv.org/abs/2403.11802v1
- Date: Mon, 18 Mar 2024 14:01:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 20:19:57.324625
- Title: Counting-Stars: A Simple, Efficient, and Reasonable Strategy for Evaluating Long-Context Large Language Models
- Title(参考訳): Counting-Stars: 長期の大規模言語モデルを評価するためのシンプルで効率的で合理的な戦略
- Authors: Mingyang Song, Mao Zheng, Xuan Luo,
- Abstract要約: GPT-4 TurboとKimi Chatは、4Kから128Kまでの長いコンテキストで大きなパフォーマンスを実現している。
我々は,長文LLMを新しいベンチマークとして,Counting-Stars(カウンティング・スターズ)という,シンプルで効率的かつ合理的な評価手法を提案する。
- 参考スコア(独自算出の注目度): 14.906150451947443
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While recent research endeavors have concentrated on developing Large Language Models (LLMs) with robust long-context capabilities, due to the lack of appropriate evaluation strategies, relatively little is known about how well the long-context processing abilities and performance of leading LLMs (e.g., ChatGPT and KimiChat). To address this gap, we propose a simple, efficient, and reasonable strategy for evaluating long-context LLMs as a new benchmark, named Counting-Stars. The Counting-Stars is designed to require LLMs to fully understand and capture long dependencies in long contexts and be able to collect inter-dependency across multiple pieces of evidence spanning the entire context to finish the task. Based on the Counting-Stars, we conduct experiments to evaluate the two leading long-context LLMs, i.e., GPT-4 Turbo and Kimi Chat. The experimental results indicate that GPT-4 Turbo and Kimi Chat achieve significant performance in the long context from 4K to 128K. We further present two intriguing analyses regarding the behavior of LLMs processing long context.
- Abstract(参考訳): 最近の研究は、堅牢なLarge Language Models(LLMs)の開発に集中しているが、適切な評価戦略が欠けているため、LLM(例えばChatGPTやKimiChat)の長文処理能力とパフォーマンスについてはあまり知られていない。
このギャップに対処するために、長文LLMを新しいベンチマークであるCounting-Starsとして評価するための、シンプルで効率的で合理的な戦略を提案する。
Counting-Starsは、LLMが長いコンテキストにおける長い依存関係を完全に理解し、キャプチャし、タスクを完了するためにコンテキスト全体にまたがる複数のエビデンスにまたがる依存性を収集できるように設計されている。
計数星に基づいて, GPT-4 Turbo と Kimi Chat の2つの長文 LLM の評価実験を行った。
実験の結果, GPT-4 Turbo と Kimi Chat は, 4K から 18K までの長い文脈で高い性能を示した。
さらに,LLM処理長コンテキストの動作に関する2つの興味深い分析を行った。
関連論文リスト
- Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks [76.43527940649939]
大規模言語モデル(LLM)の長文理解を評価するベンチマークであるAda-LEvalを紹介する。
Ada-LEvalにはTSortとBestAnswerという2つの挑戦的なサブセットが含まれている。
Ada-LEvalを用いた4つの最先端クローズドソースAPIモデルと6つのオープンソースモデルを評価した。
論文 参考訳(メタデータ) (2024-04-09T17:30:48Z) - Long-context LLMs Struggle with Long In-context Learning [39.84597097614607]
大規模言語モデル(LLM)は32Kトークンを超える長いシーケンスを扱うために大きな進歩を遂げた。
本研究は,極端ラベル分類の領域における長い文脈内学習に焦点を当てた特殊なベンチマーク(LongICLBench)を提案する。
論文 参考訳(メタデータ) (2024-04-02T15:59:11Z) - PPTC-R benchmark: Towards Evaluating the Robustness of Large Language
Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。
我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。
GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文 参考訳(メタデータ) (2024-03-06T15:33:32Z) - LooGLE: Can Long-Context Language Models Understand Long Contexts? [50.408957515411096]
LooGLEは、大規模言語モデルの長いコンテキスト理解のためのベンチマークである。
2022年以降に比較的新しい文書が登場し、1ドキュメントあたり24,000以上のトークンと、さまざまな領域にまたがる6,000の新たな質問が提供されている。
LooGLEにおける8つの最先端LCMの評価から,重要な所見が得られた。
論文 参考訳(メタデータ) (2023-11-08T01:45:37Z) - M4LE: A Multi-Ability Multi-Range Multi-Task Multi-Domain Long-Context
Evaluation Benchmark for Large Language Models [61.06694491246026]
M4LEは、大規模言語モデル(LLM)の時系列能力を評価するためのベンチマークである。
M4LEは、36のNLPタスクタイプと12のドメインからなる多様なNLPタスクプールに基づいている。
我々は,11個のLLM,特に長文入力に最適化されたLLMについて,系統評価を行った。
論文 参考訳(メタデータ) (2023-10-30T03:11:30Z) - MenatQA: A New Dataset for Testing the Temporal Comprehension and
Reasoning Abilities of Large Language Models [17.322480769274062]
大規模言語モデル(LLM)は、多くの自然言語処理(NLP)タスクにおいてほぼ飽和した性能を示している。
本稿では,LLMの時間的理解と推論能力を評価するために,合計2,853個のサンプルを用いた多感性因子時間QA(MenatQA)を構築した。
論文 参考訳(メタデータ) (2023-10-08T13:19:52Z) - BAMBOO: A Comprehensive Benchmark for Evaluating Long Text Modeling Capacities of Large Language Models [141.21603469555225]
大規模言語モデル(LLM)は、通常の長さのNLPタスクよりも劇的な熟練を実現している。
マルチタスク長コンテキストベンチマークであるBAMBOOを提案する。
5つの異なる長いテキスト理解タスクから10のデータセットで構成されている。
論文 参考訳(メタデータ) (2023-09-23T11:36:15Z) - L-Eval: Instituting Standardized Evaluation for Long Context Language
Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。
20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。
その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文 参考訳(メタデータ) (2023-07-20T17:59:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。