Fugu-MT 論文翻訳(概要): LongIns: A Challenging Long-context Instruction-based Exam for LLMs

論文の概要: LongIns: A Challenging Long-context Instruction-based Exam for LLMs

arxiv url: http://arxiv.org/abs/2406.17588v1
Date: Tue, 25 Jun 2024 14:31:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-26 14:10:33.459185
Title: LongIns: A Challenging Long-context Instruction-based Exam for LLMs
Title（参考訳）: LongIns: LLMのための長文インストラクションベースのエクサム
Authors: Shawn Gavin, Tuney Zheng, Jiaheng Liu, Quehry Que, Noah Wang, Jian Yang, Chenchen Zhang, Wenhao Huang, Wenhu Chen, Ge Zhang,
Abstract要約: 大規模言語モデル(LLM)の長いコンテキスト能力は近年ホットな話題となっている。本稿ではLongInsベンチマークデータセットを提案する。
参考スコア（独自算出の注目度）: 44.51209510772957
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The long-context capabilities of large language models (LLMs) have been a hot topic in recent years. To evaluate the performance of LLMs in different scenarios, various assessment benchmarks have emerged. However, as most of these benchmarks focus on identifying key information to answer questions, which mainly requires the retrieval ability of LLMs, these benchmarks can partially represent the reasoning performance of LLMs from large amounts of information. Meanwhile, although LLMs often claim to have context windows of 32k, 128k, 200k, or even longer, these benchmarks fail to reveal the actual supported length of these LLMs. To address these issues, we propose the LongIns benchmark dataset, a challenging long-context instruction-based exam for LLMs, which is built based on the existing instruction datasets. Specifically, in our LongIns, we introduce three evaluation settings: Global Instruction & Single Task (GIST), Local Instruction & Single Task (LIST), and Local Instruction & Multiple Tasks (LIMT). Based on LongIns, we perform comprehensive evaluations on existing LLMs and have the following important findings: (1). The top-performing GPT-4 with 128k context length performs poorly on the evaluation context window of 16k in our LongIns. (2). For the multi-hop reasoning ability of many existing LLMs, significant efforts are still needed under short context windows (less than 4k).
Abstract（参考訳）: 大規模言語モデル(LLM)の長いコンテキスト能力は近年ホットな話題となっている。 LLMの性能を異なるシナリオで評価するために、様々な評価ベンチマークが登場した。しかしながら、これらのベンチマークのほとんどは、主にLLMの検索能力を必要とする質問に答えるための重要な情報を特定することに重点を置いているため、これらのベンチマークは、大量の情報からLLMの推論性能を部分的に表すことができる。一方、LLMは32k、128k、200k、またはそれ以上のコンテキストウィンドウを持つと主張することが多いが、これらのベンチマークはこれらのLLMの実際のサポートされた長さを明らかにしていない。これらの問題に対処するため,LongInsベンチマークデータセットを提案する。具体的には,GIST(Global Instruction & Single Task),LIST(Local Instruction & Single Task),LIMT(Local Instruction & Multiple Tasks)の3つの評価設定を紹介した。本研究はLongInsに基づいて,既存のLCMの総合的な評価を行い,以下の重要な知見を得た。 128kの文脈長を持つ最高性能のGPT-4は、LongInsにおける16kの評価コンテキストウィンドウでは不十分である。 (2)。既存のLLMのマルチホップ推論能力については、短いコンテキストウィンドウ(4k未満)の下でも重要な努力が必要である。

関連論文リスト

LooGLE v2: Are LLMs Ready for Real World Long Dependency Challenges? [35.43518917055024]
LooGLE v2は、大規模言語モデルの現実世界のアプリケーションやシナリオにおける長期コンテキスト能力を評価するために設計された、新しいベンチマークである。私たちのベンチマークは、16kから2Mのトークンから、法律、ファイナンス、ゲーム、コードの領域まで、自動的に収集された現実世界の長文で構成されています。評価結果から,ベストパフォーマンスモデルでさえ,ベンチマークの総合スコアは59.2%に過ぎなかった。
論文参考訳（メタデータ） (2025-10-26T06:14:19Z)
NeedleChain: Measuring Intact Long-Context Reasoning Capability of Large Language Models [7.134358758293254]
Needle-in-a-Haystackベンチマークは、長期文脈(LC)を理解するLarge Language Models(LLM)能力を評価するために広く利用されている。 GPT-4oのような最先端モデルでさえ、クエリ関連10文のみからなる与えられたコンテキストをそのまま組み込むのに苦労していることを実証する。我々は新しいベンチマークである textbfNeedleChain を導入し、そのコンテキストはクエリ関連情報から成り立っている。
論文参考訳（メタデータ） (2025-07-30T06:29:50Z)
NeedleBench: Can LLMs Do Retrieval and Reasoning in 1 Million Context Window? [37.64593022203498]
NeedleBenchは、バイリンガルの長期コンテキスト能力を評価するための、徐々に難しいタスクからなるフレームワークである。私たちはこのフレームワークを使って、主要なオープンソースモデルがその疑問に関連する重要な情報をどの程度正確に特定できるかを評価する。本稿では,実世界の長文タスクに現れる可能性の高い論理的推論課題の複雑さを模倣するAncestral Trace Challengeを提案する。
論文参考訳（メタデータ） (2024-07-16T17:59:06Z)
RepoQA: Evaluating Long Context Code Understanding [12.329233433333416]
RepoQAは、Large Language Models(LLM)を長文のコード理解で評価するためのベンチマークである。 RepoQAには、5つのモダンプログラミング言語にまたがる50の人気のあるリポジトリから収集された500のコード検索タスクが含まれている。
論文参考訳（メタデータ） (2024-06-10T05:15:30Z)
Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks [76.43527940649939]
大規模言語モデル(LLM)の長文理解を評価するベンチマークであるAda-LEvalを紹介する。 Ada-LEvalにはTSortとBestAnswerという2つの挑戦的なサブセットが含まれている。 Ada-LEvalを用いた4つの最先端クローズドソースAPIモデルと6つのオープンソースモデルを評価した。
論文参考訳（メタデータ） (2024-04-09T17:30:48Z)
PPTC-R benchmark: Towards Evaluating the Robustness of Large Language Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。 GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文参考訳（メタデータ） (2024-03-06T15:33:32Z)
$\infty$Bench: Extending Long Context Evaluation Beyond 100K Tokens [64.08660301017302]
現在、この長期コンテキスト機能を評価するための標準ベンチマークが欠落している。 $infty$Benchは、平均データ長が100Kを超える最初のベンチマークである。その結果,100K以上のコンテキストを効果的に処理するには,既存の長期的LLMの大幅な進歩が必要であることが示唆された。
論文参考訳（メタデータ） (2024-02-21T11:30:29Z)
Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。 LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文参考訳（メタデータ） (2024-02-09T05:37:09Z)
State of What Art? A Call for Multi-Prompt LLM Evaluation [28.307860675006545]
我々は650万インスタンスにわたる単発評価により得られた結果の脆さを包括的に分析した。解析のロバスト性を改善するために,多様なプロンプトのセットを用いてLSMを評価することを提案する。
論文参考訳（メタデータ） (2023-12-31T22:21:36Z)
LooGLE: Can Long-Context Language Models Understand Long Contexts? [46.143956498529796]
LooGLEは、大規模言語モデルの長いコンテキスト理解のためのベンチマークである。 2022年以降に比較的新しい文書が登場し、1ドキュメントあたり24,000以上のトークンと、さまざまな領域にまたがる6,000の新たな質問が提供されている。 LooGLEにおける8つの最先端LCMの評価から,重要な所見が得られた。
論文参考訳（メタデータ） (2023-11-08T01:45:37Z)
Retrieval meets Long Context Large Language Models [59.431200671427064]
大規模言語モデル(LLM)のコンテキストウィンドウの拡張が最近人気を集めている。 Retrieval-augmentation対ロングコンテキストウィンドウ。両方の方法を組み合わせることで、両方の世界を最大限に活用できますか? 我々の最良モデルである32Kコンテキストウィンドウ付きLlama2-70Bは、9つの長いコンテキストタスクの平均スコアにおいて、GPT-3.5-turbo-16kとDavinci003より優れています。
論文参考訳（メタデータ） (2023-10-04T17:59:41Z)
L-Eval: Instituting Standardized Evaluation for Long Context Language Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。 20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文参考訳（メタデータ） (2023-07-20T17:59:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。