Fugu-MT 論文翻訳(概要): Marathon: A Race Through the Realm of Long Context with Large Language Models

論文の概要: Marathon: A Race Through the Realm of Long Context with Large Language Models

arxiv url: http://arxiv.org/abs/2312.09542v1
Date: Fri, 15 Dec 2023 05:30:14 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-18 17:01:21.881536
Title: Marathon: A Race Through the Realm of Long Context with Large Language Models
Title（参考訳）: Marathon: 大規模言語モデルによる長いコンテキストの領域でのレース
Authors: Lei Zhang, Yunshui Li, Ziqiang Liu, Jiaxi yang, Junhao Liu and Min Yang
Abstract要約: 我々はMMLUなどのベンチマークにインスパイアされた新しい長期文脈評価ベンチマークを開発した。我々は、最新かつ最もポピュラーな大規模言語モデルと、3つの最新かつ効果的な長期文脈最適化手法を評価した。これは、これらの大きな言語モデルの長いコンテキスト推論と理解能力を示し、これらの最適化手法の有効性を検証する。
参考スコア（独自算出の注目度）: 19.45934417409602
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Although there are currently many benchmarks available for evaluating the long context understanding and reasoning capability of large language models, with the expansion of the context window in these models, the existing long context benchmarks are no longer sufficient for evaluating the long context understanding and reasoning capability of large language models. In this paper, we have developed a fresh long context evaluation benchmark, which we name it Marathon in the form of multiple choice questions, inspired by benchmarks such as MMLU, for assessing the long context comprehension capability of large language models quickly, accurately, and objectively. We have evaluated several of the latest and most popular large language models, as well as three recent and effective long context optimization methods, on our benchmark. This showcases the long context reasoning and comprehension capabilities of these large language models and validates the effectiveness of these optimization methods. Marathon is available at https://huggingface.co/datasets/Lemoncoke/Marathon.
Abstract（参考訳）: 現在、大きな言語モデルの長いコンテキスト理解と推論能力を評価するためのベンチマークが多数存在するが、これらのモデルにコンテキストウィンドウが拡張されているため、既存の長期コンテキストベンチマークは大きな言語モデルの長いコンテキスト理解と推論能力を評価するのに十分ではない。本稿では,大規模言語モデルの長文理解能力を迅速,正確に,客観的に評価するために,mmluなどのベンチマークに触発された複数の選択質問の形式でマラソンと名づけた,新たな長文文脈評価ベンチマークを開発した。我々は,最新の,最もポピュラーな大規模言語モデルと,最近かつ効果的な3つの長期文脈最適化手法をベンチマークで評価した。これは、これらの大きな言語モデルの長い文脈推論と理解能力を示し、これらの最適化手法の有効性を検証する。 Marathonはhttps://huggingface.co/datasets/Lemoncoke/Marathonで入手できる。

関連論文リスト

LOOM-Scope: a comprehensive and efficient LOng-cOntext Model evaluation framework [29.538368045712822]
LOOM-Scopeは長期コンテキスト評価のための包括的で効率的なフレームワークである。 LOOM-Scopeは様々なベンチマークで評価設定を標準化する。効率的な長文推論促進手法の展開をサポートする。
論文参考訳（メタデータ） (2025-07-07T07:33:24Z)
100-LongBench: Are de facto Long-Context Benchmarks Literally Evaluating Long-Context Ability? [28.694112253150983]
リアルタイムベースの長期コンテキスト評価ベンチマークには2つの大きな欠点がある。 LongBenchのようなベンチマークは、しばしばモデルのベースライン能力とロングコンテキストのパフォーマンスを分離するための適切なメトリクスを提供しない。長さ制御可能な長文ベンチマークと,ベースライン知識を真の長文能力から切り離す新しいメトリクスを導入する。
論文参考訳（メタデータ） (2025-05-25T19:58:31Z)
Can LLMs reason over extended multilingual contexts? Towards long-context evaluation beyond retrieval and haystacks [22.859955360764275]
MLRBenchは多言語長文推論のための合成ベンチマークである。並列性があり、リークに耐性があり、任意のコンテキスト長に対してスケーラブルであるように設計されている。
論文参考訳（メタデータ） (2025-04-17T11:02:35Z)
Generalizing From Short to Long: Effective Data Synthesis for Long-Context Instruction Tuning [103.65680870130839]
本研究では,長期事前学習モデルの学習後段階の指導データを設計する方法について検討する。制御された研究では、短い文脈で調整されたモデルが、より長いコンテキストに効果的に一般化できることが判明した。これらの知見に基づいて,新しいデータ合成フレームワークであるコンテキスト合成を提案する。
論文参考訳（メタデータ） (2025-02-21T17:02:40Z)
What is Wrong with Perplexity for Long-context Language Modeling? [71.34933096461124]
長いコンテキスト入力は、会話の拡張、文書の要約、多数のショットインコンテキスト学習といったタスクにおいて、大きな言語モデル(LLM)にとって不可欠である。パープレキシティ(PPL)は、長期コンテキスト能力の評価には信頼性が低いことが証明されている。長短コンテキストコントラスト法を用いて鍵トークンを識別する手法であるbfLongPPLを提案する。
論文参考訳（メタデータ） (2024-10-31T09:39:28Z)
ETHIC: Evaluating Large Language Models on Long-Context Tasks with High Information Coverage [21.036912648701264]
本稿では,クエリの応答に必要な入力コンテキストの割合を定量化する,情報カバレッジ(IC)と呼ばれる新しい指標を提案する。 ETHICは、LLMがコンテキスト全体を活用する能力を評価するために設計された新しいベンチマークである。
論文参考訳（メタデータ） (2024-10-22T09:35:42Z)
HELMET: How to Evaluate Long-Context Language Models Effectively and Thoroughly [34.205934899868346]
HELMETは7つの多様なアプリケーション中心のカテゴリを包含する総合ベンチマークである。 NIAHのような合成タスクは、下流のパフォーマンスの予測に適していないことが分かりました。ほとんどのLCLMは完全なNIAHスコアを達成しているが、タスクがフルコンテキスト推論を必要とする場合、オープンソースモデルはクローズドなスコアよりも大幅に遅れている。
論文参考訳（メタデータ） (2024-10-03T17:20:11Z)
Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA [71.04146366608904]
長いコンテキストモデリング能力は広く注目を集めており、超コンテキストウィンドウを持つLarge Language Models (LLMs) の出現につながっている。拡張多文書質問応答(QA)によって現実的なシナリオに整合する新しい長文ベンチマークであるLoongを提案する。 Loong氏は、Spotlight Locating, Comparison, Clustering, Chain of Reasoningという、コンテキスト長の4つのタスクを紹介している。
論文参考訳（メタデータ） (2024-06-25T09:42:56Z)
The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。 BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文参考訳（メタデータ） (2024-06-09T12:30:30Z)
NovelQA: Benchmarking Question Answering on Documents Exceeding 200K Tokens [63.7488938083696]
NovelQAは拡張テキストによる大規模言語モデルの能力をテストするために設計されたベンチマークである。本稿では,ノベルQAの設計と構築について述べる。 NovelQAにおけるLong-context LLMの評価により,モデルの性能に関する重要な知見が得られた。
論文参考訳（メタデータ） (2024-03-18T17:32:32Z)
TRAM: Benchmarking Temporal Reasoning for Large Language Models [12.112914393948415]
10個のデータセットからなる時間的推論ベンチマークであるTRAMを紹介する。 GPT-4やLlama2のような一般的な言語モデルをゼロショットや少数ショットのシナリオで評価する。以上の結果から,最も優れたモデルラグは人的パフォーマンスに大きく遅れていることが示唆された。
論文参考訳（メタデータ） (2023-10-02T00:59:07Z)
L-Eval: Instituting Standardized Evaluation for Long Context Language Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。 20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文参考訳（メタデータ） (2023-07-20T17:59:41Z)
SMART: Sentences as Basic Units for Text Evaluation [48.5999587529085]
本稿では,このような制約を緩和するSMARTと呼ばれる新しい指標を提案する。文をトークンの代わりにマッチングの基本単位として扱い,ソフトマッチ候補と参照文に文マッチング関数を用いる。この結果から,提案手法とモデルベースマッチング関数とのシステムレベルの相関は,全ての競合する指標よりも優れていた。
論文参考訳（メタデータ） (2022-08-01T17:58:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。