論文の概要: Marathon: A Race Through the Realm of Long Context with Large Language
Models
- arxiv url: http://arxiv.org/abs/2312.09542v1
- Date: Fri, 15 Dec 2023 05:30:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-18 17:01:21.881536
- Title: Marathon: A Race Through the Realm of Long Context with Large Language
Models
- Title(参考訳): Marathon: 大規模言語モデルによる長いコンテキストの領域でのレース
- Authors: Lei Zhang, Yunshui Li, Ziqiang Liu, Jiaxi yang, Junhao Liu and Min
Yang
- Abstract要約: 我々はMMLUなどのベンチマークにインスパイアされた新しい長期文脈評価ベンチマークを開発した。
我々は、最新かつ最もポピュラーな大規模言語モデルと、3つの最新かつ効果的な長期文脈最適化手法を評価した。
これは、これらの大きな言語モデルの長いコンテキスト推論と理解能力を示し、これらの最適化手法の有効性を検証する。
- 参考スコア(独自算出の注目度): 19.45934417409602
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although there are currently many benchmarks available for evaluating the
long context understanding and reasoning capability of large language models,
with the expansion of the context window in these models, the existing long
context benchmarks are no longer sufficient for evaluating the long context
understanding and reasoning capability of large language models. In this paper,
we have developed a fresh long context evaluation benchmark, which we name it
Marathon in the form of multiple choice questions, inspired by benchmarks such
as MMLU, for assessing the long context comprehension capability of large
language models quickly, accurately, and objectively. We have evaluated several
of the latest and most popular large language models, as well as three recent
and effective long context optimization methods, on our benchmark. This
showcases the long context reasoning and comprehension capabilities of these
large language models and validates the effectiveness of these optimization
methods. Marathon is available at
https://huggingface.co/datasets/Lemoncoke/Marathon.
- Abstract(参考訳): 現在、大きな言語モデルの長いコンテキスト理解と推論能力を評価するためのベンチマークが多数存在するが、これらのモデルにコンテキストウィンドウが拡張されているため、既存の長期コンテキストベンチマークは大きな言語モデルの長いコンテキスト理解と推論能力を評価するのに十分ではない。
本稿では,大規模言語モデルの長文理解能力を迅速,正確に,客観的に評価するために,mmluなどのベンチマークに触発された複数の選択質問の形式でマラソンと名づけた,新たな長文文脈評価ベンチマークを開発した。
我々は,最新の,最もポピュラーな大規模言語モデルと,最近かつ効果的な3つの長期文脈最適化手法をベンチマークで評価した。
これは、これらの大きな言語モデルの長い文脈推論と理解能力を示し、これらの最適化手法の有効性を検証する。
Marathonはhttps://huggingface.co/datasets/Lemoncoke/Marathonで入手できる。
関連論文リスト
- CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z) - Evaluating Large Language Models on Controlled Generation Tasks [92.64781370921486]
本稿では,異なる粒度を持つ文計画ベンチマークを含む,様々なベンチマークを広範囲に分析する。
大規模言語モデルと最先端の微調整された小型モデルを比較した後、大規模言語モデルが後方に落ちたり、比較されたり、より小型モデルの能力を超えたりしたスペクトルを示す。
論文 参考訳(メタデータ) (2023-10-23T03:48:24Z) - Effective Long-Context Scaling of Foundation Models [90.57254298730923]
最大32,768個のトークンの効率的なコンテキストウィンドウをサポートする長文LLMを提示する。
我々のモデルは、ほとんどの通常のタスクにおいて一貫した改善を達成し、Llama 2よりも長いコンテキストタスクを大幅に改善します。
論文 参考訳(メタデータ) (2023-09-27T21:41:49Z) - LongBench: A Bilingual, Multitask Benchmark for Long Context
Understanding [59.623007535233]
LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。
英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
論文 参考訳(メタデータ) (2023-08-28T11:53:40Z) - Lost in the Middle: How Language Models Use Long Contexts [88.78803442320246]
本研究では,言語モデルの性能を2つのタスクで解析する。
関連する情報の位置を変えると,性能が著しく低下することがわかった。
我々の分析は、言語モデルが入力コンテキストをどのように使用するかをよりよく理解し、将来の長文言語モデルのための新しい評価プロトコルを提供する。
論文 参考訳(メタデータ) (2023-07-06T17:54:11Z) - Are Large Language Models Robust Coreference Resolvers? [17.60248310475889]
我々は、コア参照のプロンプトが、現在の教師なしコア参照システムより優れていることを示す。
さらなる調査により、命令調整されたLMが驚くほどドメイン、言語、時間にまたがって一般化されることが判明した。
論文 参考訳(メタデータ) (2023-05-23T19:38:28Z) - Black-box language model explanation by context length probing [7.526153863886609]
本稿では、因果言語モデルのための新しい説明手法である文脈長探索について述べる。
この技術はモデルに依存しず、トークンレベルの確率の計算以上のモデル内部へのアクセスに依存しない。
事前学習された大規模言語モデルに文脈長探索を適用し、初期分析と洞察を提供する。
論文 参考訳(メタデータ) (2022-12-30T16:24:10Z) - LMentry: A Language Model Benchmark of Elementary Language Tasks [39.71352171304755]
LMentryは、人間にとって自明なタスクのコンパクトなセットに焦点を当てたベンチマークである。
大きな言語モデルの能力と堅牢性に関する洞察を提供する。
論文 参考訳(メタデータ) (2022-11-03T18:01:12Z) - Multi-lingual Evaluation of Code Generation Models [82.7357812992118]
本稿では,MBXPとMultilingual HumanEval,MathQA-Xという,評価コード生成モデルに関する新しいベンチマークを提案する。
これらのデータセットは10以上のプログラミング言語をカバーする。
コード生成モデルの性能を多言語で評価することができる。
論文 参考訳(メタデータ) (2022-10-26T17:17:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。