論文の概要: Long-context LLMs Struggle with Long In-context Learning
- arxiv url: http://arxiv.org/abs/2404.02060v1
- Date: Tue, 2 Apr 2024 15:59:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 15:49:31.910656
- Title: Long-context LLMs Struggle with Long In-context Learning
- Title(参考訳): 長文内学習を用いた長文LLMスラグル
- Authors: Tianle Li, Ge Zhang, Quy Duc Do, Xiang Yue, Wenhu Chen,
- Abstract要約: 大規模言語モデル(LLM)は32Kトークンを超える長いシーケンスを扱うために大きな進歩を遂げた。
本研究は,極端ラベル分類の領域内での長い文脈内学習に焦点を当てた特殊なベンチマーク(liconBench)を紹介する。
- 参考スコア(独自算出の注目度): 39.84597097614607
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have made significant strides in handling long sequences exceeding 32K tokens. However, their performance evaluation has largely been confined to metrics like perplexity and synthetic tasks, which may not fully capture their abilities in more nuanced, real-world scenarios. This study introduces a specialized benchmark (LIConBench) focusing on long in-context learning within the realm of extreme-label classification. We meticulously selected six datasets with a label range spanning 28 to 174 classes covering different input (few-shot demonstration) length from 2K to 50K. Our benchmark requires LLMs to comprehend the entire input to recognize the massive label spaces to make correct prediction. We evaluate 13 long-context LLMs on our benchmarks. We find that the long-context LLMs perform relatively well under the token length of 20K and the performance benefits from utilizing the long context window. However, after the context window exceeds 20K, most LLMs except GPT-4 will dip dramatically. This suggests a notable gap in current LLM capabilities for processing and understanding long, context-rich sequences. Further analysis revealed a tendency among models to favor predictions for labels presented towards the end at the sequence. Their ability to reason over multiple pieces in the long sequence is yet to be improved. Our study reveals that long context understanding and reasoning is still a challenging task for the existing LLMs. We believe LIConBench could serve as a more realistic evaluation for the future long context LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は32Kトークンを超える長いシーケンスを扱うために大きな進歩を遂げた。
しかし、それらのパフォーマンス評価は、複雑度や合成タスクのようなメトリクスに限定されており、よりニュアンスな実世界のシナリオでは、その能力を完全には捉えられない可能性がある。
本研究は,極端ラベル分類の領域内での長い文脈内学習に焦点を当てた特殊なベンチマーク(liconBench)を紹介する。
ラベル範囲が28から174の6つのデータセットを慎重に選択した。
我々のベンチマークでは、LLMが入力全体を理解し、巨大なラベル空間を認識して正確な予測を行う必要がある。
13個の長文LLMをベンチマークで評価した。
長文LLMはトークン長20K以下で比較的良好に動作し,長文ウィンドウの利用による性能上のメリットが確認できた。
しかし、コンテキストウィンドウが20Kを超えると、GPT-4を除くほとんどのLCMは劇的に減少する。
これは、長いコンテキストに富んだシーケンスを処理および理解するための現在のLLM機能に顕著なギャップがあることを示唆している。
さらに分析した結果, 列の最後に表示されるラベルの予測が好まれる傾向が示された。
長いシーケンスで複数の部品を推論する能力はまだ改善されていない。
本研究は,LLMの長期的理解と推論が依然として課題であることを示す。
我々は、liconBenchが将来の長期LLMのより現実的な評価に役立つと信じている。
関連論文リスト
- Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks [76.43527940649939]
大規模言語モデル(LLM)の長文理解を評価するベンチマークであるAda-LEvalを紹介する。
Ada-LEvalにはTSortとBestAnswerという2つの挑戦的なサブセットが含まれている。
Ada-LEvalを用いた4つの最先端クローズドソースAPIモデルと6つのオープンソースモデルを評価した。
論文 参考訳(メタデータ) (2024-04-09T17:30:48Z) - XL$^2$Bench: A Benchmark for Extremely Long Context Understanding with Long-range Dependencies [45.31042312867939]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著なパフォーマンスを示しているが、その小さなコンテキストウィンドウサイズによって制約されている。
最大200Kの入力トークンに対応するために、コンテキストウィンドウを拡張するための様々な取り組みが提案されている。
XL$2$Bench という,長距離依存によるコンテキスト理解のためのベンチマークを導入する。
論文 参考訳(メタデータ) (2024-04-08T12:29:07Z) - $\infty$Bench: Extending Long Context Evaluation Beyond 100K Tokens [64.08660301017302]
現在、この長期コンテキスト機能を評価するための標準ベンチマークが欠落している。
$infty$Benchは、平均データ長が100Kを超える最初のベンチマークである。
その結果,100K以上のコンテキストを効果的に処理するには,既存の長期的LLMの大幅な進歩が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-02-21T11:30:29Z) - LV-Eval: A Balanced Long-Context Benchmark with 5 Length Levels Up to
256K [48.11471429292751]
LV-Evalは5つの長さレベルが256kまで達する長文の長文ベンチマークである。
LV-Evalの設計には3つの重要なテクニックが組み込まれている。
LV-Evalの利点は、異なるコンテキストの長さにわたる制御可能な評価、紛らわしい事実を持つテストインスタンスへの挑戦、より客観的な評価である。
論文 参考訳(メタデータ) (2024-02-06T13:11:19Z) - LLM Maybe LongLM: Self-Extend LLM Context Window Without Tuning [70.29860436274241]
LLMには、微調整なしで長いコンテキストを処理できる固有の能力がある、と我々は主張する。
バイレベルアテンション情報を構築することで,LLMのコンテキストウィンドウを拡張するためのSelfExtendを提案する。
複数のベンチマークで包括的な実験を行い、その結果、既存のLLMのコンテキストウィンドウ長を効果的に拡張できることが示されている。
論文 参考訳(メタデータ) (2024-01-02T18:30:51Z) - LooGLE: Can Long-Context Language Models Understand Long Contexts? [50.408957515411096]
LooGLEは、大規模言語モデルの長いコンテキスト理解のためのベンチマークである。
2022年以降に比較的新しい文書が登場し、1ドキュメントあたり24,000以上のトークンと、さまざまな領域にまたがる6,000の新たな質問が提供されている。
LooGLEにおける8つの最先端LCMの評価から,重要な所見が得られた。
論文 参考訳(メタデータ) (2023-11-08T01:45:37Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。