Fugu-MT 論文翻訳(概要): Long-context LLMs Struggle with Long In-context Learning

論文の概要: Long-context LLMs Struggle with Long In-context Learning

arxiv url: http://arxiv.org/abs/2404.02060v1
Date: Tue, 2 Apr 2024 15:59:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-03 15:49:31.910656
Title: Long-context LLMs Struggle with Long In-context Learning
Title（参考訳）: 長文内学習を用いた長文LLMスラグル
Authors: Tianle Li, Ge Zhang, Quy Duc Do, Xiang Yue, Wenhu Chen,
Abstract要約: 大規模言語モデル(LLM)は32Kトークンを超える長いシーケンスを扱うために大きな進歩を遂げた。本研究は,極端ラベル分類の領域内での長い文脈内学習に焦点を当てた特殊なベンチマーク(liconBench)を紹介する。
参考スコア（独自算出の注目度）: 39.84597097614607
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) have made significant strides in handling long sequences exceeding 32K tokens. However, their performance evaluation has largely been confined to metrics like perplexity and synthetic tasks, which may not fully capture their abilities in more nuanced, real-world scenarios. This study introduces a specialized benchmark (LIConBench) focusing on long in-context learning within the realm of extreme-label classification. We meticulously selected six datasets with a label range spanning 28 to 174 classes covering different input (few-shot demonstration) length from 2K to 50K. Our benchmark requires LLMs to comprehend the entire input to recognize the massive label spaces to make correct prediction. We evaluate 13 long-context LLMs on our benchmarks. We find that the long-context LLMs perform relatively well under the token length of 20K and the performance benefits from utilizing the long context window. However, after the context window exceeds 20K, most LLMs except GPT-4 will dip dramatically. This suggests a notable gap in current LLM capabilities for processing and understanding long, context-rich sequences. Further analysis revealed a tendency among models to favor predictions for labels presented towards the end at the sequence. Their ability to reason over multiple pieces in the long sequence is yet to be improved. Our study reveals that long context understanding and reasoning is still a challenging task for the existing LLMs. We believe LIConBench could serve as a more realistic evaluation for the future long context LLMs.
Abstract（参考訳）: 大規模言語モデル(LLM)は32Kトークンを超える長いシーケンスを扱うために大きな進歩を遂げた。しかし、それらのパフォーマンス評価は、複雑度や合成タスクのようなメトリクスに限定されており、よりニュアンスな実世界のシナリオでは、その能力を完全には捉えられない可能性がある。本研究は,極端ラベル分類の領域内での長い文脈内学習に焦点を当てた特殊なベンチマーク(liconBench)を紹介する。ラベル範囲が28から174の6つのデータセットを慎重に選択した。我々のベンチマークでは、LLMが入力全体を理解し、巨大なラベル空間を認識して正確な予測を行う必要がある。 13個の長文LLMをベンチマークで評価した。長文LLMはトークン長20K以下で比較的良好に動作し,長文ウィンドウの利用による性能上のメリットが確認できた。しかし、コンテキストウィンドウが20Kを超えると、GPT-4を除くほとんどのLCMは劇的に減少する。これは、長いコンテキストに富んだシーケンスを処理および理解するための現在のLLM機能に顕著なギャップがあることを示唆している。さらに分析した結果, 列の最後に表示されるラベルの予測が好まれる傾向が示された。長いシーケンスで複数の部品を推論する能力はまだ改善されていない。本研究は,LLMの長期的理解と推論が依然として課題であることを示す。我々は、liconBenchが将来の長期LLMのより現実的な評価に役立つと信じている。

関連論文リスト

LIFEBench: Evaluating Length Instruction Following in Large Language Models [41.637005190608946]
本稿では,大規模言語モデルの長文指示に従う能力を評価するためにLIFEBenchを提案する。 LIFEBenchは英語と中国語の4つのタスクカテゴリにまたがる10,800のインスタンスで構成されている。ほとんどのモデルでは、短い命令を適切に追従するが、一定のしきい値を超えると急激に劣化する。
論文参考訳（メタデータ） (2025-05-22T05:08:27Z)
SCoRE: Benchmarking Long-Chain Reasoning in Commonsense Scenarios [33.72114830484246]
SCoRE(Scenario-based Commonsense Reasoning Evaluation)は、エンティティ、リレーション、論理ルールのシナリオスキーマからマルチホップ質問を合成するベンチマークである。 SCoREには100kのバイリンガル(中国語と英語の)複数選択質問が含まれており、推論チェーンは2-11ホップにまたがり、様々な難易度にグループ化されている。
論文参考訳（メタデータ） (2025-03-08T13:40:10Z)
Zero-to-Strong Generalization: Eliciting Strong Capabilities of Large Language Models Iteratively without Gold Labels [75.77877889764073]
大規模言語モデル(LLM)は,ゴールドラベルを用いた教師付き微調整やテキスト内学習を通じて,顕著な性能を示した。本研究では,ラベルのないデータのみを利用することで,強力なモデル機能を実現することができるかどうかを考察する。ゼロ・ツー・ストロング一般化と呼ばれる新しいパラダイムを提案する。
論文参考訳（メタデータ） (2024-09-19T02:59:44Z)
NeedleBench: Can LLMs Do Retrieval and Reasoning in 1 Million Context Window? [37.64593022203498]
NeedleBenchは、バイリンガルの長期コンテキスト能力を評価するための、徐々に難しいタスクからなるフレームワークである。私たちはこのフレームワークを使って、主要なオープンソースモデルがその疑問に関連する重要な情報をどの程度正確に特定できるかを評価する。本稿では,実世界の長文タスクに現れる可能性の高い論理的推論課題の複雑さを模倣するAncestral Trace Challengeを提案する。
論文参考訳（メタデータ） (2024-07-16T17:59:06Z)
Prompting Large Language Models with Knowledge Graphs for Question Answering Involving Long-tail Facts [50.06633829833144]
大規模言語モデル(LLM)は、様々なNLPタスクを実行するのに効果的であるが、広範囲の現実世界の知識を必要とするタスクを扱うのに苦労する。我々は,関連する疑問に答えるために,長期的事実の知識を必要とするベンチマークを提案する。実験の結果,LLMだけでこれらの疑問に答えるのに苦労していることが明らかとなった。
論文参考訳（メタデータ） (2024-05-10T15:10:20Z)
Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks [76.43527940649939]
大規模言語モデル(LLM)の長文理解を評価するベンチマークであるAda-LEvalを紹介する。 Ada-LEvalにはTSortとBestAnswerという2つの挑戦的なサブセットが含まれている。 Ada-LEvalを用いた4つの最先端クローズドソースAPIモデルと6つのオープンソースモデルを評価した。
論文参考訳（メタデータ） (2024-04-09T17:30:48Z)
XL$^2$Bench: A Benchmark for Extremely Long Context Understanding with Long-range Dependencies [45.31042312867939]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著なパフォーマンスを示しているが、その小さなコンテキストウィンドウサイズによって制約されている。最大200Kの入力トークンに対応するために、コンテキストウィンドウを拡張するための様々な取り組みが提案されている。 XL$2$Bench という,長距離依存によるコンテキスト理解のためのベンチマークを導入する。
論文参考訳（メタデータ） (2024-04-08T12:29:07Z)
NovelQA: Benchmarking Question Answering on Documents Exceeding 200K Tokens [63.7488938083696]
NovelQAは拡張テキストによる大規模言語モデルの能力をテストするために設計されたベンチマークである。本稿では,ノベルQAの設計と構築について述べる。 NovelQAにおけるLong-context LLMの評価により,モデルの性能に関する重要な知見が得られた。
論文参考訳（メタデータ） (2024-03-18T17:32:32Z)
LooGLE: Can Long-Context Language Models Understand Long Contexts? [46.143956498529796]
LooGLEは、大規模言語モデルの長いコンテキスト理解のためのベンチマークである。 2022年以降に比較的新しい文書が登場し、1ドキュメントあたり24,000以上のトークンと、さまざまな領域にまたがる6,000の新たな質問が提供されている。 LooGLEにおける8つの最先端LCMの評価から,重要な所見が得られた。
論文参考訳（メタデータ） (2023-11-08T01:45:37Z)
TRACE: A Comprehensive Benchmark for Continual Learning in Large Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。 LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文参考訳（メタデータ） (2023-10-10T16:38:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。