論文の概要: Same Task, More Tokens: the Impact of Input Length on the Reasoning
Performance of Large Language Models
- arxiv url: http://arxiv.org/abs/2402.14848v1
- Date: Mon, 19 Feb 2024 16:04:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-03 19:26:51.293380
- Title: Same Task, More Tokens: the Impact of Input Length on the Reasoning
Performance of Large Language Models
- Title(参考訳): 同じタスク、より多くのトークン:入力長が大規模言語モデルの推論性能に及ぼす影響
- Authors: Mosh Levy, Alon Jacoby, Yoav Goldberg
- Abstract要約: 本稿では,入力長がLarge Language Models(LLMs)の能力に与える影響について検討する。
本稿では,入力長の影響を評価するための新しいQA推論フレームワークを提案する。
この結果,LLMの推理性能は技術的最大値よりもはるかに短い入力長で顕著に低下していた。
- 参考スコア(独自算出の注目度): 54.34489188107025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper explores the impact of extending input lengths on the capabilities
of Large Language Models (LLMs). Despite LLMs advancements in recent times,
their performance consistency across different input lengths is not well
understood. We investigate this aspect by introducing a novel QA reasoning
framework, specifically designed to assess the impact of input length. We
isolate the effect of input length using multiple versions of the same sample,
each being extended with padding of different lengths, types and locations. Our
findings show a notable degradation in LLMs' reasoning performance at much
shorter input lengths than their technical maximum. We show that the
degradation trend appears in every version of our dataset, although at
different intensities. Additionally, our study reveals that traditional
perplexity metrics do not correlate with performance of LLMs' in long input
reasoning tasks. We analyse our results and identify failure modes that can
serve as useful guides for future research, potentially informing strategies to
address the limitations observed in LLMs.
- Abstract(参考訳): 本稿では,入力長がLarge Language Models (LLMs) の能力に与える影響について検討する。
近年のLSMの進歩にもかかわらず、異なる入力長にわたる性能の整合性はよく理解されていない。
本稿では,入力長の影響を評価するための新しいQA推論フレームワークを導入することで,この側面を考察する。
同一サンプルの複数バージョンを用いて入力長の影響を分離し,それぞれが異なる長さ,タイプ,位置のパッドで拡張した。
その結果,LLMの推理性能は技術的最大値よりもはるかに短い入力長で顕著に低下していた。
異なる強度ではありますが、データセットのすべてのバージョンで劣化傾向が見られます。
さらに,従来のパープレキシティ指標は長期入力推論タスクにおけるLLMの性能と相関しないことが明らかとなった。
結果を分析し、将来の研究の有用なガイドとして機能する障害モードを特定し、LLMで観測される限界に対処するための戦略を示す可能性がある。
関連論文リスト
- Characterization of Large Language Model Development in the Datacenter [57.49531095113406]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - Learning to Reduce: Optimal Representations of Structured Data in
Prompting Large Language Models [42.16047343029512]
大規模言語モデル(LLM)は汎用AIエージェントとして広く利用されている。
本稿では,入力コンテキストの縮小バージョンを生成するために,言語モデルを微調整するフレームワークであるLearning to Reduceを提案する。
入力コンテキストから関連する証拠を選択する際に,本モデルが同等の精度を達成することを示す。
論文 参考訳(メタデータ) (2024-02-22T00:41:23Z) - How You Prompt Matters! Even Task-Oriented Constraints in Instructions
Affect LLM-Generated Text Detection [44.118047780553006]
タスク指向の制約 -- 命令に自然に含まれ、検出回避とは無関係な制約 -- でさえ、既存の検出器は検出性能に大きなばらつきを持つ。
実験の結果,命令を複数回生成したり,命令を言い換えたりすることで,命令によって生成されたテキストの標準偏差(SD)が有意に大きい(SDは14.4F1スコアまで)ことがわかった。
論文 参考訳(メタデータ) (2023-11-14T18:32:52Z) - LooGLE: Can Long-Context Language Models Understand Long Contexts? [50.408957515411096]
LooGLEは、大規模言語モデルの長いコンテキスト理解のためのベンチマークである。
2022年以降に比較的新しい文書が登場し、1ドキュメントあたり24,000以上のトークンと、さまざまな領域にまたがる6,000の新たな質問が提供されている。
LooGLEにおける8つの最先端LCMの評価から,重要な所見が得られた。
論文 参考訳(メタデータ) (2023-11-08T01:45:37Z) - MenatQA: A New Dataset for Testing the Temporal Comprehension and
Reasoning Abilities of Large Language Models [17.322480769274062]
大規模言語モデル(LLM)は、多くの自然言語処理(NLP)タスクにおいてほぼ飽和した性能を示している。
本稿では,LLMの時間的理解と推論能力を評価するために,合計2,853個のサンプルを用いた多感性因子時間QA(MenatQA)を構築した。
論文 参考訳(メタデータ) (2023-10-08T13:19:52Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。
26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文 参考訳(メタデータ) (2023-05-24T10:45:25Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。