Fugu-MT 論文翻訳(概要): Same Task, More Tokens: the Impact of Input Length on the Reasoning Performance of Large Language Models

論文の概要: Same Task, More Tokens: the Impact of Input Length on the Reasoning Performance of Large Language Models

arxiv url: http://arxiv.org/abs/2402.14848v1
Date: Mon, 19 Feb 2024 16:04:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-03 19:26:51.293380
Title: Same Task, More Tokens: the Impact of Input Length on the Reasoning Performance of Large Language Models
Title（参考訳）: 同じタスク、より多くのトークン:入力長が大規模言語モデルの推論性能に及ぼす影響
Authors: Mosh Levy, Alon Jacoby, Yoav Goldberg
Abstract要約: 本稿では,入力長がLarge Language Models(LLMs)の能力に与える影響について検討する。本稿では,入力長の影響を評価するための新しいQA推論フレームワークを提案する。この結果,LLMの推理性能は技術的最大値よりもはるかに短い入力長で顕著に低下していた。
参考スコア（独自算出の注目度）: 54.34489188107025
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper explores the impact of extending input lengths on the capabilities of Large Language Models (LLMs). Despite LLMs advancements in recent times, their performance consistency across different input lengths is not well understood. We investigate this aspect by introducing a novel QA reasoning framework, specifically designed to assess the impact of input length. We isolate the effect of input length using multiple versions of the same sample, each being extended with padding of different lengths, types and locations. Our findings show a notable degradation in LLMs' reasoning performance at much shorter input lengths than their technical maximum. We show that the degradation trend appears in every version of our dataset, although at different intensities. Additionally, our study reveals that traditional perplexity metrics do not correlate with performance of LLMs' in long input reasoning tasks. We analyse our results and identify failure modes that can serve as useful guides for future research, potentially informing strategies to address the limitations observed in LLMs.
Abstract（参考訳）: 本稿では,入力長がLarge Language Models (LLMs) の能力に与える影響について検討する。近年のLSMの進歩にもかかわらず、異なる入力長にわたる性能の整合性はよく理解されていない。本稿では,入力長の影響を評価するための新しいQA推論フレームワークを導入することで,この側面を考察する。同一サンプルの複数バージョンを用いて入力長の影響を分離し,それぞれが異なる長さ,タイプ,位置のパッドで拡張した。その結果,LLMの推理性能は技術的最大値よりもはるかに短い入力長で顕著に低下していた。異なる強度ではありますが、データセットのすべてのバージョンで劣化傾向が見られます。さらに,従来のパープレキシティ指標は長期入力推論タスクにおけるLLMの性能と相関しないことが明らかとなった。結果を分析し、将来の研究の有用なガイドとして機能する障害モードを特定し、LLMで観測される限界に対処するための戦略を示す可能性がある。

関連論文リスト

Towards Long Context Hallucination Detection [49.195854802543714]
大規模言語モデル(LLM)は、様々なタスクで顕著なパフォーマンスを示している。それらは文脈の幻覚に傾向があり、与えられた文脈に不一致または矛盾した情報を生成する。本稿では,BERTのような事前学習したエンコーダモデルを用いて,長期のコンテキストを処理し,文脈の幻覚を効果的に検出するアーキテクチャを提案する。
論文参考訳（メタデータ） (2025-04-28T03:47:05Z)
Time's Up! An Empirical Study of LLM Reasoning Ability Under Output Length Constraint [20.685932824324446]
本研究では,Large Language Models (LLMs) の推論能力が実世界の遅延制約下で有効であるかどうかを考察する。具体的には、幅広い出力長予算の下で、共通推論データセット上で25以上のLLMをテストする。その結果,LCM推論の予算対応について,いくつかの興味深い知見が得られた。
論文参考訳（メタデータ） (2025-04-19T16:32:28Z)
Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning [113.49074603075032]
近年の研究では、モデルをより長い思考の連鎖(CoTs)を通して考える時間を増やすことで、複雑な推論タスクにおいて大幅な改善が得られることが示されている。より長いCoTによるスケーリングが、特定のドメインにおけるLarge Language Model(LLM)の推論性能を損なうかどうかを考察する。
論文参考訳（メタデータ） (2025-02-25T10:48:05Z)
Evaluating Large Language Models in Vulnerability Detection Under Variable Context Windows [17.088307683654577]
本研究では,トークン化されたJavaコード長が脆弱性検出における10のLLMの精度と明示性に与える影響について検討した。 GPT-4やMistral,Mixtralといったモデル間の不整合は堅牢性を示すものもあれば,トークン化長とパフォーマンスとの間に重要な相関性を示すものもある。
論文参考訳（メタデータ） (2025-01-30T20:44:46Z)
What is Wrong with Perplexity for Long-context Language Modeling? [71.34933096461124]
長いコンテキスト入力は、会話の拡張、文書の要約、多数のショットインコンテキスト学習といったタスクにおいて、大きな言語モデル(LLM)にとって不可欠である。パープレキシティ(PPL)は、長期コンテキスト能力の評価には信頼性が低いことが証明されている。長短コンテキストコントラスト法を用いて鍵トークンを識別する手法であるbfLongPPLを提案する。
論文参考訳（メタデータ） (2024-10-31T09:39:28Z)
Rethinking Visual Dependency in Long-Context Reasoning for Large Vision-Language Models [62.698520962933195]
LVLM(Large Vision-Language Models)は、クロスモデルタスクでは優れているが、長文推論ではパフォーマンスが低下する。そこで本研究では,重要でないテキスト情報を選択的に除去する,学習不要なコンテキストプルーニング手法を提案する。
論文参考訳（メタデータ） (2024-10-25T17:59:09Z)
Let Me Speak Freely? A Study on the Impact of Format Restrictions on Performance of Large Language Models [59.970391602080205]
本研究では,ジェネレーション空間の制約が推論やドメイン知識の理解など,LLMの能力に影響を及ぼすかどうかを検討する。各種共通タスクにおける自由形式の応答を生成するよりも,構造化形式に順応することが制限された場合のLLMの性能を評価する。より厳密なフォーマット制約は、一般的に推論タスクのパフォーマンス低下につながる。
論文参考訳（メタデータ） (2024-08-05T13:08:24Z)
Concise Thoughts: Impact of Output Length on LLM Reasoning and Cost [4.299153274884264]
本稿では,出力長が大規模言語モデル(LLM)推論パイプラインに与える影響を解析する。テキストの正確さの観点から評価するための新しい指標を提案する。また、改良されたプロンプトエンジニアリング戦略であるConstrained-CoTによる出力長制御の影響についても検討した。
論文参考訳（メタデータ） (2024-07-29T09:21:52Z)
Learning on Graphs with Large Language Models(LLMs): A Deep Dive into Model Robustness [39.57155321515097]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な性能を示している。 LLMがグラフ上での学習において堅牢性を示すかどうかは不明である。
論文参考訳（メタデータ） (2024-07-16T09:05:31Z)
Adapting Large Language Models for Document-Level Machine Translation [46.370862171452444]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクを大幅に進歩させた。近年の研究では、中程度のLLMはタスク固有の微調整後、より大きなLLMよりも優れていることが示されている。本研究では,特定の言語対に対する文書レベルの機械翻訳(DocMT)にLLMを適用することに焦点を当てた。
論文参考訳（メタデータ） (2024-01-12T09:29:13Z)
MenatQA: A New Dataset for Testing the Temporal Comprehension and Reasoning Abilities of Large Language Models [17.322480769274062]
大規模言語モデル(LLM)は、多くの自然言語処理(NLP)タスクにおいてほぼ飽和した性能を示している。本稿では,LLMの時間的理解と推論能力を評価するために,合計2,853個のサンプルを用いた多感性因子時間QA(MenatQA)を構築した。
論文参考訳（メタデータ） (2023-10-08T13:19:52Z)
Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文参考訳（メタデータ） (2023-09-20T09:23:46Z)
Evaluating the Capability of Large-scale Language Models on Chinese Grammatical Error Correction Task [10.597024796304016]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて顕著な能力を示している。本報告では,中国語の文法的誤り訂正タスクにおける大規模言語モデルの性能について検討する。
論文参考訳（メタデータ） (2023-07-08T13:10:59Z)
To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文参考訳（メタデータ） (2023-05-22T17:02:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。