Fugu-MT 論文翻訳(概要): Understanding LLM Performance Degradation in Multi-Instance Processing: The Roles of Instance Count and Context Length

論文の概要: Understanding LLM Performance Degradation in Multi-Instance Processing: The Roles of Instance Count and Context Length

arxiv url: http://arxiv.org/abs/2603.22608v1
Date: Mon, 23 Mar 2026 22:13:15 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-25 19:53:37.204459
Title: Understanding LLM Performance Degradation in Multi-Instance Processing: The Roles of Instance Count and Context Length
Title（参考訳）: マルチインスタンス処理におけるLCM性能劣化の理解:インスタンス数とコンテキスト長の役割
Authors: Jingxuan Chen, Mohammad Taher Pilehvar, Jose Camacho-Collados,
Abstract要約: 大規模言語モデル(LLM)は、複数のドキュメントを処理するか、複数のインスタンスで分析を行うために使用される。本稿では,LLMが個々にエクササイズするタスクに対して,LLMの能力を評価する。その結果、全てのLLMは少数のインスタンスに対してわずかに性能劣化のパターンを辿り、続いてより大きなインスタンス数でパフォーマンスが崩壊することがわかった。
参考スコア（独自算出の注目度）: 15.27910256601728
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Users often rely on Large Language Models (LLMs) for processing multiple documents or performing analysis over a number of instances. For example, analysing the overall sentiment of a number of movie reviews requires an LLM to process the sentiment of each review individually in order to provide a final aggregated answer. While LLM performance on such individual tasks is generally high, there has been little research on how LLMs perform when dealing with multi-instance inputs. In this paper, we perform a comprehensive evaluation of the multi-instance processing (MIP) ability of LLMs for tasks in which they excel individually. The results show that all LLMs follow a pattern of slight performance degradation for small numbers of instances (approximately 20-100), followed by a performance collapse on larger instance counts. Crucially, our analysis shows that while context length is associated with this degradation, the number of instances has a stronger effect on the final results. This finding suggests that when optimising LLM performance for MIP, attention should be paid to both context length and, in particular, instance count.
Abstract（参考訳）: ユーザは、複数のドキュメントを処理したり、複数のインスタンスで分析を行うために、Large Language Models (LLM) を利用することが多い。例えば、映画レビューの全体的な感情を分析するには、最終集計された回答を提供するために、各レビューの感情を個別に処理する必要がある。個々のタスクにおけるLLMの性能は一般的に高いが、マルチインスタンス入力を扱う場合のLLMの性能についてはほとんど研究されていない。本稿では,LLMのマルチインスタンス処理能力(MIP)の総合的な評価を行う。その結果,全てのLLMは少数のインスタンス(約20～100)に対してわずかに性能劣化のパターンに従っており,その後,より大きなインスタンス数で性能低下が見られた。重要なことは、この劣化に文脈長が関係しているにもかかわらず、最終的な結果により強い影響があることが、我々の分析によって示される。この結果は、MIPのLLM性能を最適化する場合、コンテキスト長と特にインスタンス数の両方に注意を払う必要があることを示唆している。

関連論文リスト

LLMs Get Lost In Multi-Turn Conversation [44.26588510453331]
LLM(Large Language Models)は、対話型インタフェースである。 LLMは、手元のタスクを完全に指定できるだけでなく、マルチターンの会話交換を通じて必要なものを定義、探索、洗練する上でも、ユーザを支援することができる。
論文参考訳（メタデータ） (2025-05-09T15:21:44Z)
LLMs as Data Annotators: How Close Are We to Human Performance [47.61698665650761]
データのマニュアルアノテーションは、労働集約的で、時間がかかり、コストがかかる。 In-context Learning (ICL) では、タスクに関連するいくつかの例がプロンプトで与えられると、非効率性や準最適モデルの性能につながる可能性がある。本稿では,NERタスクの様々なデータセットに対して,異なる埋め込みモデルを考慮した複数のLLMの比較実験を行う。
論文参考訳（メタデータ） (2025-04-21T11:11:07Z)
ToolScan: A Benchmark for Characterizing Errors in Tool-Use LLMs [77.79172008184415]
TOOLSCANは、ツール使用タスクのLLM出力におけるエラーパターンを特定するための新しいベンチマークである。もっとも顕著なLCMでも,これらの誤りパターンが出力に現れることを示す。研究者たちは、TOOLSCANのこれらの洞察を使って、エラー軽減戦略をガイドすることができる。
論文参考訳（メタデータ） (2024-11-20T18:56:22Z)
100 instances is all you need: predicting the success of a new LLM on unseen data by testing on a few instances [11.783547185760007]
従来試験されていたLCMの評価結果を用いて,新たなLCMの性能予測に必要な評価回数を削減する。既存の推論データセットの集合であるHELM-LiteとKidsOfReasoningについて実証的研究を行った。
論文参考訳（メタデータ） (2024-09-05T14:19:45Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
Are More LLM Calls All You Need? Towards Scaling Laws of Compound Inference Systems [76.69936664916061]
LM呼び出し回数がVotteとFilter-Voteのパフォーマンスに与える影響について検討する。意外なことに、複数の言語タスクにおいて、VoteとFilter-Voteの両方のパフォーマンスは、まず増大するが、LM呼び出しの回数の関数として減少する可能性がある。
論文参考訳（メタデータ） (2024-03-04T19:12:48Z)
Not All Layers of LLMs Are Necessary During Inference [68.88671495401483]
いくつかのタスクにおいて、Large Language Modelsはいくつかの中間層での最終的な出力に匹敵する結果が得られることを示す。本稿では,入力インスタンスの推論処理を適応的に終了するアルゴリズムAdaInferを提案する。
論文参考訳（メタデータ） (2024-03-04T16:23:58Z)
State of What Art? A Call for Multi-Prompt LLM Evaluation [28.307860675006545]
我々は650万インスタンスにわたる単発評価により得られた結果の脆さを包括的に分析した。解析のロバスト性を改善するために,多様なプロンプトのセットを用いてLSMを評価することを提案する。
論文参考訳（メタデータ） (2023-12-31T22:21:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。