論文の概要: Quantifying Generalization Complexity for Large Language Models
- arxiv url: http://arxiv.org/abs/2410.01769v2
- Date: Thu, 3 Oct 2024 15:30:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 15:24:19.017221
- Title: Quantifying Generalization Complexity for Large Language Models
- Title(参考訳): 大規模言語モデルの一般化複雑性の定量化
- Authors: Zhenting Qi, Hongyin Luo, Xuliang Huang, Zhuokai Zhao, Yibo Jiang, Xiangjun Fan, Himabindu Lakkaraju, James Glass,
- Abstract要約: 大規模言語モデルの一般化能力を定量的に測定する動的評価フレームワークであるScyllaを紹介する。
Scyllaは、イン・ディストリビューション(ID)データとアウト・オブ・ディストリビューション(OOD)データの両方でモデル性能を評価することによって、メモリ化から一般化を遠ざける。
LLaMAやQwenファミリといったオープンソースモデルと、ClaudeやGPTといったクローズソースモデルの両方を含む28LLMをベンチマークします。
- 参考スコア(独自算出の注目度): 31.721781613271066
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While large language models (LLMs) have shown exceptional capabilities in understanding complex queries and performing sophisticated tasks, their generalization abilities are often deeply entangled with memorization, necessitating more precise evaluation. To address this challenge, we introduce Scylla, a dynamic evaluation framework that quantitatively measures the generalization abilities of LLMs. Scylla disentangles generalization from memorization via assessing model performance on both in-distribution (ID) and out-of-distribution (OOD) data through 20 tasks across 5 levels of complexity. Through extensive experiments, we uncover a non-monotonic relationship between task complexity and the performance gap between ID and OOD data, which we term the generalization valley. Specifically, this phenomenon reveals a critical threshold - referred to as critical complexity - where reliance on non-generalizable behavior peaks, indicating the upper bound of LLMs' generalization capabilities. As model size increases, the critical complexity shifts toward higher levels of task complexity, suggesting that larger models can handle more complex reasoning tasks before over-relying on memorization. Leveraging Scylla and the concept of critical complexity, we benchmark 28LLMs including both open-sourced models such as LLaMA and Qwen families, and close-sourced models like Claude and GPT, providing a more robust evaluation and establishing a clearer understanding of LLMs' generalization capabilities.
- Abstract(参考訳): 大規模言語モデル(LLM)は複雑なクエリの理解と高度なタスクの実行において例外的な能力を示してきたが、それらの一般化能力は暗記と深く絡み合っており、より正確な評価を必要としている。
この課題に対処するために, LLMの一般化能力を定量的に測定する動的評価フレームワークであるScyllaを紹介する。
Scyllaは5段階の複雑さで20のタスクを通して、ID(In-distriion)データとOOD(Out-of-distriion)データの両方でモデルパフォーマンスを評価することによって、記憶の一般化から切り離す。
広範な実験により,タスク複雑性とIDデータとOODデータのパフォーマンスギャップの非単調な関係が明らかとなり,一般化バレー(Generalization Valley)と呼ぶ。
具体的には、この現象は(臨界複雑性と呼ばれる)臨界しきい値を示し、非一般化可能な振る舞いに依存し、LLMの一般化能力の上限を示す。
モデルのサイズが大きくなるにつれて、臨界複雑性はタスクの複雑さのレベルにシフトし、大きなモデルが暗記を過度に参照する前により複雑な推論タスクを処理できることが示唆される。
Scyllaと臨界複雑性の概念を活用して、LLaMAやQwenファミリーのようなオープンソースモデルとClaudeやGPTのようなオープンソースモデルの両方を含む28LLMをベンチマークし、より堅牢な評価を提供し、LLMの一般化能力のより明確な理解を確立する。
関連論文リスト
- CLR-Fact: Evaluating the Complex Logical Reasoning Capability of Large Language Models over Factual Knowledge [44.59258397967782]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにまたがる印象的な機能を示している。
本稿では,LLMの複雑な論理的推論能力の体系的評価について述べる。
LLMは一般世界の知識の推論に優れるが、専門分野固有の知識では重大な課題に直面している。
論文 参考訳(メタデータ) (2024-07-30T05:40:32Z) - Do Large Language Models Have Compositional Ability? An Investigation into Limitations and Scalability [12.349247962800813]
大規模言語モデル(LLM)は多くのAI問題に対する強力なツールとして登場した。
また、ICL(In-context Learning)機能も備えている。
複合的なタスクにどのようにアプローチするかは、未解明の未解決の問題のままである。
論文 参考訳(メタデータ) (2024-07-22T15:22:34Z) - Benchmarking Complex Instruction-Following with Multiple Constraints Composition [72.82640456309821]
大規模言語モデル(LLM)の複雑な命令追従能力の評価方法が重要な研究課題となっている。
既存のベンチマークは主に、異なる制約の構成を無視しながら、人間の指示で異なるタイプの制約をモデル化することに焦点を当てている。
複数の制約からなる複雑な命令に従うLLMの能力を総合的に評価するためのベンチマークである ComplexBench を提案する。
論文 参考訳(メタデータ) (2024-07-04T14:50:45Z) - A Notion of Complexity for Theory of Mind via Discrete World Models [2.487142846438629]
ToM(Theory of Mind)は、社会的推論が必要な複雑なシナリオにおいて、LLM(Large Language Models)の機能を評価するために用いられる。
本研究では,ToMタスクの複雑さを測定するための認知負荷理論に着想を得たフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-16T16:46:55Z) - Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity [59.57065228857247]
Retrieval-augmented Large Language Models (LLMs) は、質問回答(QA)のようなタスクにおける応答精度を高めるための有望なアプローチとして登場した。
本稿では,クエリの複雑さに基づいて,LLMの最適戦略を動的に選択できる適応型QAフレームワークを提案する。
オープンドメインのQAデータセットを用いて、複数のクエリの複雑さを網羅し、QAシステムの全体的な効率性と精度を高めることを示す。
論文 参考訳(メタデータ) (2024-03-21T13:52:30Z) - Unveiling the Generalization Power of Fine-Tuned Large Language Models [81.70754292058258]
大規模言語モデル(LLM)に固有の内在的一般化能力に微調整が及ぼす影響について検討する。
本研究の主目的は、生成タスクと分類タスクを微調整したモデルが、異なる領域やタスクに一般化する際に異なる振る舞いを示すことである。
生成タスクの微調整中にコンテキスト内学習戦略を統合することで、モデルの一般化能力を高めることができる。
論文 参考訳(メタデータ) (2024-03-14T08:18:59Z) - Parrot Mind: Towards Explaining the Complex Task Reasoning of Pretrained Large Language Models with Template-Content Structure [66.33623392497599]
テンプレート・コンテント構造(T-C構造)と呼ばれる構造は指数レベルから線形レベルへの可能な空間を減少させることができることを示す。
モデルがタスク構成を達成でき、線形から対数への学習に必要なスペースをさらに削減できることを実証する。
論文 参考訳(メタデータ) (2023-10-09T06:57:45Z) - Can Large Language Models Understand Real-World Complex Instructions? [54.86632921036983]
大型言語モデル(LLM)は人間の指示を理解することができるが、複雑な命令には耐えられない。
既存のベンチマークでは、LLMが複雑な命令を理解する能力を評価するには不十分である。
複雑な命令を体系的に追従するLSMの能力を評価するためのベンチマークであるCellOを提案する。
論文 参考訳(メタデータ) (2023-09-17T04:18:39Z) - Skills-in-Context Prompting: Unlocking Compositionality in Large Language Models [68.18370230899102]
大規模言語モデル(LLM)における構成一般化能力の活用法について検討する。
我々は,これらのスキルに基礎を置く基礎的スキルと構成的事例の両方を同じプロンプト・コンテキストで示すことが重要であることを発見した。
SKiC型データを用いた微調整LDMは、ゼロショット弱強一般化を導出できることを示す。
論文 参考訳(メタデータ) (2023-08-01T05:54:12Z) - Model-agnostic Measure of Generalization Difficulty [7.183430740278161]
そこで本研究では,タスク固有の一般化難易度について,モデルに依存しない最初の尺度を提案する。
本手法は,データから得られる情報を除くタスクの一般化に必要な総情報の定量化を行う。
これは、モデルが一般化しなければならない空間の本質的な次元と指数関数的にスケールするが、次元ごとの分解では直感的にしかできない。
論文 参考訳(メタデータ) (2023-05-01T18:48:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。