論文の概要: Revealing the structure of language model capabilities
- arxiv url: http://arxiv.org/abs/2306.10062v1
- Date: Wed, 14 Jun 2023 15:43:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-26 01:29:35.378935
- Title: Revealing the structure of language model capabilities
- Title(参考訳): 言語モデル能力の構造を明らかにする
- Authors: Ryan Burnell, Han Hao, Andrew R. A. Conway, and Jose Hernandez Orallo
- Abstract要約: 27の認知タスクにわたる29の異なる大言語モデルからのデータを分析した。
その結果、異なるLLMの能力において一貫した構造が明らかとなった。
ベンチマークは、各幅広いモデル能力に合わせたタスクにフォーカスすることで、合理化できる可能性が示唆されている。
- 参考スコア(独自算出の注目度): 4.037009782513272
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building a theoretical understanding of the capabilities of large language
models (LLMs) is vital for our ability to predict and explain the behavior of
these systems. Here, we investigate the structure of LLM capabilities by
extracting latent capabilities from patterns of individual differences across a
varied population of LLMs. Using a combination of Bayesian and frequentist
factor analysis, we analyzed data from 29 different LLMs across 27 cognitive
tasks. We found evidence that LLM capabilities are not monolithic. Instead,
they are better explained by three well-delineated factors that represent
reasoning, comprehension and core language modeling. Moreover, we found that
these three factors can explain a high proportion of the variance in model
performance. These results reveal a consistent structure in the capabilities of
different LLMs and demonstrate the multifaceted nature of these capabilities.
We also found that the three abilities show different relationships to model
properties such as model size and instruction tuning. These patterns help
refine our understanding of scaling laws and indicate that changes to a model
that improve one ability might simultaneously impair others. Based on these
findings, we suggest that benchmarks could be streamlined by focusing on tasks
that tap into each broad model ability.
- Abstract(参考訳): 大規模言語モデル(LLM)の能力に関する理論的理解を構築することは、これらのシステムの振る舞いを予測し、説明する能力に不可欠である。
本稿では, LLMの個体群間での個人差パターンから潜在能力を抽出し, LLMの機能構造について検討する。
ベイジアン因子と頻繁な因子分析の組み合わせを用いて,27の認知タスクにわたる29のLLMからのデータを分析した。
LLM機能はモノリシックではないという証拠が見つかった。
その代わり、推論、理解、コア言語モデリングを表す3つのよく定義された要素によってよりよく説明されます。
さらに,これらの3因子は,モデル性能のばらつきの比率が高いことを説明できることがわかった。
これらの結果は、異なるLLMの能力において一貫した構造を示し、これらの能力の多面的性質を示す。
また,3つの能力はモデルサイズや命令チューニングなどのモデル特性と異なる関係を示すことがわかった。
これらのパターンは、スケーリング法則の理解を深め、ある能力を改善するモデルの変更が同時に他人を損なう可能性があることを示すのに役立つ。
これらの結果から,各モデル能力に合わせたタスクに着目して,ベンチマークを合理化できることが示唆された。
関連論文リスト
- Reasoning or a Semblance of it? A Diagnostic Study of Transitive Reasoning in LLMs [11.805264893752154]
我々は,2つの構成データセット(QASCとBamboogle)で事実を演算することで,LLaMA 2とFlan-T5という2つの大言語モデルの推論能力を評価する。
両モデルとも (a) を併用するが, Flan-T5 は LLaMA 2 よりもばらつきが小さい。
このことは、モデルが故意に関係のあるデータセットを微調整することで、推移性の理解を深める可能性があることを示唆している。
論文 参考訳(メタデータ) (2024-10-26T15:09:07Z) - An LLM Feature-based Framework for Dialogue Constructiveness Assessment [8.87747076871578]
対話構築性評価に関する研究は、(i)個人が特定の行動をとること、議論に勝つこと、視点を変えること、またはオープンマインドネスを広げること、および(ii)そのような事例に対する対話に続く構成性の結果を予測することに焦点を当てている。
これらの目的は、解釈可能な特徴ベースモデルか、事前訓練された言語モデルのようなニューラルモデルのいずれかをトレーニングすることで達成できる。
特徴ベースとニューラルアプローチの強みを組み合わせた対話構築性評価のためのLLM特徴ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-20T22:10:52Z) - Verbalized Probabilistic Graphical Modeling with Large Language Models [8.961720262676195]
この研究は、大規模言語モデルによる学習自由ベイズ推論を促進する新しいベイズ急進的アプローチを導入している。
本研究は,AI言語理解システムの改善の可能性を示すとともに,信頼性評価とテキスト生成品質を効果的に向上させることを示唆する。
論文 参考訳(メタデータ) (2024-06-08T16:35:31Z) - Unveiling the Generalization Power of Fine-Tuned Large Language Models [81.70754292058258]
大規模言語モデル(LLM)に固有の内在的一般化能力に微調整が及ぼす影響について検討する。
本研究の主目的は、生成タスクと分類タスクを微調整したモデルが、異なる領域やタスクに一般化する際に異なる振る舞いを示すことである。
生成タスクの微調整中にコンテキスト内学習戦略を統合することで、モデルの一般化能力を高めることができる。
論文 参考訳(メタデータ) (2024-03-14T08:18:59Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z) - LLM Augmented LLMs: Expanding Capabilities through Composition [56.40953749310957]
CALM -- 言語モデルの拡張のための構成 -- は、モデル間の相互アテンションを導入して、表現を構成し、新しい機能を有効にする。
低リソース言語で訓練されたより小さなモデルでPaLM2-Sを増強すると、英語への翻訳のようなタスクで最大13%の改善が達成される。
PaLM2-Sがコード固有モデルで拡張されると、コード生成や説明タスクのベースモデルよりも40%向上する。
論文 参考訳(メタデータ) (2024-01-04T18:53:01Z) - Explanation-aware Soft Ensemble Empowers Large Language Model In-context
Learning [50.00090601424348]
大規模言語モデル(LLM)は、様々な自然言語理解タスクにおいて顕著な能力を示している。
我々は,LLMを用いたテキスト内学習を支援するための説明型ソフトアンサンブルフレームワークであるEASEを提案する。
論文 参考訳(メタデータ) (2023-11-13T06:13:38Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - Competence-Based Analysis of Language Models [21.43498764977656]
CALM (Competence-based Analysis of Language Models) は、特定のタスクの文脈におけるLLM能力を調べるために設計された。
我々は,勾配に基づく対向攻撃を用いた因果探究介入を行うための新しい手法を開発した。
これらの介入を用いてCALMのケーススタディを行い、様々な語彙推論タスクにおけるLCM能力の分析と比較を行う。
論文 参考訳(メタデータ) (2023-03-01T08:53:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。