論文の概要: A non-ergodic framework for understanding emergent capabilities in Large Language Models
- arxiv url: http://arxiv.org/abs/2501.01638v1
- Date: Fri, 03 Jan 2025 05:11:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-06 15:12:37.847998
- Title: A non-ergodic framework for understanding emergent capabilities in Large Language Models
- Title(参考訳): 大規模言語モデルにおける創発的能力理解のための非エルゴードフレームワーク
- Authors: Javier Marin,
- Abstract要約: 大規模言語モデルには、予期せぬ規模で現れる創発的な能力がある。
スチュアート・カウフマン(Stuart Kauffman)の隣接可能な可能性(TAP)の理論に基づく数学的枠組みを提供し、能力の出現を説明する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Large language models have emergent capabilities that come unexpectedly at scale, but we need a theoretical framework to explain why and how they emerge. We prove that language models are actually non-ergodic systems while providing a mathematical framework based on Stuart Kauffman's theory of the adjacent possible (TAP) to explain capability emergence. Our resource-constrained TAP equation demonstrates how architectural, training, and contextual constraints interact to shape model capabilities through phase transitions in semantic space. We prove through experiments with three different language models that capacities emerge through discrete transitions guided by constraint interactions and path-dependent exploration. This framework provides a theoretical basis for understanding emergence in language models and guides the development of architectures that can guide capability emergence.
- Abstract(参考訳): 大規模言語モデルには予期せぬ能力がありますが、その理由と方法を説明するための理論的なフレームワークが必要です。
スチュアート・カウフマン(Stuart Kauffman)の隣接可能な可能性(TAP)理論に基づく数学的枠組みを提供しながら、言語モデルは実際にはエルゴード系ではないことを証明した。
我々の資源制約付きTAP方程式は、セマンティック空間における相転移を通じて、アーキテクチャ、トレーニング、コンテキスト制約がモデル機能とどのように相互作用するかを示す。
制約相互作用と経路依存探索によって導かれる離散遷移によって、能力が生まれる3つの異なる言語モデルによる実験を通して証明する。
このフレームワークは言語モデルの出現を理解するための理論的基盤を提供し、能力の出現を導くことができるアーキテクチャの開発を導く。
関連論文リスト
- Concept Formation and Alignment in Language Models: Bridging Statistical Patterns in Latent Space to Concept Taxonomy [11.232704182001253]
本稿では,言語モデル(LM)の領域における概念形成とアライメントについて考察する。
様々なLMで学習した意味表現において,概念とその階層構造を識別する機構を提案する。
論文 参考訳(メタデータ) (2024-06-08T01:27:19Z) - Learning Discrete Concepts in Latent Hierarchical Models [73.01229236386148]
自然の高次元データから学習する概念は、ヒューマンアライメントと解釈可能な機械学習モデルの構築の可能性を秘めている。
我々は概念を階層的因果モデルを通して関連付けられた離散潜在因果変数として定式化する。
我々は、理論的な主張を合成データ実験で裏付ける。
論文 参考訳(メタデータ) (2024-06-01T18:01:03Z) - Explaining Text Similarity in Transformer Models [52.571158418102584]
説明可能なAIの最近の進歩により、トランスフォーマーの説明の改善を活用することで、制限を緩和できるようになった。
両線形類似性モデルにおける2次説明の計算のために開発された拡張であるBiLRPを用いて、NLPモデルにおいてどの特徴相互作用が類似性を促進するかを調べる。
我々の発見は、異なる意味的類似性タスクやモデルに対するより深い理解に寄与し、新しい説明可能なAIメソッドが、どのようにして深い分析とコーパスレベルの洞察を可能にするかを強調した。
論文 参考訳(メタデータ) (2024-05-10T17:11:31Z) - Entity Embeddings : Perspectives Towards an Omni-Modality Era for Large
Language Models [0.0]
大規模言語モデル(LLM)は、テキスト、画像、音声などの複数のモダリティを統一された言語空間に統合するために進化している。
我々は、テキストのシーケンスで定義された概念的実体がモダリティとして想像できる未来の方向性を思い描いている。
論文 参考訳(メタデータ) (2023-10-27T17:04:10Z) - Explainability for Large Language Models: A Survey [59.67574757137078]
大規模言語モデル(LLM)は、自然言語処理における印象的な能力を示している。
本稿では,トランスフォーマーに基づく言語モデルを記述する手法について,説明可能性の分類法を紹介した。
論文 参考訳(メタデータ) (2023-09-02T22:14:26Z) - SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。
メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。
実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-15T08:33:08Z) - From Word Models to World Models: Translating from Natural Language to
the Probabilistic Language of Thought [124.40905824051079]
言語インフォームド・シンキングのための計算フレームワークである「構成」を合理的に提案する。
我々は、自然言語から確率論的思考言語への文脈感応的なマッピングとして、言語の意味を定式化する。
LLMは、現実的に適切な言語的意味をキャプチャする文脈依存翻訳を生成することができることを示す。
認知的なモチベーションを持つシンボリックモジュールを統合するために、我々のフレームワークを拡張します。
論文 参考訳(メタデータ) (2023-06-22T05:14:00Z) - A Theory of Emergent In-Context Learning as Implicit Structure Induction [8.17811111226145]
大きな言語モデルをスケールすると、実例からコンテキスト内で学習する能力が創発的になる。
文脈内学習は、自然言語データにみられる合成操作の組換えに依拠していると論じる。
入力の合成構造の表現によって、文脈内学習がどうサポートされるかを示す。
論文 参考訳(メタデータ) (2023-03-14T15:24:05Z) - Model Criticism for Long-Form Text Generation [113.13900836015122]
我々は,テキストの高レベル構造を評価するために,潜在空間におけるモデル批判という統計ツールを適用した。
我々は,コヒーレンス,コア,トピックスという,ハイレベルな談話の3つの代表的な側面について実験を行った。
トランスフォーマーベースの言語モデルでは、トピック構造をキャプチャできるが、構造コヒーレンスやモデリングコアスを維持するのが難しくなる。
論文 参考訳(メタデータ) (2022-10-16T04:35:58Z) - Modelling Compositionality and Structure Dependence in Natural Language [0.12183405753834563]
言語学と集合論に基づいて、これらの概念の形式化がこの論文の前半で述べられている。
言語処理を行う認知システムは,特定の機能的制約を持つ必要がある。
単語埋め込み技術の進歩を利用して、関係学習のモデルがシミュレートされる。
論文 参考訳(メタデータ) (2020-11-22T17:28:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。