論文の概要: A Mathematical Theory for Learning Semantic Languages by Abstract Learners
- arxiv url: http://arxiv.org/abs/2404.07009v3
- Date: Wed, 15 May 2024 18:05:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-17 18:35:17.341800
- Title: A Mathematical Theory for Learning Semantic Languages by Abstract Learners
- Title(参考訳): 抽象学習者による意味言語学習の数学的理論
- Authors: Kuo-Yu Liao, Cheng-Shang Chang, Y. -W. Peter Hong,
- Abstract要約: 本研究では,学習過程を考慮に入れて,学習スキルの出現を説明する数学的理論を開発する。
トレーニングテキスト数とスキル数との比率が一定の閾値を超えた場合、学習スキルの出現を実証する。
本研究では, サイトパーコレーション解析を用いて, スキルアソシエーショングラフにおける巨大成分の存在条件を導出する。
- 参考スコア(独自算出の注目度): 9.139188656944429
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Large Language Models (LLMs) have demonstrated the emergence of capabilities (learned skills) when the number of system parameters and the size of training data surpass certain thresholds. The exact mechanisms behind such phenomena are not fully understood and remain a topic of active research. Inspired by the skill-text bipartite graph model proposed by Arora and Goyal for modeling semantic languages, we develop a mathematical theory to explain the emergence of learned skills, taking the learning (or training) process into account. Our approach models the learning process for skills in the skill-text bipartite graph as an iterative decoding process in Low-Density Parity Check (LDPC) codes and Irregular Repetition Slotted ALOHA (IRSA). Using density evolution analysis, we demonstrate the emergence of learned skills when the ratio of the number of training texts to the number of skills exceeds a certain threshold. Our analysis also yields a scaling law for testing errors relative to this ratio. Upon completion of the training, the association of learned skills can also be acquired to form a skill association graph. We use site percolation analysis to derive the conditions for the existence of a giant component in the skill association graph. Our analysis can also be extended to the setting with a hierarchy of skills, where a fine-tuned model is built upon a foundation model. It is also applicable to the setting with multiple classes of skills and texts. As an important application, we propose a method for semantic compression and discuss its connections to semantic communication.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、システムパラメータの数とトレーニングデータのサイズが一定の閾値を超えると、能力(学習スキル)が出現することを示した。
このような現象の背後にある正確なメカニズムは完全には理解されておらず、活発な研究のトピックとして残されている。
セマンティック言語をモデル化するためにArora と Goyal が提案したスキルテキスト二部グラフモデルに触発され,学習(あるいは訓練)プロセスを考慮した学習スキルの出現を説明する数学的理論を開発した。
提案手法は,低密度パリティチェック (LDPC) 符号と不規則反復Slotted ALOHA (IRSA) 符号における反復復号プロセスとして,スキルテキスト二部グラフのスキル学習プロセスをモデル化する。
密度進化分析を用いて、トレーニングテキスト数とスキル数との比率が一定の閾値を超えた場合の学習スキルの出現を実証する。
我々の分析は、この比に対して誤差をテストするためのスケーリング法則ももたらします。
トレーニングが完了すると、学習スキルのアソシエーションを取得してスキルアソシエーショングラフを形成することもできる。
本研究では, サイトパーコレーション解析を用いて, スキルアソシエーショングラフにおける巨大成分の存在条件を導出する。
私たちの分析は、基礎モデルに基づいて微調整されたモデルを構築するスキル階層の設定にまで拡張することができます。
それはまた、複数のスキルとテキストのクラスを持つ設定にも当てはまる。
重要な応用として,セマンティック・圧縮の手法を提案し,セマンティック・コミュニケーションへの接続について議論する。
関連論文リスト
- Dynamic Skill Adaptation for Large Language Models [78.31322532135272]
動的スキル適応(Dynamic Skill Adaptation, DSA)は, 言語モデル(LLM)に新しい複雑なスキルを適応させる適応的かつ動的フレームワークである。
各スキルに対して,学習前スキルの詳細な記述を含む教科書的データと,学習前スキルの具体的活用を目標とした演習的データの両方を生成する。
LLAMA や Mistral のような大規模言語モデルを用いた実験は,提案手法が数学推論スキルや社会学習スキルに適応する上で有効であることを示す。
論文 参考訳(メタデータ) (2024-12-26T22:04:23Z) - Large Language Models are Limited in Out-of-Context Knowledge Reasoning [65.72847298578071]
大規模言語モデル (LLMs) は、文脈内推論の実行において広範な知識と強力な能力を持っている。
本稿では、複数の知識を組み合わせて新しい知識を推論する、文脈外知識推論(OCKR)という、文脈外推論の重要な側面に焦点を当てる。
論文 参考訳(メタデータ) (2024-06-11T15:58:59Z) - Generative retrieval-augmented ontologic graph and multi-agent
strategies for interpretive large language model-based materials design [0.0]
トランスフォーマーニューラルネットワークは、特に材料分析、設計、製造において、有望な能力を示す。
本稿では,教材の工学的分析を支援するツールとして,大規模言語モデル(LLM)の利用について検討する。
論文 参考訳(メタデータ) (2023-10-30T20:31:50Z) - A Theory for Emergence of Complex Skills in Language Models [56.947273387302616]
今日のAI製品の主要な要因は、パラメータセットとトレーニングコーパスのスケールアップ時に、言語モデルに新たなスキルが現れることだ。
本稿では,LSMの有名な(かつ実証的な)スケーリング法則と単純な統計的枠組みを用いて,その出現を解析する。
論文 参考訳(メタデータ) (2023-07-29T09:22:54Z) - SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。
メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。
実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-15T08:33:08Z) - Exploring In-Context Learning Capabilities of Foundation Models for
Generating Knowledge Graphs from Text [3.114960935006655]
本論文は,知識グラフの自動構築と完成の技術をテキストから改善することを目的としている。
この文脈では、新しいパラダイムの1つは、言語モデルがプロンプトとともにそのまま使われる、コンテキスト内学習である。
論文 参考訳(メタデータ) (2023-05-15T17:10:19Z) - A Cohesive Distillation Architecture for Neural Language Models [0.0]
自然言語処理の最近のトレンドは、言語モデル(LM)のサイズが指数関数的に増加することである。
本研究では,大規模モデルの効率的な代替手段を提供するために,知識蒸留法(KD)について検討する。
論文 参考訳(メタデータ) (2023-01-12T08:01:53Z) - Schema-aware Reference as Prompt Improves Data-Efficient Knowledge Graph
Construction [57.854498238624366]
本稿では,データ効率のよい知識グラフ構築のためのRAP(Schema-Aware Reference As Prompt)の検索手法を提案する。
RAPは、人間の注釈付きおよび弱教師付きデータから受け継いだスキーマと知識を、各サンプルのプロンプトとして動的に活用することができる。
論文 参考訳(メタデータ) (2022-10-19T16:40:28Z) - DKPLM: Decomposable Knowledge-enhanced Pre-trained Language Model for
Natural Language Understanding [19.478288026844893]
知識強化事前学習言語モデル(英: Knowledge-Enhanced Pre-trained Language Models, KEPLM)は、知識グラフから3重関係を注入して言語理解能力を向上させる事前学習モデルである。
従来の研究は、知識グラフから得られた知識を表現するための知識エンコーダとモデルを統合する。
本稿では,事前学習,微調整,推論段階における事前学習言語モデルの知識注入過程を分解する,DKPLMという新しいKEPLMを提案する。
論文 参考訳(メタデータ) (2021-12-02T08:19:42Z) - KELM: Knowledge Enhanced Pre-Trained Language Representations with
Message Passing on Hierarchical Relational Graphs [26.557447199727758]
本稿では,微調整プロセスに基づく知識認識型言語モデルフレームワークを提案する。
我々のモデルは、KGからの世界知識をBERTのような既存の言語モデルに効率的に組み込むことができる。
論文 参考訳(メタデータ) (2021-09-09T12:39:17Z) - Exploiting Structured Knowledge in Text via Graph-Guided Representation
Learning [73.0598186896953]
本稿では、知識グラフからのガイダンスを用いて、生テキスト上で学習する2つの自己教師型タスクを提案する。
エンティティレベルのマスキング言語モデルに基づいて、最初のコントリビューションはエンティティマスキングスキームです。
既存のパラダイムとは対照的に,本手法では事前学習時にのみ,知識グラフを暗黙的に使用する。
論文 参考訳(メタデータ) (2020-04-29T14:22:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。