論文の概要: A Mathematical Theory for Learning Semantic Languages by Abstract Learners
- arxiv url: http://arxiv.org/abs/2404.07009v2
- Date: Sat, 13 Apr 2024 06:43:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 19:31:26.079817
- Title: A Mathematical Theory for Learning Semantic Languages by Abstract Learners
- Title(参考訳): 抽象学習者による意味言語学習の数学的理論
- Authors: Kuo-Yu Liao, Cheng-Shang Chang, Y. -W. Peter Hong,
- Abstract要約: 大規模言語モデルの最近の進歩は、システムパラメータの数とトレーニングデータのサイズが一定の閾値を超えると、能力(学習スキル)が出現することを示した。
我々は、学習(または訓練)過程を考慮して、学習スキルの出現を説明する数学的理論を開発する。
本稿ではセマンティック圧縮の手法を提案し,そのセマンティックコミュニケーションへの応用について論じる。
- 参考スコア(独自算出の注目度): 9.139188656944429
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Large Language Models (LLMs) have demonstrated the emergence of capabilities (learned skills) when the number of system parameters and the size of training data surpass certain thresholds. The exact mechanisms behind such phenomena are not fully understood and remain a topic of active research. Inspired by the skill-text bipartite graph model presented in [1] for modeling semantic language, we develop a mathematical theory to explain the emergence of learned skills, taking the learning (or training) process into account. Our approach models the learning process for skills in the skill-text bipartite graph as an iterative decoding process in Low-Density Parity Check (LDPC) codes and Irregular Repetition Slotted ALOHA (IRSA). Using density evolution analysis, we demonstrate the emergence of learned skills when the ratio of the size of training texts to the number of skills exceeds a certain threshold. Our analysis also yields a scaling law for testing errors relative to the size of training texts. Upon completion of the training, we propose a method for semantic compression and discuss its application in semantic communication.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、システムパラメータの数とトレーニングデータのサイズが一定の閾値を超えると、能力(学習スキル)が出現することを示した。
このような現象の背後にある正確なメカニズムは完全には理解されておらず、活発な研究のトピックとして残されている。
セマンティック言語をモデル化するために[1]で提示されたスキルテキスト二部グラフモデルにインスパイアされ、学習(または訓練)プロセスを考慮に入れながら、学習スキルの出現を説明する数学的理論を開発する。
提案手法は,低密度パリティチェック (LDPC) 符号と不規則反復Slotted ALOHA (IRSA) 符号における反復復号プロセスとして,スキルテキスト二部グラフのスキル学習プロセスをモデル化する。
密度進化分析を用いて、トレーニングテキストのサイズとスキルの数との比率が一定の閾値を超えた場合の学習スキルの出現を実証する。
私たちの分析は、トレーニングテキストのサイズに対してエラーをテストするためのスケーリング法則ももたらします。
学習が完了するとセマンティック圧縮の手法を提案し,セマンティックコミュニケーションへの応用について議論する。
関連論文リスト
- Large Language Models are Limited in Out-of-Context Knowledge Reasoning [65.72847298578071]
大規模言語モデル (LLMs) は、文脈内推論の実行において広範な知識と強力な能力を持っている。
本稿では、複数の知識を組み合わせて新しい知識を推論する、文脈外知識推論(OCKR)という、文脈外推論の重要な側面に焦点を当てる。
論文 参考訳(メタデータ) (2024-06-11T15:58:59Z) - Generative retrieval-augmented ontologic graph and multi-agent
strategies for interpretive large language model-based materials design [0.0]
トランスフォーマーニューラルネットワークは、特に材料分析、設計、製造において、有望な能力を示す。
本稿では,教材の工学的分析を支援するツールとして,大規模言語モデル(LLM)の利用について検討する。
論文 参考訳(メタデータ) (2023-10-30T20:31:50Z) - A Theory for Emergence of Complex Skills in Language Models [56.947273387302616]
今日のAI製品の主要な要因は、パラメータセットとトレーニングコーパスのスケールアップ時に、言語モデルに新たなスキルが現れることだ。
本稿では,LSMの有名な(かつ実証的な)スケーリング法則と単純な統計的枠組みを用いて,その出現を解析する。
論文 参考訳(メタデータ) (2023-07-29T09:22:54Z) - SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。
メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。
実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-15T08:33:08Z) - Exploring In-Context Learning Capabilities of Foundation Models for
Generating Knowledge Graphs from Text [3.114960935006655]
本論文は,知識グラフの自動構築と完成の技術をテキストから改善することを目的としている。
この文脈では、新しいパラダイムの1つは、言語モデルがプロンプトとともにそのまま使われる、コンテキスト内学習である。
論文 参考訳(メタデータ) (2023-05-15T17:10:19Z) - A Cohesive Distillation Architecture for Neural Language Models [0.0]
自然言語処理の最近のトレンドは、言語モデル(LM)のサイズが指数関数的に増加することである。
本研究では,大規模モデルの効率的な代替手段を提供するために,知識蒸留法(KD)について検討する。
論文 参考訳(メタデータ) (2023-01-12T08:01:53Z) - Schema-aware Reference as Prompt Improves Data-Efficient Knowledge Graph
Construction [57.854498238624366]
本稿では,データ効率のよい知識グラフ構築のためのRAP(Schema-Aware Reference As Prompt)の検索手法を提案する。
RAPは、人間の注釈付きおよび弱教師付きデータから受け継いだスキーマと知識を、各サンプルのプロンプトとして動的に活用することができる。
論文 参考訳(メタデータ) (2022-10-19T16:40:28Z) - DKPLM: Decomposable Knowledge-enhanced Pre-trained Language Model for
Natural Language Understanding [19.478288026844893]
知識強化事前学習言語モデル(英: Knowledge-Enhanced Pre-trained Language Models, KEPLM)は、知識グラフから3重関係を注入して言語理解能力を向上させる事前学習モデルである。
従来の研究は、知識グラフから得られた知識を表現するための知識エンコーダとモデルを統合する。
本稿では,事前学習,微調整,推論段階における事前学習言語モデルの知識注入過程を分解する,DKPLMという新しいKEPLMを提案する。
論文 参考訳(メタデータ) (2021-12-02T08:19:42Z) - KELM: Knowledge Enhanced Pre-Trained Language Representations with
Message Passing on Hierarchical Relational Graphs [26.557447199727758]
本稿では,微調整プロセスに基づく知識認識型言語モデルフレームワークを提案する。
我々のモデルは、KGからの世界知識をBERTのような既存の言語モデルに効率的に組み込むことができる。
論文 参考訳(メタデータ) (2021-09-09T12:39:17Z) - CoLAKE: Contextualized Language and Knowledge Embedding [81.90416952762803]
文脈型言語と知識埋め込み(CoLAKE)を提案する。
CoLAKEは、言語と知識の両方の文脈化された表現を、拡張された目的によって共同で学習する。
知識駆動タスク、知識探索タスク、言語理解タスクについて実験を行う。
論文 参考訳(メタデータ) (2020-10-01T11:39:32Z) - Exploiting Structured Knowledge in Text via Graph-Guided Representation
Learning [73.0598186896953]
本稿では、知識グラフからのガイダンスを用いて、生テキスト上で学習する2つの自己教師型タスクを提案する。
エンティティレベルのマスキング言語モデルに基づいて、最初のコントリビューションはエンティティマスキングスキームです。
既存のパラダイムとは対照的に,本手法では事前学習時にのみ,知識グラフを暗黙的に使用する。
論文 参考訳(メタデータ) (2020-04-29T14:22:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。