論文の概要: Limits of Transformer Language Models on Algorithmic Learning
- arxiv url: http://arxiv.org/abs/2402.05785v1
- Date: Thu, 8 Feb 2024 16:23:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 14:14:40.873733
- Title: Limits of Transformer Language Models on Algorithmic Learning
- Title(参考訳): アルゴリズム学習におけるトランスフォーマー言語モデルの限界
- Authors: Jonathan Thomm, Aleksandar Terzic, Geethan Karunaratne, Giacomo
Camposampiero, Bernhard Sch\"olkopf, Abbas Rahimi
- Abstract要約: 離散アルゴリズム学習におけるトランスフォーマー言語モデルの性能解析を行う。
LLaMAモデルをスクラッチからトレーニングし,GPT-4とGeminiで学習プリミティブの学習組成を測定する。
- 参考スコア(独自算出の注目度): 50.55849595782243
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We analyze the capabilities of Transformer language models on learning
discrete algorithms. To this end, we introduce two new tasks demanding the
composition of several discrete sub-tasks. On both training LLaMA models from
scratch and prompting on GPT-4 and Gemini we measure learning compositions of
learned primitives. We observe that the compositional capabilities of
state-of-the-art Transformer language models are very limited and sample-wise
scale worse than relearning all sub-tasks for a new algorithmic composition. We
also present a theorem in complexity theory, showing that gradient descent on
memorizing feedforward models can be exponentially data inefficient.
- Abstract(参考訳): 離散アルゴリズム学習におけるトランスフォーマー言語モデルの性能解析を行う。
この目的のために,複数の個別サブタスクの構成を要求する2つの新しいタスクを導入する。
LLaMAモデルをスクラッチからトレーニングし,GPT-4とGeminiで学習プリミティブの学習組成を測定する。
最新のトランスフォーマー言語モデルの合成能力は非常に限定的であり、新しいアルゴリズム構成のために全てのサブタスクを再学習するよりもサンプル単位のスケールが最悪である。
また、複雑性理論の定理として、フィードフォワードモデルを記憶する勾配勾配が指数関数的に非効率であることを示す。
関連論文リスト
- Layer by Layer: Uncovering Where Multi-Task Learning Happens in Instruction-Tuned Large Language Models [22.676688441884465]
タスクの多種多様な配列で訓練済みの大規模言語モデル(LLM)を微調整することが、モデル構築の一般的なアプローチとなっている。
本研究では,事前学習したLLMに符号化されたタスク固有情報と,その表現に対する指導指導の効果について検討する。
論文 参考訳(メタデータ) (2024-10-25T23:38:28Z) - CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models [68.64605538559312]
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。
そこで本研究では,学習バランスを定量的に評価する尺度を提案する。
さらに,MLLMの生成分布の更新を促進する補助的損失正規化手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T23:18:55Z) - Understanding In-Context Learning in Transformers and LLMs by Learning
to Learn Discrete Functions [32.59746882017483]
本論文では,トランスフォーマーが一つのタスクを解くために2つの異なるアルゴリズムを実装することを学習できることを示す。
また,既存のLarge Language Models (LLMs) は,予測タスクにおいて最寄りのベースラインと競合することを示す。
論文 参考訳(メタデータ) (2023-10-04T17:57:33Z) - On Conditional and Compositional Language Model Differentiable Prompting [75.76546041094436]
プロンプトは、下流タスクでうまく機能するために、凍結した事前訓練言語モデル(PLM)を適応するための効果的な方法であることが示されている。
タスク命令や入力メタデータを連続的なプロンプトに変換することを学習する新しいモデル Prompt Production System (PRopS) を提案する。
論文 参考訳(メタデータ) (2023-07-04T02:47:42Z) - Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。
これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。
結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文 参考訳(メタデータ) (2023-06-25T02:39:19Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - CodeGen2: Lessons for Training LLMs on Programming and Natural Languages [116.74407069443895]
我々はエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一する。
学習方法は,「フリーランチ」仮説の主張を考察する。
データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2023-05-03T17:55:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。