Fugu-MT 論文翻訳(概要): Collapse of Self-trained Language Models

論文の概要: Collapse of Self-trained Language Models

arxiv url: http://arxiv.org/abs/2404.02305v1
Date: Tue, 2 Apr 2024 21:03:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-04 19:19:01.528866
Title: Collapse of Self-trained Language Models
Title（参考訳）: 自己学習型言語モデルの崩壊
Authors: David Herel, Tomas Mikolov,
Abstract要約: 私たちは、人間が以前の思考や行動に基づいて学習し、構築する方法に似た、自己学習モデルの自分たちのアウトプットでの可能性を探る。 GPT-2モデルの拡張自己学習により,性能が著しく低下し,繰り返しおよび崩壊したトークンが出力されることがわかった。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In various fields of knowledge creation, including science, new ideas often build on pre-existing information. In this work, we explore this concept within the context of language models. Specifically, we explore the potential of self-training models on their own outputs, akin to how humans learn and build on their previous thoughts and actions. While this approach is intuitively appealing, our research reveals its practical limitations. We find that extended self-training of the GPT-2 model leads to a significant degradation in performance, resulting in repetitive and collapsed token output.
Abstract（参考訳）: 科学を含む知識創造の様々な分野において、新しいアイデアは、しばしば既存の情報に基づいて構築される。本研究では,この概念を言語モデルの文脈内で検討する。具体的には、人間が以前の思考や行動に基づいて学習し、構築する方法に似ています。このアプローチは直感的に魅力的だが、我々の研究は実用的限界を明らかにしている。 GPT-2モデルの拡張自己学習により,性能が著しく低下し,繰り返しおよび崩壊したトークンが出力されることがわかった。

関連論文リスト

Emergent Introspective Awareness in Large Language Models [2.2458442204933]
大規模言語モデルが内部状態をイントロスペクションできるかどうかを検討する。モデルが特定のシナリオにおいて、注入された概念の存在に気付き、それらを正確に識別できることが分かりました。最も有能なモデルであるクロード・オプス4と4.1は、一般に最も内省的な認識を示す。
論文参考訳（メタデータ） (2026-01-05T06:47:41Z)
Continual Learning for Generative AI: From LLMs to MLLMs and Beyond [56.29231194002407]
本稿では,主流生成型AIモデルに対する連続学習手法の総合的な調査を行う。これらのアプローチをアーキテクチャベース、正規化ベース、リプレイベースという3つのパラダイムに分類する。我々は、トレーニング目標、ベンチマーク、コアバックボーンを含む、異なる生成モデルに対する連続的な学習設定を分析する。
論文参考訳（メタデータ） (2025-06-16T02:27:25Z)
TinyThinker: Distilling Reasoning through Coarse-to-Fine Knowledge Internalization with Self-Reflection [2.379928855453728]
大規模言語モデルは、様々なタスクにまたがる印象的な推論能力を示す。これらの機能を、生成された推論データを通じてより小さなモデルに蒸留する試みは、推論プロセスの表面的な模倣につながる可能性がある。 2つの新しいアプローチを紹介するフレームワークであるTinyThinkerを提案する。
論文参考訳（メタデータ） (2024-12-11T02:05:42Z)
From Imitation to Introspection: Probing Self-Consciousness in Language Models [8.357696451703058]
自己意識は自己の存在と思考の内省である。本研究は,言語モデルに対する自己意識の実践的定義を示す。
論文参考訳（メタデータ） (2024-10-24T15:08:17Z)
Unified View of Grokking, Double Descent and Emergent Abilities: A Perspective from Circuits Competition [83.13280812128411]
近年の研究では、グラッキング、二重降下、大規模言語モデルにおける創発的能力など、ディープラーニングにおける興味深い現象が明らかにされている。本稿では,記憶回路と一般化回路の競合に着目し,これら3つの現象の統一的な見方を提供する包括的枠組みを提案する。
論文参考訳（メタデータ） (2024-02-23T08:14:36Z)
Learning Interpretable Concepts: Unifying Causal Representation Learning and Foundation Models [51.43538150982291]
人間の解釈可能な概念をデータから学習する方法を研究する。両分野からアイデアをまとめ、多様なデータから概念を確実に回収できることを示す。
論文参考訳（メタデータ） (2024-02-14T15:23:59Z)
Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文参考訳（メタデータ） (2023-11-08T20:41:18Z)
Learning by Self-Explaining [23.420673675343266]
我々は、自己説明による学習(LSX)と呼ばれる画像分類の文脈において、新しいワークフローを導入する。 LSXは、自己修復型AIと人間誘導型説明機械学習の側面を利用する。本結果は,自己説明による学習による改善を,いくつかのレベルで示すものである。
論文参考訳（メタデータ） (2023-09-15T13:41:57Z)
Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文参考訳（メタデータ） (2023-07-25T17:59:18Z)
Turning large language models into cognitive models [0.0]
大規模言語モデルが認知モデルに変換可能であることを示す。これらのモデルは人間の行動の正確な表現を提供し、2つの意思決定領域において従来の認知モデルよりも優れている。これらの結果は、大規模で事前学習されたモデルが一般的な認知モデルに適応できることを示唆している。
論文参考訳（メタデータ） (2023-06-06T18:00:01Z)
Retentive or Forgetful? Diving into the Knowledge Memorizing Mechanism of Language Models [49.39276272693035]
大規模事前学習型言語モデルは、顕著な記憶能力を示している。プレトレーニングのないバニラニューラルネットワークは、破滅的な忘れ物問題に悩まされていることが長年観察されてきた。 1)バニラ言語モデルは忘れがちである; 2)事前学習は暗黙の言語モデルにつながる; 3)知識の妥当性と多様化は記憶形成に大きな影響を及ぼす。
論文参考訳（メタデータ） (2023-05-16T03:50:38Z)
Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文参考訳（メタデータ） (2022-11-09T18:58:29Z)
Towards Interpretable Deep Reinforcement Learning Models via Inverse Reinforcement Learning [27.841725567976315]
本稿では,逆逆強化学習を利用した新しいフレームワークを提案する。このフレームワークは、強化学習モデルによる決定のグローバルな説明を提供する。モデルの意思決定過程を要約することで、モデルが従う直感的な傾向を捉える。
論文参考訳（メタデータ） (2022-03-30T17:01:59Z)
Inspecting the concept knowledge graph encoded by modern language models [5.2117321443066364]
我々は過去9つの最も影響力のある言語モデルによって符号化された基礎知識について研究する。我々の結果は、全てのモデルがこの知識を符号化しているが、いくつかの不正確さに悩まされていることを示している。我々は、ある概念がなぜ難しいのかを説明する特定の要因を発見するために、体系的な評価を行う。
論文参考訳（メタデータ） (2021-05-27T22:19:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。