論文の概要: Cognitive Training for Language Models: Towards General Capabilities via Cross-Entropy Games
- arxiv url: http://arxiv.org/abs/2603.22479v2
- Date: Thu, 26 Mar 2026 02:32:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 13:32:29.881733
- Title: Cognitive Training for Language Models: Towards General Capabilities via Cross-Entropy Games
- Title(参考訳): 言語モデルのための認知訓練:クロスエントロピーゲームによる汎用能力を目指して
- Authors: Clément Hongler, Franck Gabriel, Valentin Hartmann, Arthur Renard, Andrew Emil,
- Abstract要約: 本稿では,関連するスキル発見を通じてモデルを成長させるタスクのカリキュラムを構築することの問題点について考察する。
グリーディ最適化アルゴリズムを反復することで、関連するスキル発見のカリキュラムを成長させることができれば、本質的に1つのメタオブジェクトしか実現できないことを示す。
プレイヤーやメタサンプルとして十分な能力を持つ言語モデルと十分なトレーニング時間があれば、認知トレーニングは、関連するスキル発見の原則的な方法を提供すると仮定する。
- 参考スコア(独自算出の注目度): 3.936890386464025
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Defining a constructive process to build general capabilities for language models in an automatic manner is considered an open problem in artificial intelligence. Towards this, we consider the problem of building a curriculum of tasks that grows a model via relevant skill discovery. We provide a concrete framework for this task, using a family of tasks called cross-entropy games, which we postulate is universal in a suitable sense. We show that if it is possible to grow the curriculum for relevant skill discovery by iterating a greedy optimization algorithm, then, under natural assumptions, there is essentially only one meta-objective possible (up to a few hyperparameters). We call the resulting process cognitive training. We postulate that, given sufficiently capable language models as players and meta-samplers and sufficient training time, cognitive training provides a principled way to relevant skill discovery; and hence to the extent general capabilities are achievable via greedy curriculum learning, cognitive training would be a solution.
- Abstract(参考訳): 言語モデルの汎用機能を自動で構築する構築プロセスを定義することは、人工知能におけるオープンな問題であると考えられている。
そこで本研究では,関連するスキル発見を通じてモデルを成長させるタスクのカリキュラムを構築することの課題について考察する。
我々は、クロスエントロピーゲームと呼ばれるタスクのファミリーを用いて、このタスクのための具体的なフレームワークを提供する。
グリーディ最適化アルゴリズムを反復することにより、関連するスキル発見のカリキュラムを成長させることができれば、自然な仮定の下では、本質的に1つのメタオブジェクト(最大数パラメータ)しか持たないことが示される。
私たちはその結果のプロセス認知トレーニングを呼んでいます。
プレイヤーやメタサンプラーとして十分な能力を持つ言語モデルと十分なトレーニング時間によって、認知トレーニングは、関連するスキル発見に原則化された方法を提供する。
関連論文リスト
- Shapes of Cognition for Computational Cognitive Modeling [0.0]
認知の形状は、言語発達型知的エージェントの計算認知モデルのための新しい概念パラダイムである。
形状に基づくモデリングには、特定の目的、仮説、モデリング戦略、知識ベース、および幅広い現象の実際のモデルが含まれる。
論文 参考訳(メタデータ) (2025-09-16T17:39:58Z) - Pretrained Bayesian Non-parametric Knowledge Prior in Robotic Long-Horizon Reinforcement Learning [10.598207472087578]
強化学習(Reinforcement Learning, RL)の手法は通常、新しいタスクをゼロから学習する。
この研究は、潜在的な原始的なスキルモーションを未知の特徴を持つ非パラメトリックな特性を持つものとしてモデル化する手法を導入する。
非パラメトリックモデル、特にDirichlet Process Mixturesは、出生とマージによって強化され、スキルの多様な性質を効果的に捉えるための事前トレーニングに使用される。
論文 参考訳(メタデータ) (2025-03-27T20:43:36Z) - Training a Generally Curious Agent [77.61142660542599]
Paprikaは、言語モデルが一般的な意思決定機能を開発することを可能にする微調整のアプローチである。
Paprika氏は、より勾配の更新をすることなく、コンテキスト内の環境フィードバックに基づいて、新しいタスクで彼らの振る舞いを探索し、適応するようにモデルに教えている。
結果は、シーケンシャルな意思決定問題を自律的に解決できるAIシステムへの有望な道のりを示唆している。
論文 参考訳(メタデータ) (2025-02-24T18:56:58Z) - Symbolic Learning Enables Self-Evolving Agents [55.625275970720374]
エージェントシンボリックラーニング(エージェントシンボリックラーニング)(エージェントシンボリックラーニング)は、言語エージェントが自分自身で最適化できるための体系的なフレームワークである。
エージェント記号学習は、コネクショナリズム学習における2つの基本的なアルゴリズムを模倣することにより、言語エージェント内のシンボルネットワークを最適化するように設計されている。
我々は、標準ベンチマークと複雑な実世界のタスクの両方で概念実証実験を行う。
論文 参考訳(メタデータ) (2024-06-26T17:59:18Z) - Rethinking Mutual Information for Language Conditioned Skill Discovery
on Imitation Learning [36.624923972563415]
我々はLanguage Conditioned Skill Discovery (LCSD)として知られるエンドツーエンドの模倣学習手法を提案する。
ベクトル量子化を利用して離散潜在スキルを学習し、軌跡のスキルシーケンスを活用して高レベルの意味的命令を再構築する。
提案手法は,未確認タスクに対する一般化能力の向上,スキル解釈性の向上,タスク完了の成功率の向上などを示す。
論文 参考訳(メタデータ) (2024-02-27T13:53:52Z) - Towards A Unified Agent with Foundation Models [18.558328028366816]
強化学習(RL)エージェントにそのような能力を組み込んで活用する方法を検討する。
我々は、言語を中核的推論ツールとして使用するフレームワークを設計し、エージェントが一連の基本的なRL課題にどのように取り組むことができるかを探る。
探索効率とオフラインデータセットからのデータの再利用能力において,ベースラインよりも大幅にパフォーマンスが向上したことを示す。
論文 参考訳(メタデータ) (2023-07-18T22:37:30Z) - Define, Evaluate, and Improve Task-Oriented Cognitive Capabilities for
Instruction Generation Models [5.975913042883176]
最近の研究は、人間のために設計された心理学的テストを通して言語モデルの認知能力を研究する。
我々は、言語モデルがタスクを実行するために利用する人間のような認知能力であるタスク指向認知能力を定式化する。
論文 参考訳(メタデータ) (2022-12-21T04:43:19Z) - Do As I Can, Not As I Say: Grounding Language in Robotic Affordances [119.29555551279155]
大規模な言語モデルは、世界に関する豊富な意味知識を符号化することができる。
このような知識は、自然言語で表現された高レベルで時間的に拡張された命令を動作させようとするロボットにとって極めて有用である。
低レベルのスキルを大規模言語モデルと組み合わせることで,言語モデルが複雑かつ時間的に拡張された命令を実行する手順について高いレベルの知識を提供することを示す。
論文 参考訳(メタデータ) (2022-04-04T17:57:11Z) - WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model [74.4875156387271]
我々は,膨大なマルチモーダル(視覚的・テキスト的)データを事前学習した新しい基礎モデルを開発する。
そこで本研究では,様々な下流タスクにおいて,最先端の成果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-27T12:25:21Z) - Leap-Of-Thought: Teaching Pre-Trained Models to Systematically Reason
Over Implicit Knowledge [96.92252296244233]
大規模な事前学習言語モデル(LM)は推論能力を得るが、制御は困難である。
本研究では,暗黙的,事前学習された知識と明示的な自然言語文を併用して,体系的推論を確実に行うことができることを示す。
我々の研究は、シンプルな自然言語文を追加することで、モデルを簡単に修正できるユーザと対話することで、常に改善されるオープンドメインシステムへの道を開く。
論文 参考訳(メタデータ) (2020-06-11T17:02:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。