論文の概要: Generalising from Self-Produced Data: Model Training Beyond Human Constraints
- arxiv url: http://arxiv.org/abs/2504.04711v1
- Date: Mon, 07 Apr 2025 03:48:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:11:54.656210
- Title: Generalising from Self-Produced Data: Model Training Beyond Human Constraints
- Title(参考訳): 自己生成データからの一般化:人間の制約を超えたモデルトレーニング
- Authors: Alfath Daryl Alhajir, Jennifer Dodgson, Joseph Lim, Truong Ma Phi, Julian Peh, Akira Rafhael Janson Pattirane, Lokesh Poovaragan,
- Abstract要約: 本稿では,AIモデルが新たな知識を自律的に生成し,検証する新しい枠組みを提案する。
このアプローチの中心は、人間のベンチマークを必要とせずに学習をガイドする、無制限で使い捨ての数値報酬である。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Current large language models (LLMs) are constrained by human-derived training data and limited by a single level of abstraction that impedes definitive truth judgments. This paper introduces a novel framework in which AI models autonomously generate and validate new knowledge through direct interaction with their environment. Central to this approach is an unbounded, ungamable numeric reward - such as annexed disk space or follower count - that guides learning without requiring human benchmarks. AI agents iteratively generate strategies and executable code to maximize this metric, with successful outcomes forming the basis for self-retraining and incremental generalisation. To mitigate model collapse and the warm start problem, the framework emphasizes empirical validation over textual similarity and supports fine-tuning via GRPO. The system architecture employs modular agents for environment analysis, strategy generation, and code synthesis, enabling scalable experimentation. This work outlines a pathway toward self-improving AI systems capable of advancing beyond human-imposed constraints toward autonomous general intelligence.
- Abstract(参考訳): 現在の大規模言語モデル(LLM)は、人間由来のトレーニングデータによって制約されており、真理判断を妨げる単一のレベルの抽象化によって制限されている。
本稿では,AIモデルが環境と直接対話することで,新たな知識を自律的に生成し,検証する新しい枠組みを提案する。
このアプローチの中心は、人間のベンチマークを必要とせずに学習をガイドする、制限のない、数えきれない数値の報酬(ディスクスペースの併合やフォロワー数など)である。
AIエージェントは、このメトリックを最大化するために戦略と実行可能なコードを反復的に生成する。
モデル崩壊とウォームスタート問題を緩和するため、このフレームワークはテキストの類似性に対する実証的な検証を強調し、GRPOによる微調整をサポートする。
システムアーキテクチャは、環境分析、戦略生成、コード合成にモジュールエージェントを使用し、スケーラブルな実験を可能にする。
この研究は、人間に課された制約を越えて自律的な汎用知性へと進むことができる自己改善型AIシステムへの道筋を概説する。
関連論文リスト
- Evaluating the Paperclip Maximizer: Are RL-Based Language Models More Likely to Pursue Instrumental Goals? [33.11148546999906]
主な関心事は、テキスト構造収束(textitinstrumental convergence)である。AIシステムは、究極の目標を覆い、人間の意図した目標から逸脱する意図しない中間目標を開発する。
この問題は特に強化学習(RL)訓練モデルに関係しており、報酬を最大化するために創造的だが意図しない戦略を生成することができる。
また,RL駆動モデルでは,目標指向行動の最適化が人間の意図に反する可能性があるため,楽器収束の傾向が強いことを示す。
論文 参考訳(メタデータ) (2025-02-16T16:29:20Z) - Vintix: Action Model via In-Context Reinforcement Learning [72.65703565352769]
In-context reinforcement learning を通じて振る舞いを学習できる固定されたクロスドメインモデルを導入することで ICRL のスケールアップに向けた第一歩を提示する。
ICRLを促進するために設計されたフレームワークであるアルゴリズム蒸留は、多目的な作用モデルを構築するために、専門家蒸留に代わる魅力的な、競争力のある代替手段を提供することを示した。
論文 参考訳(メタデータ) (2025-01-31T18:57:08Z) - Agential AI for Integrated Continual Learning, Deliberative Behavior, and Comprehensible Models [15.376349115976534]
本稿では,AIシステム,エージェントAI(AAI)の初期設計について述べる。
AAIのコアは、完全性、最小性、継続的な学習を保証する時間的ダイナミクスをモデル化する学習方法である。
簡易環境における予備実験は,AAIの有効性と可能性を示している。
論文 参考訳(メタデータ) (2025-01-28T13:09:08Z) - Explanation, Debate, Align: A Weak-to-Strong Framework for Language Model Generalization [0.6629765271909505]
本稿では,言語モデルにおける弱強一般化によるモデルアライメントの新たなアプローチを提案する。
このファシリテーションに基づくアプローチは、モデルの性能を高めるだけでなく、モデルアライメントの性質に関する洞察も提供することを示唆している。
論文 参考訳(メタデータ) (2024-09-11T15:16:25Z) - Exploratory Preference Optimization: Harnessing Implicit Q*-Approximation for Sample-Efficient RLHF [82.7679132059169]
人間のフィードバックから強化学習が言語モデルのアライメントのための中心的なツールとして登場した。
我々は、RLHFにおけるオンライン探索のための新しいアルゴリズム、Exploratory Preference Optimization (XPO)を提案する。
XPOは証明可能な最強の保証と有望な経験的パフォーマンスを享受しています。
論文 参考訳(メタデータ) (2024-05-31T17:39:06Z) - Unifying Self-Supervised Clustering and Energy-Based Models [9.3176264568834]
自己教師付き学習と生成モデルとの間には,原則的な関連性を確立する。
シンボル接地問題の単純かつ非自明なインスタンス化に対処するために,我々の解法をニューロシンボリックな枠組みに統合できることが示される。
論文 参考訳(メタデータ) (2023-12-30T04:46:16Z) - Pangu-Agent: A Fine-Tunable Generalist Agent with Structured Reasoning [50.47568731994238]
人工知能(AI)エージェント作成の鍵となる方法は強化学習(RL)である
本稿では,構造化推論をAIエージェントのポリシーに統合し,学習するための一般的なフレームワークモデルを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:57:57Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - Principle-Driven Self-Alignment of Language Models from Scratch with
Minimal Human Supervision [84.31474052176343]
ChatGPTのような最近のAIアシスタントエージェントは、人間のアノテーションと人間のフィードバックからの強化学習を教師付き微調整(SFT)に頼り、アウトプットを人間の意図に合わせる。
この依存は、人間の監督を得るために高いコストがかかるため、AIアシスタントエージェントの真の可能性を大幅に制限することができる。
本稿では,AIエージェントの自己調整と人間監督の最小化のために,原則駆動推論とLLMの生成能力を組み合わせたSELF-ALIGNという新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-04T17:59:28Z) - GEDI: GEnerative and DIscriminative Training for Self-Supervised
Learning [3.6804038214708563]
我々は最先端の自己教師型学習目標について検討し、確率学習に基づく統一的な定式化を提案する。
我々は、この組み合わせフレームワークをGEDIと呼び、これはGEnerativeおよびDIscriminative Trainingの略である。
GEDIはクラスタリング性能において,既存の自己教師型学習戦略よりも広いマージンで優れていることを示す。
論文 参考訳(メタデータ) (2022-12-27T09:33:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。