論文の概要: Survival is the Only Reward: Sustainable Self-Training Through Environment-Mediated Selection
- arxiv url: http://arxiv.org/abs/2601.12310v1
- Date: Sun, 18 Jan 2026 08:35:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.566611
- Title: Survival is the Only Reward: Sustainable Self-Training Through Environment-Mediated Selection
- Title(参考訳): サバイバルは唯一のリワード:環境媒介選択による持続可能な自己学習
- Authors: Jennifer Dodgson, Alfath Daryl Alhajir, Michael Joedhitya, Akira Rafhael Janson Pattirane, Surender Suresh Kumar, Joseph Lim, C. H. Peh, Adith Ramdas, Steven Zhang Zhexu,
- Abstract要約: 本稿では,外部フィードバックとバウンドメモリの下での安定した自己学習のための概念実証システムアーキテクチャを提案する。
学習は、報酬、客観的機能、または外部的に定義された適合度基準によってではなく、環境の生存性によってのみ媒介される自己学習アーキテクチャを導入する。
- 参考スコア(独自算出の注目度): 0.27087606206363224
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-training systems often degenerate due to the lack of an external criterion for judging data quality, leading to reward hacking and semantic drift. This paper provides a proof-of-concept system architecture for stable self-training under sparse external feedback and bounded memory, and empirically characterises its learning dynamics and failure modes. We introduce a self-training architecture in which learning is mediated exclusively by environmental viability, rather than by reward, objective functions, or externally defined fitness criteria. Candidate behaviours are executed under real resource constraints, and only those whose environmental effects both persist and preserve the possibility of future interaction are propagated. The environment does not provide semantic feedback, dense rewards, or task-specific supervision; selection operates solely through differential survival of behaviours as world-altering events, making proxy optimisation impossible and rendering reward-hacking evolutionarily unstable. Analysis of semantic dynamics shows that improvement arises primarily through the persistence of effective and repeatable strategies under a regime of consolidation and pruning, a paradigm we refer to as negative-space learning (NSL), and that models develop meta-learning strategies (such as deliberate experimental failure in order to elicit informative error messages) without explicit instruction. This work establishes that environment-grounded selection enables sustainable open-ended self-improvement, offering a viable path toward more robust and generalisable autonomous systems without reliance on human-curated data or complex reward shaping.
- Abstract(参考訳): 自己学習システムは、データ品質を判断するための外部基準の欠如により、しばしば退縮し、ハッキングとセマンティックドリフトに報いる。
本稿では,外部フィードバックと境界メモリの下での安定した自己学習のための概念実証システムアーキテクチャを提案し,その学習力学と障害モードを実証的に特徴付ける。
学習は、報酬、客観的機能、または外部的に定義された適合度基準によってではなく、環境の生存性によってのみ媒介される自己学習アーキテクチャを導入する。
候補者の行動は実際の資源制約の下で実行され、環境効果が持続し、将来の相互作用の可能性を維持するものだけが伝播される。
この環境は、セマンティックなフィードバック、密集した報酬、タスク固有の監督を提供していない。
セマンティック・ダイナミクスの分析は、統合と刈り上げの体制下での効果的かつ反復的な戦略の持続、すなわち負空間学習(NSL)と呼ばれるパラダイムによって改善がもたらされることを示し、モデルが明示的な指示なしにメタラーニング戦略(例えば、意図的な実験的失敗など)を開発することを示唆している。
この研究は、環境に根ざした選択によって、持続可能なオープンエンドの自己改善が可能になり、人間の計算データや複雑な報酬形成に頼ることなく、より堅牢で汎用的な自律システムへの実行可能なパスを提供する。
関連論文リスト
- Balance Equation-based Distributionally Robust Offline Imitation Learning [8.607736795429638]
イミテーション・ラーニング(IL)は、報酬関数や明示的なコントローラを手動で設計するロボットや制御タスクに非常に効果的であることが証明されている。
標準のILメソッドは、トレーニングとデプロイメントの間に環境のダイナミクスが固定されていると暗黙的に仮定します。
バランス方程式に基づく分散ロバストオフライン学習を通じてこの問題に対処する。
不確実な遷移モデルの集合に対する分布論的にロバストな最適化としてこの問題を定式化し、最悪の遷移分布の下での模倣損失を最小限に抑える政策を求める。
論文 参考訳(メタデータ) (2025-11-11T07:48:09Z) - Environment Agnostic Goal-Conditioning, A Study of Reward-Free Autonomous Learning [0.0]
エージェントは,環境に依存しない方法で,自身の目標を選択することで,タスクの解き方を学ぶことができることを示す。
我々の手法は、基礎となる非政治学習アルゴリズムとは無関係である。
論文 参考訳(メタデータ) (2025-11-06T17:51:11Z) - Active Thinking Model: A Goal-Directed Self-Improving Framework for Real-World Adaptive Intelligence [0.11844977816228043]
本稿では,目標推論,動的タスク生成,自己回帰学習を適応型アーキテクチャに統合する統合認知フレームワークを提案する。
数学的基盤を持つ理論解析により、ATMは外部の監督なしに、最適以下から最適な行動へと自律的に進化できることを示した。
論文 参考訳(メタデータ) (2025-11-02T01:13:12Z) - One Life to Learn: Inferring Symbolic World Models for Stochastic Environments from Unguided Exploration [77.8436947454471]
シンボリック・ワールド・モデリングは、実行可能プログラムとして環境の遷移力学を推論し、表現する必要がある。
OneLifeは、条件付きアクティベートされたプログラム法則を通じて世界ダイナミクスをモデル化するフレームワークである。
OneLifeは、最小限の、ガイドなしのインタラクションから、キー環境のダイナミクスをうまく学べる。
論文 参考訳(メタデータ) (2025-10-14T02:49:32Z) - No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery [53.08822154199948]
非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。
本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。
本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
論文 参考訳(メタデータ) (2024-08-27T14:31:54Z) - Continuously evolving rewards in an open-ended environment [0.0]
RULE: 学習と期待によるリワード更新は、単純化されたエコシステムのような環境でテストされます。
団体の人口は、当初は報われたが最終的に有害な行動の放棄をうまく証明した。
これらの調整は、継続的な学習において、外部の介入なしに、実体の根底にある報酬関数を内在的な修正によって行われる。
論文 参考訳(メタデータ) (2024-05-02T13:07:56Z) - Variational Dynamic for Self-Supervised Exploration in Deep Reinforcement Learning [12.76337275628074]
本研究では,条件付き変分推論に基づく変動力学モデルを提案し,多モード性および生成性をモデル化する。
環境遷移の負の対数類似度の上界を導出し、その上界を探査の本質的な報酬として利用する。
提案手法は,最先端の環境モデルに基づく探索手法よりも優れている。
論文 参考訳(メタデータ) (2020-10-17T09:54:51Z) - Efficient Empowerment Estimation for Unsupervised Stabilization [75.32013242448151]
エンパワーメント原理は 直立位置での 力学系の教師なし安定化を可能にする
本稿では,ガウスチャネルとして動的システムのトレーニング可能な表現に基づく代替解を提案する。
提案手法は, サンプルの複雑さが低く, 訓練時より安定であり, エンパワーメント機能の本質的特性を有し, 画像からエンパワーメントを推定できることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:10:16Z) - Ecological Reinforcement Learning [76.9893572776141]
このような条件下での学習を容易にする環境特性について検討する。
環境の特性が強化学習エージェントのパフォーマンスにどのように影響するかを理解することは、学習を魅力的にする方法でタスクを構造化するのに役立ちます。
論文 参考訳(メタデータ) (2020-06-22T17:55:03Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。