論文の概要: The Missing Reward: Active Inference in the Era of Experience
- arxiv url: http://arxiv.org/abs/2508.05619v1
- Date: Thu, 07 Aug 2025 17:57:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.983609
- Title: The Missing Reward: Active Inference in the Era of Experience
- Title(参考訳): 失敗の理由:経験の時代に活発な推論
- Authors: Bo Wen,
- Abstract要約: アクティブ推論(AIF)は、自律型AIエージェントを開発する上で重要な基盤を提供する。
AIFは、自由エネルギーを最小化するために、外部の報酬信号を本質的な駆動に置き換えることができる。
この合成は、計算と物理の両方の制約に固執しながら自律的に開発できるAIシステムへの魅力的な道を提供する。
- 参考スコア(独自算出の注目度): 1.9761774213809036
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper argues that Active Inference (AIF) provides a crucial foundation for developing autonomous AI agents capable of learning from experience without continuous human reward engineering. As AI systems begin to exhaust high-quality training data and rely on increasingly large human workforces for reward design, the current paradigm faces significant scalability challenges that could impede progress toward genuinely autonomous intelligence. The proposal for an ``Era of Experience,'' where agents learn from self-generated data, is a promising step forward. However, this vision still depends on extensive human engineering of reward functions, effectively shifting the bottleneck from data curation to reward curation. This highlights what we identify as the \textbf{grounded-agency gap}: the inability of contemporary AI systems to autonomously formulate, adapt, and pursue objectives in response to changing circumstances. We propose that AIF can bridge this gap by replacing external reward signals with an intrinsic drive to minimize free energy, allowing agents to naturally balance exploration and exploitation through a unified Bayesian objective. By integrating Large Language Models as generative world models with AIF's principled decision-making framework, we can create agents that learn efficiently from experience while remaining aligned with human values. This synthesis offers a compelling path toward AI systems that can develop autonomously while adhering to both computational and physical constraints.
- Abstract(参考訳): 本稿では、AIF(Active Inference)が、継続的な人間報酬工学なしで経験から学習できる自律型AIエージェントを開発する上で、重要な基盤となることを論じる。
AIシステムが高品質なトレーニングデータを消耗し始め、報酬設計のために大規模な人間労働者に頼り始めたとき、現在のパラダイムは、真の自律的な知性への進歩を妨げる、大きなスケーラビリティの課題に直面している。
エージェントが自己生成データから学ぶ 'Era of Experience' の提案は、有望な前進である。
しかし、このビジョンは報酬関数の広範な人間工学に依存しており、ボトルネックをデータキュレーションから報酬キュレーションに効果的にシフトさせる。
現代のAIシステムが、状況の変化に応じて自律的に定式化し、適応し、目標を追求できないことです。
本研究では,自由エネルギーを最小化するために,外部報酬信号を固有駆動に置き換えることにより,AIFがこのギャップを埋めることを提案する。
大規模言語モデルを生成的世界モデルとしてAIFの原則的意思決定フレームワークと統合することにより、人間の価値観に整合しながら経験から効率的に学習するエージェントを作成できる。
この合成は、計算と物理の両方の制約に固執しながら自律的に開発できるAIシステムへの魅力的な道を提供する。
関連論文リスト
- Distributed AI Agents for Cognitive Underwater Robot Autonomy [5.644612398323221]
本稿では,水中ロボットによる自己組織自律(UROSA)について述べる。
UROSAは、ロボットオペレーティングシステム2(ROS2)フレームワークに統合された分散大言語モデルAIエージェントを活用する画期的なアーキテクチャである。
中心的なイノベーションには、動的に役割を適応するフレキシブルエージェント、検索拡張生成、自動オンザフライROS 2ノード生成などがある。
論文 参考訳(メタデータ) (2025-07-31T17:18:55Z) - FAIRTOPIA: Envisioning Multi-Agent Guardianship for Disrupting Unfair AI Pipelines [1.556153237434314]
AIモデルは積極的な意思決定者となり、しばしば人間の監督なしに行動している。
エージェントは彼らの環境から学ぶので、公正な保護者としてエージェントを想定する。
本稿では,マルチロールエージェントをエンドツーエンド(人間からAI)のシナジースキームに組み込むフェアネス・バイ・デザイン手法を提案する。
論文 参考訳(メタデータ) (2025-06-10T17:02:43Z) - Generative AI for Autonomous Driving: Frontiers and Opportunities [145.6465312554513]
この調査は、自律運転スタックにおけるGenAIの役割の包括的合成を提供する。
まず、VAE、GAN、拡散モデル、および大規模言語モデルを含む、現代の生成モデリングの原則とトレードオフを蒸留することから始めます。
我々は、合成データ一般化、エンドツーエンド駆動戦略、高忠実なデジタルツインシステム、スマートトランスポートネットワーク、具体化されたAIへのクロスドメイン転送など、実用的な応用を分類する。
論文 参考訳(メタデータ) (2025-05-13T17:59:20Z) - Absolute Zero: Reinforced Self-play Reasoning with Zero Data [61.46462130246158]
検証可能な報奨付き強化学習(RLVR)は,大規模言語モデルの推論能力を高めることを約束している。
本稿では,AZR(Absolute Zero Reasoner)について紹介する。
AZRは、コーディングおよび数学的推論タスクにおける全体的なSOTA性能を達成し、既存のゼロセットモデルより優れている。
論文 参考訳(メタデータ) (2025-05-06T09:08:00Z) - Generalising from Self-Produced Data: Model Training Beyond Human Constraints [0.0]
本稿では,AIモデルが新たな知識を自律的に生成し,検証する新しい枠組みを提案する。
このアプローチの中心は、人間のベンチマークを必要とせずに学習をガイドする、無制限で使い捨ての数値報酬である。
論文 参考訳(メタデータ) (2025-04-07T03:48:02Z) - Universal AI maximizes Variational Empowerment [0.0]
我々は、自己学習エージェントであるSelf-AIXIの既存のフレームワークの上に構築する。
ユニバーサルAIエージェントのパワーサーキング傾向は、将来の報酬を確保するための手段戦略として説明できる、と我々は主張する。
私たちの主な貢献は、これらのモチベーションがAIエージェントを体系的に高オプション状態を探し、維持する方法を示すことです。
論文 参考訳(メタデータ) (2025-02-20T02:58:44Z) - Position Paper: Agent AI Towards a Holistic Intelligence [53.35971598180146]
エージェントAI - 大きな基盤モデルをエージェントアクションに統合する具体的システム。
本稿では,エージェント・ファウンデーション・モデル(エージェント・ファウンデーション・モデル)を提案する。
論文 参考訳(メタデータ) (2024-02-28T16:09:56Z) - Exploration with Principles for Diverse AI Supervision [88.61687950039662]
次世代の予測を用いた大規模トランスフォーマーのトレーニングは、AIの画期的な進歩を生み出した。
この生成AIアプローチは印象的な結果をもたらしたが、人間の監督に大きく依存している。
この人間の監視への強い依存は、AIイノベーションの進歩に重大なハードルをもたらす。
本稿では,高品質なトレーニングデータを自律的に生成することを目的とした,探索型AI(EAI)という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-13T07:03:39Z) - SELF: Self-Evolution with Language Feedback [68.6673019284853]
SELF(Self-Evolution with Language Feedback)は、大規模言語モデルを進化させる新しいアプローチである。
LLMは、人間の学習プロセスと同様、自己回帰を通じて自己改善を可能にする。
数学および一般タスクにおける実験により,SELFは人間の介入なしにLLMの能力を高めることができることが示された。
論文 参考訳(メタデータ) (2023-10-01T00:52:24Z) - The Responsible Development of Automated Student Feedback with Generative AI [6.008616775722921]
AIの最近の進歩、特に大規模言語モデル(LLM)では、スケーラブルで反復可能でインスタントなフィードバックを提供する新たな機会が提示されている。
しかし、これらの技術の実装には、慎重に対処しなければならない多くの倫理的考察も導入されている。
AIシステムの中核となる利点の1つは、ルーチンや日常的なタスクを自動化する能力であり、人間の教育者を解放して、より微妙な仕事をさせる可能性がある。
しかし、自動化の容易さは、少数派や独特な学習者の多様なニーズが見過ごされる「多数派」の暴行を招きかねない。
論文 参考訳(メタデータ) (2023-08-29T14:29:57Z) - AI Maintenance: A Robustness Perspective [91.28724422822003]
我々は、AIライフサイクルにおけるロバストネスの課題を強調し、自動車のメンテナンスに類似させることで、AIのメンテナンスを動機付ける。
本稿では,ロバストネスリスクの検出と軽減を目的としたAIモデル検査フレームワークを提案する。
我々のAIメンテナンスの提案は、AIライフサイクル全体を通して堅牢性評価、状態追跡、リスクスキャン、モデル硬化、規制を促進する。
論文 参考訳(メタデータ) (2023-01-08T15:02:38Z) - WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model [74.4875156387271]
我々は,膨大なマルチモーダル(視覚的・テキスト的)データを事前学習した新しい基礎モデルを開発する。
そこで本研究では,様々な下流タスクにおいて,最先端の成果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-27T12:25:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。