論文の概要: An Information-Geometric Approach to Artificial Curiosity
- arxiv url: http://arxiv.org/abs/2504.06355v1
- Date: Tue, 08 Apr 2025 18:04:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-10 13:05:50.829152
- Title: An Information-Geometric Approach to Artificial Curiosity
- Title(参考訳): 人工好奇心に対する情報幾何学的アプローチ
- Authors: Alexander Nedergaard, Pablo A. Morales,
- Abstract要約: 具体的報酬はエージェントの環境情報に依存し,情報の表現に留まるべきであることを示す。
共役マルコフ型とエージェント-環境相互作用の下での不変性は、相互占有の関数を包含するために固有の報酬を一意に制約する。
このフレームワークは、基礎的な探索手法を単一の凝集モデルに統合しながら、本質的な報酬のエンジニアリングに重要な制約を提供する。
- 参考スコア(独自算出の注目度): 49.1574468325115
- License:
- Abstract: Learning in environments with sparse rewards remains a fundamental challenge in reinforcement learning. Artificial curiosity addresses this limitation through intrinsic rewards to guide exploration, however, the precise formulation of these rewards has remained elusive. Ideally, such rewards should depend on the agent's information about the environment, remaining agnostic to the representation of the information -- an invariance central to information geometry. Leveraging information geometry, we show that invariance under congruent Markov morphisms and the agent-environment interaction, uniquely constrains intrinsic rewards to concave functions of the reciprocal occupancy. Additional geometrically motivated restrictions effectively limits the candidates to those determined by a real parameter that governs the occupancy space geometry. Remarkably, special values of this parameter are found to correspond to count-based and maximum entropy exploration, revealing a geometric exploration-exploitation trade-off. This framework provides important constraints to the engineering of intrinsic reward while integrating foundational exploration methods into a single, cohesive model.
- Abstract(参考訳): 報酬の少ない環境での学習は、強化学習における根本的な課題である。
人工好奇心は、探索をガイドする本質的な報酬を通じてこの制限に対処するが、これらの報酬の正確な定式化はいまだ解明されていない。
理想的には、そのような報酬はエージェントの環境に関する情報に依存するべきであり、情報の表現とは無関係であり、情報幾何学の中心となる不変性である。
情報幾何を利用して、共役マルコフ型とエージェント環境相互作用の下での不変性は、相互占有の関数を包含するために固有の報酬を一意に制約することを示す。
追加の幾何学的動機付けられた制限は、占有空間幾何を支配する真のパラメータによって決定されるものに対して、候補を効果的に制限する。
注目すべきは、このパラメータの特別な値はカウントベースと最大エントロピー探索に対応し、幾何学的な探索と探索のトレードオフを明らかにすることである。
このフレームワークは、基礎的な探索手法を単一の凝集モデルに統合しながら、本質的な報酬のエンジニアリングに重要な制約を提供する。
関連論文リスト
- Mining and Transferring Feature-Geometry Coherence for Unsupervised Point Cloud Registration [23.909530805458605]
そこで本研究では,INEGERと呼ばれる新規な教師なし登録手法を提案し,信頼性の高い擬似ラベルマイニングに高レベルのコンテキスト情報を組み込む。
具体的には,教師がトレーニング中のデータの各ミニバッチに対して動的に適応し,信頼性の高い擬似ラベルを発見するための特徴幾何コヒーレンスマイニングモジュールを提案する。
最後に、密度不変の特徴を学習するための混合密度学生を紹介し、屋外シナリオにおける密度変動と低重なりに関する課題に対処する。
論文 参考訳(メタデータ) (2024-11-04T07:57:44Z) - Goal-conditioned Offline Planning from Curious Exploration [28.953718733443143]
本研究では,教師なし探索技術の産物から目標条件付き行動を抽出することの課題について考察する。
従来の目標条件強化学習手法では,この困難なオフライン環境では,値関数とポリシの抽出が不十分であることがわかった。
そこで本研究では,学習した値のランドスケープに対するモデルベース計画と,グラフベースの値アグリゲーション手法を組み合わせることを提案する。
論文 参考訳(メタデータ) (2023-11-28T17:48:18Z) - Understanding Reward Ambiguity Through Optimal Transport Theory in
Inverse Reinforcement Learning [4.8951183832371]
逆強化学習(IRL)は、観察された専門家の行動から基礎となる報酬関数を推論することを目的としている。
現在の手法は高次元問題に直面することが多く、幾何学的基礎が欠如している。
本稿では,これらの課題に対する新たな視点を提供するために,最適輸送(OT)理論を利用する。
論文 参考訳(メタデータ) (2023-10-18T15:42:53Z) - Learning World Models with Identifiable Factorization [39.767120163665574]
我々は、遅延状態変数の4つの異なるカテゴリをモデル化するために、IFactorを提案する。
我々の分析は、これらの潜伏変数のブロックワイド識別性を確立する。
本稿では,ブロックを識別して世界モデルを学習するための実践的アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-11T02:25:15Z) - Cycle Consistency Driven Object Discovery [75.60399804639403]
本研究では,シーンの各オブジェクトが異なるスロットに関連付けられなければならない制約を明示的に最適化する手法を提案する。
これらの一貫性目標を既存のスロットベースのオブジェクト中心手法に統合することにより、オブジェクト発見性能を大幅に改善することを示す。
提案手法は,オブジェクト発見を改善するだけでなく,下流タスクのよりリッチな機能も提供することを示唆している。
論文 参考訳(メタデータ) (2023-06-03T21:49:06Z) - Rotating Features for Object Discovery [74.1465486264609]
本稿では,複雑な特徴を高次元に一般化した回転特徴と,分散表現からオブジェクトを抽出する新たな評価手法を提案する。
これらの進歩により、分散オブジェクト中心の表現を単純な玩具から現実世界のデータに拡張することが可能になります。
論文 参考訳(メタデータ) (2023-06-01T12:16:26Z) - Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual
Recognition [57.08108545219043]
サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。
既存の文献は、ローカルベースの表現アプローチを採用することでこの問題に対処している。
本稿では,ロバスト・サリエンシ・アウェア蒸留法(RSaD)を提案する。
論文 参考訳(メタデータ) (2023-05-12T00:13:17Z) - Information-Theoretic Odometry Learning [83.36195426897768]
生体計測推定を目的とした学習動機付け手法のための統合情報理論フレームワークを提案する。
提案フレームワークは情報理論言語の性能評価と理解のためのエレガントなツールを提供する。
論文 参考訳(メタデータ) (2022-03-11T02:37:35Z) - Understanding the origin of information-seeking exploration in
probabilistic objectives for control [62.997667081978825]
探索と探索のトレードオフは適応行動の記述の中心である。
このトレードオフを解決する1つのアプローチは、エージェントが固有の「探索駆動」を持っていることを装備または提案することであった。
汎用的最大化と情報参照行動の組み合わせは, 目的の全く異なる分類の最小化から生じることを示す。
論文 参考訳(メタデータ) (2021-03-11T18:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。