論文の概要: Toward a Metrology for Artificial Intelligence: Hidden-Rule Environments and Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.06213v1
- Date: Sun, 07 Sep 2025 21:22:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.905254
- Title: Toward a Metrology for Artificial Intelligence: Hidden-Rule Environments and Reinforcement Learning
- Title(参考訳): 人工知能のメトロロジーに向けて:隠れルール環境と強化学習
- Authors: Christo Mathew, Wentian Wang, Lazaros Gallos, Paul Kantor, Vladimir Menkov, Hao Wang,
- Abstract要約: ゲーム・オブ・ハイデン・ルールズ(GOHR)環境における強化学習について検討する。
GOHRは、エージェントが6ドルタイムのボードをクリアするために隠れたルールを推論し実行しなければならない複雑なパズルである。
本稿では,2つの状態表現戦略,すなわちFeature-Centric (FC) と Object-Centric (OC) を採用し,トランスフォーマーに基づくアドバンテージ・アクター・クリティカル (A2C) アルゴリズムを用いてトレーニングを行う。
- 参考スコア(独自算出の注目度): 2.6840601023392505
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate reinforcement learning in the Game Of Hidden Rules (GOHR) environment, a complex puzzle in which an agent must infer and execute hidden rules to clear a 6$\times$6 board by placing game pieces into buckets. We explore two state representation strategies, namely Feature-Centric (FC) and Object-Centric (OC), and employ a Transformer-based Advantage Actor-Critic (A2C) algorithm for training. The agent has access only to partial observations and must simultaneously infer the governing rule and learn the optimal policy through experience. We evaluate our models across multiple rule-based and trial-list-based experimental setups, analyzing transfer effects and the impact of representation on learning efficiency.
- Abstract(参考訳): ゲーム・オブ・ハイデン・ルール(GOHR)環境において,エージェントが隠れルールを推論して実行し,ゲームピースをバケツに配置することで6ドル分のボードをクリアしなければならない複雑なパズルについて検討する。
本稿では,2つの状態表現戦略,すなわちFeature-Centric (FC) と Object-Centric (OC) について検討し,トランスフォーマーに基づくアドバンテージ・アクター・クリティカル (A2C) アルゴリズムを用いてトレーニングを行う。
エージェントは部分的な観察のみにアクセスでき、同時に統治規則を推測し、経験を通じて最適な政策を学ぶ必要がある。
我々は,複数のルールベースおよびトライアルリストベースの実験装置でモデルを評価し,伝達効果と表現が学習効率に与える影響を解析した。
関連論文リスト
- Online inductive learning from answer sets for efficient reinforcement learning exploration [52.03682298194168]
エージェントポリシーの近似を説明可能な近似を表す論理規則の集合を学習するために,帰納的な解集合プログラムの学習を利用する。
次に、学習ルールに基づいて回答セット推論を行い、次のバッチで学習エージェントの探索をガイドします。
本手法は,初回トレーニングにおいても,エージェントが達成した割引リターンを著しく向上させる。
論文 参考訳(メタデータ) (2025-01-13T16:13:22Z) - Learning Strategy Representation for Imitation Learning in Multi-Agent Games [15.209555810145549]
本稿では,マルチエージェントゲームにおける戦略表現を効果的に学習するSTRIL(Strategy Representation for Learning)フレームワークを紹介する。
STRILは既存のILアルゴリズムに統合可能なプラグインメソッドである。
2人プレイのPong、Limit Texas Hold'em、Connect Fourなど、競合するマルチエージェントシナリオにおけるSTRILの有効性を実証する。
論文 参考訳(メタデータ) (2024-09-28T14:30:17Z) - Towards Few-Annotation Learning in Computer Vision: Application to Image
Classification and Object Detection tasks [3.5353632767823506]
本論文では,限定ラベルを用いた機械学習の理論的,アルゴリズム的,実験的貢献について述べる。
最初のコントリビューションでは、Few-Shot分類で使われる人気のあるメタラーニングアルゴリズムの理論と実践のギャップを埋めることに興味がある。
トランスフォーマーアーキテクチャに基づくオブジェクト検出器のトレーニングにおいて,ラベルのないデータを活用するために,教師なし事前学習と半教師付き学習の両方を提案する。
論文 参考訳(メタデータ) (2023-11-08T18:50:04Z) - Generalization Across Observation Shifts in Reinforcement Learning [13.136140831757189]
バイシミュレーションフレームワークを拡張して、コンテキスト依存の観察シフトを考慮します。
具体的には,シミュレータに基づく学習設定に焦点をあて,代替観測を用いて表現空間を学習する。
これにより、テスト期間中にエージェントをさまざまな監視設定にデプロイし、目に見えないシナリオに一般化することができます。
論文 参考訳(メタデータ) (2023-06-07T16:49:03Z) - Weakly Supervised Disentangled Representation for Goal-conditioned
Reinforcement Learning [15.698612710580447]
本稿では,サンプル効率の向上と政策一般化を目的としたスキル学習フレームワークDR-GRLを提案する。
本稿では,解釈可能かつ制御可能な表現を学習するための空間変換オートエンコーダ(STAE)を提案する。
DR-GRLは, 試料効率と政策一般化において, 従来の手法よりも有意に優れていたことを実証的に実証した。
論文 参考訳(メタデータ) (2022-02-28T09:05:14Z) - Curriculum Learning for Safe Mapless Navigation [71.55718344087657]
本研究は,カリキュラム学習(CL)に基づくアプローチがエージェントのパフォーマンスに与える影響について検討する。
特に、ロボットマップレスナビゲーションの安全性に焦点をあて、標準的なエンドツーエンド(E2E)トレーニング戦略と比較する。
論文 参考訳(メタデータ) (2021-12-23T12:30:36Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Composable Learning with Sparse Kernel Representations [110.19179439773578]
再生カーネルヒルベルト空間におけるスパース非パラメトリック制御系を学習するための強化学習アルゴリズムを提案する。
正規化アドバンテージ関数を通じてステートアクション関数の構造を付与することにより、このアプローチのサンプル複雑さを改善します。
2次元環境下を走行しながらレーザースキャナーを搭載したロボットの複数シミュレーションにおける障害物回避政策の学習に関するアルゴリズムの性能を実証する。
論文 参考訳(メタデータ) (2021-03-26T13:58:23Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。