論文の概要: Learning General Policies From Examples
- arxiv url: http://arxiv.org/abs/2509.02794v1
- Date: Tue, 02 Sep 2025 19:56:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 21:40:46.326473
- Title: Learning General Policies From Examples
- Title(参考訳): 事例から一般政策を学ぶ
- Authors: Blai Bonet, Hector Geffner,
- Abstract要約: そこで本研究では,サンプル計画の一般化に基づく政策学習のための新しいシンボリック手法を提案する。
提案する学習手法はSAT/ASPではなく,数百万の状態の問題を効果的に処理するヒットセットアルゴリズムに基づいている。
- 参考スコア(独自算出の注目度): 11.000499414131326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Combinatorial methods for learning general policies that solve large collections of planning problems have been recently developed. One of their strengths, in relation to deep learning approaches, is that the resulting policies can be understood and shown to be correct. A weakness is that the methods do not scale up and learn only from small training instances and feature pools that contain a few hundreds of states and features at most. In this work, we propose a new symbolic method for learning policies based on the generalization of sampled plans that ensures structural termination and hence acyclicity. The proposed learning approach is not based on SAT/ASP, as previous symbolic methods, but on a hitting set algorithm that can effectively handle problems with millions of states, and pools with hundreds of thousands of features. The formal properties of the approach are analyzed, and its scalability is tested on a number of benchmarks.
- Abstract(参考訳): 近年,大規模な計画課題の収集を目的とした一般政策の学習手法が開発されている。
彼らの強みの1つは、ディープラーニングのアプローチに関して、結果のポリシーを理解し、正しいことを示せることである。
弱点は、数百の状態と機能を含む小さなトレーニングインスタンスや機能プールからのみ、メソッドがスケールアップして学習されないことだ。
本研究では, 構造的終了と非循環性を保証するサンプル計画の一般化に基づく, 政策学習のための新しいシンボリック手法を提案する。
提案する学習手法は,従来のシンボリックな手法であるSAT/ASPではなく,数百万の状態の問題を効果的に処理するヒットセットアルゴリズムと,数十万の機能を備えたプールに基づいている。
このアプローチの形式的性質を解析し、そのスケーラビリティを複数のベンチマークでテストする。
関連論文リスト
- Active Learning Principles for In-Context Learning with Large Language
Models [65.09970281795769]
本稿では,アクティブ・ラーニング・アルゴリズムが,文脈内学習における効果的な実演選択手法としてどのように機能するかを検討する。
ALによる文脈内サンプル選択は,不確実性の低い高品質な事例を優先し,試験例と類似性を有することを示す。
論文 参考訳(メタデータ) (2023-05-23T17:16:04Z) - Finding Support Examples for In-Context Learning [73.90376920653507]
本稿では,この課題を2段階に解決するためのfilter-thEN-Search法であるLENSを提案する。
まず、データセットをフィルタリングして、個別に情報的インコンテキストの例を得る。
そこで本研究では,反復的に改良し,選択したサンプル順列を評価可能な多様性誘導型サンプル探索を提案する。
論文 参考訳(メタデータ) (2023-02-27T06:32:45Z) - Class-Incremental Learning via Knowledge Amalgamation [14.513858688486701]
破滅的な忘れ込みは、継続的な学習環境におけるディープラーニングアルゴリズムの展開を妨げる重要な問題である。
我々は、知識の融合(CFA)による破滅的な忘れを解消するための代替戦略を提唱した。
CFAは、過去のタスクに特化した複数の異種教師モデルから学生ネットワークを学習し、現在のオフライン手法に適用することができる。
論文 参考訳(メタデータ) (2022-09-05T19:49:01Z) - Mixup-based Deep Metric Learning Approaches for Incomplete Supervision [10.890870863826093]
本稿では,Mixupと組み合わせた3つの深度学習手法を提案する。
このようなシナリオでは,メトリクス学習における最先端のアプローチがうまく機能しない場合がある。
提案されたアプローチは、その大部分を異なるデータセットで上回る。
論文 参考訳(メタデータ) (2022-04-28T15:36:16Z) - Provable Reinforcement Learning with a Short-Term Memory [68.00677878812908]
我々はPMDPsの新しいサブクラスについて研究し、その潜在状態は、最近の短い長さ$m$の履歴によって復号化することができる。
特に、リッチ・オブザーブレーション・セッティングにおいて、指数関数的にスケールするサンプル複雑性を持つ新しい「モーメントマッチング」アプローチを用いて、新しいアルゴリズムを開発する。
以上の結果から,これらの環境下での強化学習には短期記憶が十分であることが示唆された。
論文 参考訳(メタデータ) (2022-02-08T16:39:57Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Policy Evaluation Networks [50.53250641051648]
我々は,簡潔な埋め込みにおいて重要なポリシー情報を保持できる,スケーラブルで差別化可能なフィンガープリント機構を導入する。
実験の結果、これらの3つの要素を組み合わせることで、トレーニングデータを生成するものよりも優れたポリシーを作成できることが示された。
論文 参考訳(メタデータ) (2020-02-26T23:00:27Z) - SEERL: Sample Efficient Ensemble Reinforcement Learning [20.983016439055188]
モデルフリー強化アルゴリズムのための新しいトレーニングおよびモデル選択フレームワークを提案する。
適切な多彩なポリシーの集合を学習し、選択することが、適切なアンサンブルのために必要であることを示す。
Atari 2600 と Mujoco では,本フレームワークはサンプリング効率が高く,計算コストも高く,SOTA(State-of-the-art)スコアよりも優れていた。
論文 参考訳(メタデータ) (2020-01-15T10:12:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。