論文の概要: Common Benchmarks Undervalue the Generalization Power of Programmatic Policies
- arxiv url: http://arxiv.org/abs/2506.14162v1
- Date: Tue, 17 Jun 2025 03:53:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.319455
- Title: Common Benchmarks Undervalue the Generalization Power of Programmatic Policies
- Title(参考訳): 共通ベンチマークはプログラムポリシーの一般化力を過小評価する
- Authors: Amirhossein Rajabpour, Kiarash Aghakasiri, Sandra Zilles, Levi H. S. Lelis,
- Abstract要約: 一般的に使用されるベンチマークは、プログラム表現の一般化能力に過小評価されていると論じる。
これは、ニューラルネットワークトレーニングパイプラインの簡単な変更によって実現される。
- 参考スコア(独自算出の注目度): 11.938597183669117
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Algorithms for learning programmatic representations for sequential decision-making problems are often evaluated on out-of-distribution (OOD) problems, with the common conclusion that programmatic policies generalize better than neural policies on OOD problems. In this position paper, we argue that commonly used benchmarks undervalue the generalization capabilities of programmatic representations. We analyze the experiments of four papers from the literature and show that neural policies, which were shown not to generalize, can generalize as effectively as programmatic policies on OOD problems. This is achieved with simple changes in the neural policies training pipeline. Namely, we show that simpler neural architectures with the same type of sparse observation used with programmatic policies can help attain OOD generalization. Another modification we have shown to be effective is the use of reward functions that allow for safer policies (e.g., agents that drive slowly can generalize better). Also, we argue for creating benchmark problems highlighting concepts needed for OOD generalization that may challenge neural policies but align with programmatic representations, such as tasks requiring algorithmic constructs like stacks.
- Abstract(参考訳): 逐次決定問題に対するプログラム的表現を学習するためのアルゴリズムは、OOD問題に対する神経ポリシーよりもプログラム的ポリシーが一般化されるという共通の結論から、アウト・オブ・ディストリビューション(OOD)問題に基づいてしばしば評価される。
本稿では、一般的なベンチマークは、プログラム表現の一般化能力を過小評価していると論じる。
本研究は,本論文から4つの論文を解析し,OOD問題に対するプログラム的ポリシーと同じくらい効果的に一般化できることを示す。
これは、ニューラルネットワークトレーニングパイプラインの簡単な変更によって実現される。
すなわち、プログラムポリシーで使用されるスパース観測と同じタイプの単純なニューラルネットワークは、OODの一般化を実現するのに有効であることを示す。
もうひとつ有効であることが示されている修正は、より安全なポリシー(例えば、ゆっくりと駆動するエージェントはより一般化できる)を可能にする報酬関数の使用です。
また、OODの一般化に必要な概念を強調してベンチマーク問題を作成することで、ニューラルネットワークに挑戦するが、スタックのようなアルゴリズム的な構造を必要とするタスクなど、プログラム的な表現と整合する。
関連論文リスト
- Generalization Guarantees for Learning Branch-and-Cut Policies in Integer Programming [1.1510009152620668]
混合整数プログラミング(MIP)は最適化問題のための強力なフレームワークを提供する。
ブランチ・アンド・カット (B&C) は最先端の解法において主要なアルゴリズムである。
論文 参考訳(メタデータ) (2025-05-16T19:00:02Z) - Generalisation Through Negation and Predicate Invention [25.944127431156627]
我々は、否定と述語的発明を組み合わせた帰納論理プログラミング(ILP)アプローチを導入する。
我々は,通常の論理プログラムを述語的発明で学習できるNOPIで実装する。
複数の領域に対する実験結果から,本手法は予測精度と学習時間を向上できることが示された。
論文 参考訳(メタデータ) (2023-01-18T16:12:27Z) - Lexicographic Multi-Objective Reinforcement Learning [65.90380946224869]
このような問題を解決するために,アクション値アルゴリズムとポリシー勾配アルゴリズムの両方のファミリを提案する。
エージェントの動作に安全制約を課すのに我々のアルゴリズムをどのように使用できるかを示し、この文脈でのそれらの性能を他の制約付き強化学習アルゴリズムと比較する。
論文 参考訳(メタデータ) (2022-12-28T10:22:36Z) - Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。
既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。
我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - Towards Better Out-of-Distribution Generalization of Neural Algorithmic
Reasoning Tasks [51.8723187709964]
ニューラルネットワーク推論タスクのOOD一般化について検討する。
目標は、ディープニューラルネットワークを使用して入出力ペアからアルゴリズムを学ぶことである。
論文 参考訳(メタデータ) (2022-11-01T18:33:20Z) - Preliminary Results on Using Abstract AND-OR Graphs for Generalized
Solving of Stochastic Shortest Path Problems [25.152899734616298]
最短経路問題(SSP)は、現実世界におけるゴール指向の問題である。
SSPの計算における重要な課題は、適度な大きさの問題を難解に解決する方法を見つけることである。
提案手法は任意のSSPソルバに組み込んで階層的最適ポリシーを計算可能であることを示す。
論文 参考訳(メタデータ) (2022-04-08T21:30:47Z) - Programmatic Policy Extraction by Iterative Local Search [0.15229257192293197]
本稿では,事前学習したニューラルポリシーからプログラムポリシーを抽出するための,単純かつ直接的なアプローチを提案する。
手作りのエキスパートポリシーと学習されたニューラルポリシーを使用してトレーニングを行うと、本手法はオリジナルとほぼ同等に機能する単純かつ解釈可能なポリシーを発見する。
論文 参考訳(メタデータ) (2022-01-18T10:39:40Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Learning to Synthesize Programs as Interpretable and Generalizable
Policies [25.258598215642067]
本稿では,プログラムの合成を学習するフレームワークについて述べる。
実験の結果,提案フレームワークは,タスク解決プログラムを確実に合成するだけでなく,DRLやプログラム合成ベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-08-31T07:03:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。