Fugu-MT 論文翻訳(概要): Learning Higher-Order Programs without Meta-Interpretive Learning

論文の概要: Learning Higher-Order Programs without Meta-Interpretive Learning

arxiv url: http://arxiv.org/abs/2112.14603v1
Date: Wed, 29 Dec 2021 15:27:27 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-30 16:12:25.461160
Title: Learning Higher-Order Programs without Meta-Interpretive Learning
Title（参考訳）: メタ解釈学習を伴わない高次プログラムの学習
Authors: Stanis{\l}aw J. Purga{\l}, David M. Cerna, Cezary Kaliszyk
Abstract要約: 実験結果から,高次定義による多元的学習失敗パラダイムの拡張は,既存システムに必要な人的指導を伴わずに,学習性能を著しく向上させることが示された。
参考スコア（独自算出の注目度）: 2.0518509649405106
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Learning complex programs through inductive logic programming (ILP) remains a formidable challenge. Existing higher-order enabled ILP systems show improved accuracy and learning performance, though remain hampered by the limitations of the underlying learning mechanism. Experimental results show that our extension of the versatile Learning From Failures paradigm by higher-order definitions significantly improves learning performance without the burdensome human guidance required by existing systems. Furthermore, we provide a theoretical framework capturing the class of higher-order definitions handled by our extension.
Abstract（参考訳）: インダクティブ・ロジック・プログラミング(ILP)による複雑なプログラムの学習は依然として困難な課題である。既存の高次有効型IPPシステムは精度と学習性能が向上しているが、基礎となる学習メカニズムの限界によって妨げられている。実験結果から,高次定義による多元的学習失敗パラダイムの拡張は,既存システムに必要な人的指導を伴わずに学習性能を著しく向上させることが示された。さらに、拡張によって処理される高階定義のクラスをキャプチャする理論的枠組みを提供する。

関連論文リスト

Beyond the Trade-off: Self-Supervised Reinforcement Learning for Reasoning Models' Instruction Following [37.69688837528397]
推論モデルは複雑な問題解決に優れるが、推論能力とそれに続く命令の間のトレードオフを示す。本稿では,推論モデルの内部信号を利用した自己教師付きRLフレームワークを提案する。
論文参考訳（メタデータ） (2025-08-04T07:48:59Z)
Diffusion Guidance Is a Controllable Policy Improvement Operator [98.11511661904618]
CFGRLは教師付き学習の単純さで訓練されているが、データ内のポリシーをさらに改善することができる。オフラインのRLタスクでは、信頼性の高いトレンドが観察されます -- ガイダンスの重み付けの増加によって、パフォーマンスが向上します。
論文参考訳（メタデータ） (2025-05-29T14:06:50Z)
Divide and Conquer: Grounding LLMs as Efficient Decision-Making Agents via Offline Hierarchical Reinforcement Learning [32.260964481673085]
大規模言語モデル(LLM)は、不十分な探索と長期クレジット割り当てのために、長期的な意思決定タスクに苦しむ。本稿では, LLMポリシーにパラメータ効率が高く, 一般に適用可能な階層構造を導入する, 革新的なフレームワークを提案する。我々は,低レベル制御器を抽象的なステップバイステップ計画で制御し,高レベル制御器で学習・指導する手法を開発した。
論文参考訳（メタデータ） (2025-05-26T09:43:40Z)
Control Illusion: The Failure of Instruction Hierarchies in Large Language Models [42.31134581540184]
大規模言語モデル (LLM) は階層的な命令スキームによって徐々に展開される。制約優先順位付けに基づく体系的評価フレームワークを導入し,LLMがいかに命令階層を強制するかを評価する。
論文参考訳（メタデータ） (2025-02-21T04:51:37Z)
Online inductive learning from answer sets for efficient reinforcement learning exploration [52.03682298194168]
エージェントポリシーの近似を説明可能な近似を表す論理規則の集合を学習するために,帰納的な解集合プログラムの学習を利用する。次に、学習ルールに基づいて回答セット推論を行い、次のバッチで学習エージェントの探索をガイドします。本手法は,初回トレーニングにおいても,エージェントが達成した割引リターンを著しく向上させる。
論文参考訳（メタデータ） (2025-01-13T16:13:22Z)
S-EPOA: Overcoming the Indistinguishability of Segments with Skill-Driven Preference-Based Reinforcement Learning [7.8063180607224165]
嗜好に基づく強化学習(PbRL)は、直接報酬信号として人間の嗜好を使用する。従来のPbRL法は、しばしば、学習プロセスを妨げるセグメントの不明瞭さによって制約される。本稿では,S-EPOA(Skill-Enhanced Preference Optimization Algorithm)を紹介する。
論文参考訳（メタデータ） (2024-08-22T04:54:25Z)
Enhancing Q-Learning with Large Language Model Heuristics [0.0]
大規模言語モデル(LLM)は、単純なタスクでゼロショット学習を達成できるが、推論速度の低下と時折幻覚に悩まされる。我々は,LLMを幻覚として活用し,強化学習のためのQ関数の学習を支援するフレームワークであるtextbfLLM-guided Q-learningを提案する。
論文参考訳（メタデータ） (2024-05-06T10:42:28Z)
RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文参考訳（メタデータ） (2023-11-21T21:05:21Z)
Domain-Aware Augmentations for Unsupervised Online General Continual Learning [7.145581090959242]
本稿では、教師なしオンライン総合学習(UOGCL)におけるコントラスト学習のためのメモリ使用量を改善する新しい手法を提案する。提案手法は単純だが有効であり, 従来の非教師なし手法に比べ, 最新の結果が得られる。ドメインを意識した拡張手順は他のリプレイ方式にも適用可能であり、継続的な学習には有望な戦略である。
論文参考訳（メタデータ） (2023-09-13T11:45:21Z)
Hierarchical Deep Counterfactual Regret Minimization [53.86223883060367]
本稿では,大規模な状態空間や深部ゲームツリーを含むタスクにおいて,学習効率を向上させる革新的な手法であるDeep CFRの最初の階層バージョンを紹介する。 HDCFRのこれまでの研究よりも顕著な利点は、事前に定義された(人間的な)専門知識による学習の促進と、同様のタスクに移行可能なスキルの獲得を促進する能力である。
論文参考訳（メタデータ） (2023-05-27T02:05:41Z)
Multimodal Parameter-Efficient Few-Shot Class Incremental Learning [1.9220716793379256]
FSCIL(Few-Shot Class Incremental Learning)は、いくつかの学習セッションで限られたトレーニング例が利用できる、挑戦的な継続的学習タスクである。このタスクを成功させるためには、数発のトレーニングセットにおけるバイアス分布に起因する新しいクラスを過度に適合させるのを避ける必要がある。 CPE-CLIPは、最先端の提案と比較してFSCILの性能を著しく改善すると同時に、学習可能なパラメータの数やトレーニングコストを大幅に削減する。
論文参考訳（メタデータ） (2023-03-08T17:34:15Z)
Hierarchical Imitation Learning with Vector Quantized Models [77.67190661002691]
我々は,専門家の軌跡におけるサブゴールの同定に強化学習を用いることを提案する。同定されたサブゴールに対するベクトル量子化生成モデルを構築し,サブゴールレベルの計画を行う。実験では、このアルゴリズムは複雑な長い水平決定問題の解法に優れ、最先端のアルゴリズムよりも優れている。
論文参考訳（メタデータ） (2023-01-30T15:04:39Z)
Mitigating Forgetting in Online Continual Learning via Contrasting Semantically Distinct Augmentations [22.289830907729705]
オンライン連続学習(OCL)は、非定常データストリームからモデル学習を可能とし、新たな知識を継続的に獲得し、学習した知識を維持することを目的としている。主な課題は、"破滅的な忘れる"問題、すなわち、新しい知識を学習しながら学習した知識を十分に記憶できないことにある。
論文参考訳（メタデータ） (2022-11-10T05:29:43Z)
Option-Aware Adversarial Inverse Reinforcement Learning for Robotic Control [44.77500987121531]
階層的模倣学習 (Hierarchical Imitation Learning, HIL) は, 長期作業における複雑度の高い動作を, 専門家による実証から再現するために提案されている。逆逆強化学習に基づく新しいHILアルゴリズムを開発した。また,目的をエンド・ツー・エンドで学習するための変分オートエンコーダフレームワークを提案する。
論文参考訳（メタデータ） (2022-10-05T00:28:26Z)
Offline Reinforcement Learning with Differentiable Function Approximation is Provably Efficient [65.08966446962845]
歴史的データを用いて意思決定戦略を最適化することを目的としたオフライン強化学習は、現実の応用に広く適用されている。微分関数クラス近似(DFA)を用いたオフライン強化学習の検討から一歩踏み出した。最も重要なことは、悲観的な適合Q-ラーニングアルゴリズムを解析することにより、オフライン微分関数近似が有効であることを示すことである。
論文参考訳（メタデータ） (2022-10-03T07:59:42Z)
Stabilizing Q-learning with Linear Architectures for Provably Efficient Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文参考訳（メタデータ） (2022-06-01T23:26:51Z)
The ILASP system for Inductive Learning of Answer Set Programs [79.41112438865386]
我々のシステムは、通常の規則、選択規則、厳しい制約を含むアンサーセットプログラムを学習する。まず、ILASPの学習フレームワークとその機能の概要を説明します。続いて、ILASPシステムの進化を概観する。
論文参考訳（メタデータ） (2020-05-02T19:04:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。