論文の概要: Automata Learning from Preference and Equivalence Queries
- arxiv url: http://arxiv.org/abs/2308.09301v2
- Date: Tue, 19 Nov 2024 23:57:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-21 16:10:26.106378
- Title: Automata Learning from Preference and Equivalence Queries
- Title(参考訳): 優先度と等価クエリによるオートマタ学習
- Authors: Eric Hsiung, Joydeep Biswas, Swarat Chaudhuri,
- Abstract要約: 本稿では,能動オートマトン学習問題の新たな変種として,嗜好クエリを用いて有限オートマトンを積極的に学習する手法を提案する。
ReMAPは、クエリの複雑さの最小限の複雑さを、正確な等価クエリの下で正確に推測することが保証されている。
実験により,REMAPを大規模オートマトンにスケールすることは,一貫した教師から正しいオートマトンを学習するのに有効であることが示唆された。
- 参考スコア(独自算出の注目度): 17.33092604696224
- License:
- Abstract: Active automata learning from membership and equivalence queries is a foundational problem with numerous applications. We propose a novel variant of the active automata learning problem: actively learn finite automata using preference queries -- i.e., queries about the relative position of two sequences in a total order -- instead of membership queries. Our solution is REMAP, a novel algorithm which leverages a symbolic observation table along with unification and constraint solving to navigate a space of symbolic hypotheses (each representing a set of automata), and uses satisfiability-solving to construct a concrete automaton from a symbolic hypothesis. REMAP is guaranteed to correctly infer the minimal automaton with polynomial query complexity under exact equivalence queries, and achieves PAC-identification ($\varepsilon$-approximate, with high probability) of the minimal automaton using sampling-based equivalence queries. Our empirical evaluations of REMAP on the task of learning reward machines for two reinforcement learning domains indicate REMAP scales to large automata and is effective at learning correct automata from consistent teachers, under both exact and sampling-based equivalence queries.
- Abstract(参考訳): メンバシップと等価クエリからのアクティブオートマトン学習は、多数のアプリケーションにおいて基礎的な問題である。
本稿では,2つの順序の相対的な位置に関するクエリを,メンバシップクエリではなく,嗜好クエリを用いて積極的に学習する,アクティブオートマトン学習問題の新たな変種を提案する。
我々の解法はREMAPであり, シンボル観測表と統一・制約解を用いて, 記号仮説の空間(いずれもオートマトン)をナビゲートし, 満足度解決を用いて, 記号仮説から具体的なオートマトンを構築する新しいアルゴリズムである。
REMAPは、最小オートマトンと多項式クエリの複雑さを正確に推定し、サンプリングベースの等価クエリを用いて最小オートマトンをPAC識別(高い確率で)する。
2つの強化学習領域における報酬機械の学習課題におけるREMAPの実証的評価は、REMAP尺度を大規模オートマトンに拡張し、正確かつサンプリングに基づく等価なクエリに基づいて、一貫した教師から正しいオートマトンを学習するのに有効であることを示している。
関連論文リスト
- Maximally Permissive Reward Machines [8.425937972214667]
目的を達成するための部分順序計画のセットに基づいて,報酬機を合成する新しい手法を提案する。
このような「最大許容」報酬機を用いた学習は、単一の計画に基づいてRMを用いた学習よりも高い報酬をもたらすことを証明した。
論文 参考訳(メタデータ) (2024-08-15T09:59:26Z) - LLMs as Probabilistic Minimally Adequate Teachers for DFA Learning [11.037017229299607]
大規模言語モデル(LLM)におけるインテリジェンス(インテリジェンス)の出現は、オートマチックラーニングへの統合に関する調査にインスピレーションを与えている。
本稿では,pMAT (probabilistic Minimally Adequate Teacher) の定式化について紹介する。
我々は,解答精度を向上し,学習したオートマタの正確性を確保する技術を開発した。
論文 参考訳(メタデータ) (2024-08-06T07:12:09Z) - Detecting Hidden Triggers: Mapping Non-Markov Reward Functions to Markov [2.486161976966064]
本稿では,非マルコフ報酬関数を等価なマルコフ関数に変換するためのフレームワークを提案する。
Reward Machinesを学習する一般的な実践とは異なり、学習する高レベルな命題記号のセットは必要ありません。
私たちは、Officeworldドメインでブラックボックス、非マルコフ報酬関数を学習することで、我々のアプローチを実証的に検証する。
論文 参考訳(メタデータ) (2024-01-20T21:09:27Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - STARC: A General Framework For Quantifying Differences Between Reward
Functions [55.33869271912095]
我々は、STARCメトリックと呼ばれるすべての報酬関数の空間上の擬計量のクラスを提供する。
以上の結果から,STARCは最悪の後悔に対して上界と下界の両方を誘導することがわかった。
また、以前の研究によって提案された報酬指標に関するいくつかの問題も特定します。
論文 参考訳(メタデータ) (2023-09-26T20:31:19Z) - Provably Efficient Representation Learning with Tractable Planning in
Low-Rank POMDP [81.00800920928621]
部分的に観測可能なマルコフ決定過程(POMDP)における表現学習の研究
まず,不確実性(OFU)に直面した最大推定(MLE)と楽観性を組み合わせた復調性POMDPのアルゴリズムを提案する。
次に、このアルゴリズムをより広範な$gamma$-observable POMDPのクラスで機能させる方法を示す。
論文 参考訳(メタデータ) (2023-06-21T16:04:03Z) - Reward Collapse in Aligning Large Language Models [64.98482888193267]
著者らは,ランキングに基づくアプローチがテキストの報酬分布をもたらす経験的観察である「テクストトレワード崩壊現象」について検討した。
実験結果から,提案手法により,報酬モデルのトレーニングにおいて,報酬の崩壊が著しく軽減されることが示唆された。
論文 参考訳(メタデータ) (2023-05-28T02:12:00Z) - ReAct: Temporal Action Detection with Relational Queries [84.76646044604055]
本研究は,アクションクエリを備えたエンコーダ・デコーダフレームワークを用いて,時間的行動検出(TAD)の進展を図ることを目的とする。
まず,デコーダ内の関係注意機構を提案し,その関係に基づいてクエリ間の関心を誘導する。
最後に、高品質なクエリを区別するために、推論時に各アクションクエリのローカライズ品質を予測することを提案する。
論文 参考訳(メタデータ) (2022-07-14T17:46:37Z) - Logically Consistent Loss for Visual Question Answering [66.83963844316561]
ニューラルネットワークに基づく視覚質問応答(VQA)の現在の進歩は、同じ分布(すなわち、d)の仮定による一貫性を保証することができない。
マルチタスク学習フレームワークにおける論理的一貫した損失を定式化することにより,この問題に対処するための新しいモデルに依存しない論理制約を提案する。
実験により、提案された損失公式とハイブリッドバッチの導入により、一貫性が向上し、性能が向上することを確認した。
論文 参考訳(メタデータ) (2020-11-19T20:31:05Z) - Reward Machines: Exploiting Reward Function Structure in Reinforcement
Learning [22.242379207077217]
報酬関数のコードをRLエージェントに示すことで、関数の内部構造を利用して最適なポリシーを学習する方法を示す。
まず、報酬関数の仕様をサポートする有限状態機械の一種である報酬機械を提案する。
次に、この構造を利用して、自動報酬形成、タスク分解、非政治的学習による対実的推論など、学習を支援する方法について述べる。
論文 参考訳(メタデータ) (2020-10-06T00:10:16Z) - Learning Non-Markovian Reward Models in MDPs [0.0]
メアリーマシンを用いて非マルコフ報酬関数を定式化する方法を示す。
正式な設定では、エージェントが進化する環境の力学をモデル化するマルコフ決定過程(MDP)を考える。
MDPはエージェントによって知られているが、報酬関数はエージェントから未知であり、学習されなければならない。
論文 参考訳(メタデータ) (2020-01-25T10:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。