Fugu-MT 論文翻訳(概要): Learning Reward Machines through Preference Queries over Sequences

論文の概要: Learning Reward Machines through Preference Queries over Sequences

arxiv url: http://arxiv.org/abs/2308.09301v1
Date: Fri, 18 Aug 2023 04:49:45 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-21 14:35:41.621799
Title: Learning Reward Machines through Preference Queries over Sequences
Title（参考訳）: シーケンスによる推論クエリによるリワードマシンの学習
Authors: Eric Hsiung, Joydeep Biswas, Swarat Chaudhuri
Abstract要約: 我々は、リターンマシンを好みから学習するための新しいアルゴリズムであるREMAPにコントリビュートする。本研究は,REMAPの正当性と終了の証明に加えて,正当性を測定する実証的証拠を提示する。
参考スコア（独自算出の注目度）: 19.478224060277775
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reward machines have shown great promise at capturing non-Markovian reward functions for learning tasks that involve complex action sequencing. However, no algorithm currently exists for learning reward machines with realistic weak feedback in the form of preferences. We contribute REMAP, a novel algorithm for learning reward machines from preferences, with correctness and termination guarantees. REMAP introduces preference queries in place of membership queries in the L* algorithm, and leverages a symbolic observation table along with unification and constraint solving to narrow the hypothesis reward machine search space. In addition to the proofs of correctness and termination for REMAP, we present empirical evidence measuring correctness: how frequently the resulting reward machine is isomorphic under a consistent yet inexact teacher, and the regret between the ground truth and learned reward machines.
Abstract（参考訳）: 報酬マシンは、複雑なアクションシーケンシングを伴う学習タスクのための非マルコフ報酬関数を捉えることに大きな期待を示してきた。しかし、現在、好みの形で現実的な弱いフィードバックを持つ報酬機を学習するアルゴリズムは存在しない。報奨機を選好から学習するための新しいアルゴリズムであるremapを,正確性と終了保証とともに提供した。 REMAPは、L*アルゴリズムの会員クエリの代わりに好みクエリを導入し、一元化と制約解決とともにシンボル観測テーブルを活用し、仮説報酬マシン探索空間を狭める。我々は,REMAPの正しさと終了の証明に加えて,結果の報奨機が一貫した教師の下でどの程度の頻度で同型であるか,基礎的真理と学習的報奨機との後悔を経験的証拠として提示する。

関連論文リスト

CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文参考訳（メタデータ） (2025-08-05T17:55:24Z)
SPARE: Single-Pass Annotation with Reference-Guided Evaluation for Automatic Process Supervision and Reward Modelling [70.01883340129204]
シングルパス。リファレンスガイドによる評価(SPARE) 参照ソリューションにおける各ソリューションステップを1つまたは複数のステップにアライメントすることで、単一のパス毎のアノテーションを可能にする新しい構造化フレームワーク。 SPAREは2.6倍の効率を実現し、実行時の38%しか必要としない。
論文参考訳（メタデータ） (2025-06-18T14:37:59Z)
Learning Quantitative Automata Modulo Theories [17.33092604696224]
本稿では,学習者が帰納的推論によって有効なオートマトンを推論する,能動的学習アルゴリズムQUINTICを提案する。本評価では, 累積, 減算, 積, 量的オートマトンを学習するために, 有理理論を利用する。
論文参考訳（メタデータ） (2024-11-15T21:51:14Z)
LLMs as Probabilistic Minimally Adequate Teachers for DFA Learning [11.037017229299607]
大規模言語モデル(LLM)におけるインテリジェンス(インテリジェンス)の出現は、オートマチックラーニングへの統合に関する調査にインスピレーションを与えている。本稿では,pMAT (probabilistic Minimally Adequate Teacher) の定式化について紹介する。我々は,解答精度を向上し,学習したオートマタの正確性を確保する技術を開発した。
論文参考訳（メタデータ） (2024-08-06T07:12:09Z)
Prompt Optimization with EASE? Efficient Ordering-aware Automated Selection of Exemplars [66.823588073584]
大規模言語モデル(LLM)は、現実世界のアプリケーションで印象的な機能を示している。これらの卓越した作品の品質は、パフォーマンスに大きな影響を与えます。既存の方法は、先行注文がパフォーマンスに与える影響を適切に説明できない。
論文参考訳（メタデータ） (2024-05-25T08:23:05Z)
Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity [59.57065228857247]
Retrieval-augmented Large Language Models (LLMs) は、質問回答(QA)のようなタスクにおける応答精度を高めるための有望なアプローチとして登場した。本稿では,クエリの複雑さに基づいて,LLMの最適戦略を動的に選択できる適応型QAフレームワークを提案する。オープンドメインのQAデータセットを用いて、複数のクエリの複雑さを網羅し、QAシステムの全体的な効率性と精度を高めることを示す。
論文参考訳（メタデータ） (2024-03-21T13:52:30Z)
Learning Hidden Markov Models Using Conditional Samples [72.20944611510198]
本稿では,隠れマルコフモデル(HMM)の学習における計算複雑性について述べる。本稿では,HMMの条件分布からサンプルを問合せする対話型アクセスモデルを提案する。具体的には、正確な条件付き確率に対するクエリアクセスが可能な設定において、HMMを学習するための効率的なアルゴリズムを得る。
論文参考訳（メタデータ） (2023-02-28T16:53:41Z)
Unified Functional Hashing in Automatic Machine Learning [58.77232199682271]
高速に統一された関数型ハッシュを用いることで,大きな効率向上が得られることを示す。私たちのハッシュは"機能的"であり、表現やコードが異なる場合でも同等の候補を識別します。ニューラルアーキテクチャ検索やアルゴリズム発見など、複数のAutoMLドメインで劇的な改善がなされている。
論文参考訳（メタデータ） (2023-02-10T18:50:37Z)
Induction and Exploitation of Subgoal Automata for Reinforcement Learning [75.55324974788475]
本稿では,Regressed Learning (RL)タスクにおけるサブゴールの学習と活用のためのISAを提案する。 ISAは、タスクのサブゴールによってエッジがラベル付けされたオートマトンであるサブゴールオートマトンを誘導することで強化学習をインターリーブする。サブゴールオートマトンはまた、タスクの完了を示す状態と、タスクが成功せずに完了したことを示す状態の2つの特別な状態で構成されている。
論文参考訳（メタデータ） (2020-09-08T16:42:55Z)
Generating Diverse and Consistent QA pairs from Contexts with Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文参考訳（メタデータ） (2020-05-28T08:26:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。