論文の概要: Inferring Implicit Goals Across Differing Task Models
- arxiv url: http://arxiv.org/abs/2501.17704v1
- Date: Wed, 29 Jan 2025 15:20:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-30 15:53:10.262128
- Title: Inferring Implicit Goals Across Differing Task Models
- Title(参考訳): ディファリングタスクモデル全体でのインシシットゴールの推論
- Authors: Silvia Tulli, Stylianos Loukas Vasileiou, Mohamed Chetouani, Sarath Sreedharan,
- Abstract要約: 暗黙的な要件の存在は、ユーザのタスクモデルに対する理解がエージェントのモデルの推定と異なる設定で一般的である。
本稿では,Markov Decision Process (MDP) として取得したタスクのコンテキストにおいて,不特定ユーザサブゴールの可能性を把握し,必要に応じて検索することで,このような予測ミスマッチに対処する。
- 参考スコア(独自算出の注目度): 20.725482497743865
- License:
- Abstract: One of the significant challenges to generating value-aligned behavior is to not only account for the specified user objectives but also any implicit or unspecified user requirements. The existence of such implicit requirements could be particularly common in settings where the user's understanding of the task model may differ from the agent's estimate of the model. Under this scenario, the user may incorrectly expect some agent behavior to be inevitable or guaranteed. This paper addresses such expectation mismatch in the presence of differing models by capturing the possibility of unspecified user subgoal in the context of a task captured as a Markov Decision Process (MDP) and querying for it as required. Our method identifies bottleneck states and uses them as candidates for potential implicit subgoals. We then introduce a querying strategy that will generate the minimal number of queries required to identify a policy guaranteed to achieve the underlying goal. Our empirical evaluations demonstrate the effectiveness of our approach in inferring and achieving unstated goals across various tasks.
- Abstract(参考訳): バリューアライメントな振る舞いを生成する上で重要な課題の1つは、指定されたユーザ目標だけでなく、暗黙的あるいは未特定のユーザ要求も考慮することである。
このような暗黙的な要件の存在は、ユーザがタスクモデルに対する理解がエージェントのモデルの推定と異なる設定で特に一般的である。
このシナリオでは、ユーザは誤ってエージェントの動作が避けられないか、保証されることを期待します。
本稿では,マルコフ決定プロセス(MDP)として取得したタスクのコンテキストにおいて,不特定ユーザサブゴールの可能性を捕捉し,必要に応じてクエリすることで,異なるモデルが存在する場合の予測ミスマッチを解決する。
本手法はボトルネック状態を特定し,潜在的な暗黙のサブゴールの候補として利用する。
次に、基礎となる目標を達成するために保証されたポリシーを特定するのに必要なクエリの最小数を生成するクエリ戦略を導入する。
我々の経験的評価は、様々なタスクにおける未定目標の推測と達成におけるアプローチの有効性を示すものである。
関連論文リスト
- Non-maximizing policies that fulfill multi-criterion aspirations in expectation [0.7874708385247353]
動的プログラミングおよび強化学習において、エージェントの逐次決定のためのポリシーは通常、目標をスカラー報酬関数として表現することによって決定される。
複数の異なる評価指標を持つ有限非巡回決定マルコフプロセスを考えるが、これは必ずしもユーザが最大化したい量を表すものではない。
提案アルゴリズムは,本課題を簡易性を用いて実現可能集合を近似し,その実現可能性を維持しつつ,前もって願望を伝達することによって達成することを保証する。
論文 参考訳(メタデータ) (2024-08-08T11:41:04Z) - Expectation Alignment: Handling Reward Misspecification in the Presence of Expectation Mismatch [19.03141646688652]
我々は、人間のAIエージェントに対する信念である心の理論を基礎として、公式な説明的枠組みを開発する。
ユーザからの期待を推測するために,特定報酬を用いた対話型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-12T19:43:37Z) - Tell Me More! Towards Implicit User Intention Understanding of Language
Model Driven Agents [110.25679611755962]
現在の言語モデル駆動エージェントは、しばしば効果的なユーザ参加のメカニズムを欠いている。
Intention-in-Interaction (IN3) は明示的なクエリを通してユーザの暗黙の意図を検査するための新しいベンチマークである。
私たちは、タスクの曖昧さを積極的に評価し、ユーザの意図を問う強力なモデルであるMistral-Interactを経験的に訓練し、それらを実行可能な目標へと洗練させます。
論文 参考訳(メタデータ) (2024-02-14T14:36:30Z) - Code Models are Zero-shot Precondition Reasoners [83.8561159080672]
シーケンシャルな意思決定タスクのために、コード表現を使ってアクションの前提条件を推論します。
本稿では,政策によって予測される行動が前提条件と一致していることを保証する事前条件対応行動サンプリング戦略を提案する。
論文 参考訳(メタデータ) (2023-11-16T06:19:27Z) - Diagnosis, Feedback, Adaptation: A Human-in-the-Loop Framework for
Test-Time Policy Adaptation [20.266695694005943]
ポリシーは新しい環境にポリシーがデプロイされたときに発生する状態と報酬の変化によって、しばしば失敗する。
データ拡張は、エージェントの観察におけるタスク非関連の変化にモデルを不変にすることで、ロバスト性を高めることができる。
本稿では,ユーザからのフィードバックを直接活用して,タスク関連概念をパーソナライズする対話型フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-12T17:55:08Z) - Multi-Target Multiplicity: Flexibility and Fairness in Target
Specification under Resource Constraints [76.84999501420938]
対象の選択が個人の結果にどのように影響するかを評価するための概念的および計算的枠組みを導入する。
目的変数選択から生じる多重度は, 1つのターゲットのほぼ最適モデルから生じるものよりも大きいことが示される。
論文 参考訳(メタデータ) (2023-06-23T18:57:14Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Generative multitask learning mitigates target-causing confounding [61.21582323566118]
マルチタスク学習のための因果表現学習のためのシンプルでスケーラブルなアプローチを提案する。
改善は、目標を狙うが入力はしない、観測されていない共同ファウンダーを緩和することによる。
人の属性とタスクノミーのデータセットに対する我々の結果は、事前の確率シフトに対するロバストネスの概念的改善を反映している。
論文 参考訳(メタデータ) (2022-02-08T20:42:14Z) - Don't miss the Mismatch: Investigating the Objective Function Mismatch
for Unsupervised Representation Learning [0.0]
この研究は、新しい一般的な評価基準を定義するために広く使われている線形評価プロトコルに基づいている。
テキストおよび目標タスクにおけるミスマッチについて検討し、幅広い実験においてミスマッチについて検討する。
実験の結果,Cifar10,Cifar100,PCamでは3dshapesデータセットでは最大25~59%,目的関数ミスマッチでは0.1~5.0%の性能低下が認められた。
論文 参考訳(メタデータ) (2020-09-04T20:21:17Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。