論文の概要: "I Don't Think So": Disagreement-Based Policy Summaries for Comparing
Agents
- arxiv url: http://arxiv.org/abs/2102.03064v1
- Date: Fri, 5 Feb 2021 09:09:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-08 18:12:03.068393
- Title: "I Don't Think So": Disagreement-Based Policy Summaries for Comparing
Agents
- Title(参考訳): 「そうは思わない」-エージェント比較のための不一致に基づく政策要約
- Authors: Yotam Amitai and Ofra Amir
- Abstract要約: 本稿では,エージェントのポリシーの違いを強調するコントラスト的な要約を生成する手法を提案する。
本結果から, 新規な不一致に基づく要約は, HighLIGHTS を用いた要約に比べてユーザパフォーマンスの向上につながることが示された。
- 参考スコア(独自算出の注目度): 2.6270468656705765
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: With Artificial Intelligence on the rise, human interaction with autonomous
agents becomes more frequent. Effective human-agent collaboration requires that
the human understands the agent's behavior, as failing to do so may lead to
reduced productiveness, misuse, frustration and even danger. Agent strategy
summarization methods are used to describe the strategy of an agent to its
destined user through demonstration. The summary's purpose is to maximize the
user's understanding of the agent's aptitude by showcasing its behaviour in a
set of world states, chosen by some importance criteria. While shown to be
useful, we show that these methods are limited in supporting the task of
comparing agent behavior, as they independently generate a summary for each
agent. In this paper, we propose a novel method for generating contrastive
summaries that highlight the differences between agent's policies by
identifying and ranking states in which the agents disagree on the best course
of action. We conduct a user study in which participants face an agent
selection task. Our results show that the novel disagreement-based summaries
lead to improved user performance compared to summaries generated using
HIGHLIGHTS, a previous strategy summarization algorithm.
- Abstract(参考訳): 人工知能が台頭すると、自律エージェントとの人間の相互作用がより頻繁になります。
効果的な人間とエージェントのコラボレーションは、人間がエージェントの行動を理解しなければならない。そうしないと、生産性の低下、誤用、フラストレーション、さらには危険につながる可能性があります。
エージェント戦略要約手法は、デモンストレーションを通じてエージェントのユーザへの戦略を記述するために使用される。
要約の目的は、ある重要な基準によって選択された一連の世界の州でその行動を示すことによって、エージェントの適性に対するユーザーの理解を最大化することです。
有用であることが示されているが,これらの手法は,エージェントごとの要約を独立に生成するので,エージェントの挙動を比較するタスクをサポートするのに限られていることが示される。
本稿では,エージェントが最善の行動方針に異を唱える状態を識別し,ランク付けすることで,エージェントの方針の違いを強調する,コントラスト的な要約を生成する手法を提案する。
我々は,参加者がエージェント選択課題に直面するユーザ調査を行う。
その結果,従来の戦略要約アルゴリズムであるhighlightsを用いて生成した要約に比べて,新たな不一致に基づく要約がユーザパフォーマンスの向上に繋がることがわかった。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Tell Me More! Towards Implicit User Intention Understanding of Language
Model Driven Agents [110.25679611755962]
現在の言語モデル駆動エージェントは、しばしば効果的なユーザ参加のメカニズムを欠いている。
Intention-in-Interaction (IN3) は明示的なクエリを通してユーザの暗黙の意図を検査するための新しいベンチマークである。
私たちは、タスクの曖昧さを積極的に評価し、ユーザの意図を問う強力なモデルであるMistral-Interactを経験的に訓練し、それらを実行可能な目標へと洗練させます。
論文 参考訳(メタデータ) (2024-02-14T14:36:30Z) - AgentCF: Collaborative Learning with Autonomous Language Agents for
Recommender Systems [112.76941157194544]
本稿では,エージェントベースの協調フィルタリングにより,レコメンデータシステムにおけるユーザとイテムのインタラクションをシミュレートするエージェントCFを提案する。
我々は、ユーザだけでなく、アイテムをエージェントとして、創造的に考慮し、両方のエージェントを同時に最適化する協調学習アプローチを開発します。
全体として、最適化されたエージェントは、ユーザ・イテム、ユーザ・ユーザ・ユーザ、アイテム・イテム、集合的インタラクションなど、フレームワーク内での多様なインタラクションの振る舞いを示す。
論文 参考訳(メタデータ) (2023-10-13T16:37:14Z) - Deep Multi-Agent Reinforcement Learning for Decentralized Active
Hypothesis Testing [11.639503711252663]
我々は,深層多エージェント強化学習の枠組みに根ざした新しいアルゴリズムを導入することで,マルチエージェント能動仮説テスト(AHT)問題に取り組む。
エージェントが協調戦略を学習し、性能を向上させる能力を効果的に示す実験結果を包括的に提示する。
論文 参考訳(メタデータ) (2023-09-14T01:18:04Z) - Pure Exploration under Mediators' Feedback [63.56002444692792]
マルチアームバンディット(Multi-armed bandits)は、各インタラクションステップにおいて、学習者が腕を選択し、報酬を観察する、シーケンシャルな意思決定フレームワークである。
本稿では,学習者が仲介者の集合にアクセスできるシナリオについて考察する。
本稿では,学習者には仲介者の方針が知られていると仮定して,最適な腕を発見するための逐次的意思決定戦略を提案する。
論文 参考訳(メタデータ) (2023-08-29T18:18:21Z) - Conveying Autonomous Robot Capabilities through Contrasting Behaviour
Summaries [8.413049356622201]
比較行動要約を効率的に生成する適応探索法を提案する。
この結果から,適応探索により,人間がより優れたエージェントを正確に選択できる情報コントラストのシナリオを効果的に特定できることが示唆された。
論文 参考訳(メタデータ) (2023-04-01T18:20:59Z) - Toward Policy Explanations for Multi-Agent Reinforcement Learning [18.33682005623418]
MARLのための2種類のポリシー記述を生成するための新しい手法を提案する。
3つのMARL領域の実験結果から,提案手法のスケーラビリティが実証された。
ユーザスタディでは、生成された説明がユーザパフォーマンスを著しく改善し、ユーザ満足度などの指標に対する主観的評価が向上することを示した。
論文 参考訳(メタデータ) (2022-04-26T20:07:08Z) - Explaining Reinforcement Learning Policies through Counterfactual
Trajectories [147.7246109100945]
人間の開発者は、RLエージェントがテスト時にうまく機能することを検証しなければならない。
本手法では, エージェントの挙動をより広い軌道分布で示すことにより, エージェントの挙動を分布変化下で表現する。
本研究では,2つのエージェント検証タスクのうちの1つに対して,ベースライン法よりも優れたスコアを得られることを示す。
論文 参考訳(メタデータ) (2022-01-29T00:52:37Z) - One-shot Policy Elicitation via Semantic Reward Manipulation [2.668480521943575]
本稿では,新たなシーケンシャル最適化アルゴリズムであるSingle-shot Policy Explanation for Augmenting Rewards (SPEAR)について述べる。
本研究では,SPEARが実行時および対応可能な問題サイズにおいて,最先端技術よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2021-01-06T04:11:22Z) - Multi-agent Policy Optimization with Approximatively Synchronous
Advantage Estimation [55.96893934962757]
マルチエージェントシステムでは、異なるエージェントの警察を共同で評価する必要がある。
現在の方法では、バリュー関数やアドバンテージ関数は非同期に評価される対実関節アクションを使用する。
本研究では,近似的に同期する利点推定を提案する。
論文 参考訳(メタデータ) (2020-12-07T07:29:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。