論文の概要: Human Choice Prediction in Non-Cooperative Games: Simulation-based
Off-Policy Evaluation
- arxiv url: http://arxiv.org/abs/2305.10361v1
- Date: Wed, 17 May 2023 16:38:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-18 14:52:31.189925
- Title: Human Choice Prediction in Non-Cooperative Games: Simulation-based
Off-Policy Evaluation
- Title(参考訳): 非協調ゲームにおける人選予測:シミュレーションに基づくオフポリティ評価
- Authors: Eilam Shapira, Reut Apel, Moshe Tennenholtz, Roi Reichart
- Abstract要約: 我々は,言語に基づく説得ゲームにおける非政治的評価の問題に取り組む。
そこで本研究では,人間とロボットのインタラクションデータを組み合わせた新しい手法を提案する。
本結果は,費用対効果と拡張性を有するソリューションとして,実際の相互作用とシミュレーションの混合の可能性を示すものである。
- 参考スコア(独自算出の注目度): 32.408958502821136
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Persuasion games have been fundamental in economics and AI research, and have
significant practical applications. Recent works in this area have started to
incorporate natural language, moving beyond the traditional stylized message
setting. However, previous research has focused on on-policy prediction, where
the train and test data have the same distribution, which is not representative
of real-life scenarios. In this paper, we tackle the challenging problem of
off-policy evaluation (OPE) in language-based persuasion games. To address the
inherent difficulty of human data collection in this setup, we propose a novel
approach which combines real and simulated human-bot interaction data. Our
simulated data is created by an exogenous model assuming decision makers (DMs)
start with a mixture of random and decision-theoretic based behaviors and
improve over time. We present a deep learning training algorithm that
effectively integrates real interaction and simulated data, substantially
improving over models that train only with interaction data. Our results
demonstrate the potential of real interaction and simulation mixtures as a
cost-effective and scalable solution for OPE in language-based persuasion
games.\footnote{Our code and the large dataset we collected and generated are
submitted as supplementary material and will be made publicly available upon
acceptance.
- Abstract(参考訳): 説得ゲームは経済学やAI研究において基本的であり、重要な実践的応用がある。
この分野の最近の研究は、従来のスタイル化されたメッセージ設定を超えて、自然言語を取り入れ始めた。
しかし、これまでの研究では、トレインデータとテストデータが同じ分布を持つオンポリシー予測に重点を置いてきた。
本稿では,言語に基づく説得ゲームにおけるオフ政治評価(OPE)の課題に対処する。
本研究では,本セットアップにおける人間のデータ収集の難しさに対処するため,実データとシミュレーションデータを組み合わせた新しい手法を提案する。
我々のシミュレーションデータは、意思決定者(DM)がランダムな行動と決定論的行動の混合から始まり、時間とともに改善するという、外因性モデルによって生成される。
本稿では,実際のインタラクションとシミュレーションデータを効果的に統合し,インタラクションデータのみをトレーニングするモデルよりも大幅に改善するディープラーニングトレーニングアルゴリズムを提案する。
本研究は,OPEの高コストかつスケーラブルな解法として,実対話とシミュレーションの混在の可能性を示すものである。
footnote{our code and the large dataset we collect and generated は補足資料として提出され、受理次第公開されます。
関連論文リスト
- Simulating User Agents for Embodied Conversational-AI [9.402740034754455]
我々は,エンボディエージェントとのインタラクション中にユーザ動作をシミュレート可能な,LLMベースのユーザエージェントを構築した。
シミュレーション対話をTEAChデータセットと比較することにより,ユーザエージェントの人間的行動生成能力を評価する。
論文 参考訳(メタデータ) (2024-10-31T00:56:08Z) - Proactive Agent: Shifting LLM Agents from Reactive Responses to Active Assistance [95.03771007780976]
我々は、人間の指示なしにタスクを予測および開始できるプロアクティブエージェントを開発するという課題に取り組む。
まず,実世界の人的活動を収集し,前向きなタスク予測を生成する。
これらの予測は、ヒトのアノテータによって受け入れられるか拒否されるかのどちらかとしてラベル付けされる。
ラベル付きデータは、人間の判断をシミュレートする報酬モデルをトレーニングするために使用される。
論文 参考訳(メタデータ) (2024-10-16T08:24:09Z) - IDAT: A Multi-Modal Dataset and Toolkit for Building and Evaluating Interactive Task-Solving Agents [20.460482488872145]
本稿では,接地型自然言語命令の理解と実行が可能な対話型エージェントを開発する上での課題について述べる。
本研究では,Minecraftのような環境下で対話型接地言語命令を収集するためのスケーラブルなデータ収集ツールを提案する。
定性解析とエージェント性能比較のためのヒューマン・イン・ザ・ループ対話型評価プラットフォームを提案する。
論文 参考訳(メタデータ) (2024-07-12T00:07:43Z) - ADESSE: Advice Explanations in Complex Repeated Decision-Making Environments [14.105935964906976]
この研究は、インテリジェントなエージェントが人間の意思決定者にアドバイスを提供するような問題設定について考察する。
我々は,人的信頼と意思決定を改善するためのアドバイザーエージェントの説明を生成するために,ADESSEというアプローチを開発した。
論文 参考訳(メタデータ) (2024-05-31T08:59:20Z) - Modeling Boundedly Rational Agents with Latent Inference Budgets [56.24971011281947]
エージェントの計算制約を明示的にモデル化する潜在推論予算モデル(L-IBM)を導入する。
L-IBMは、最適なアクターの多様な集団のデータを使ってエージェントモデルを学ぶことができる。
我々は,L-IBMが不確実性の下での意思決定のボルツマンモデルに適合しているか,あるいは上回っていることを示す。
論文 参考訳(メタデータ) (2023-12-07T03:55:51Z) - AgentCF: Collaborative Learning with Autonomous Language Agents for
Recommender Systems [112.76941157194544]
本稿では,エージェントベースの協調フィルタリングにより,レコメンデータシステムにおけるユーザとイテムのインタラクションをシミュレートするエージェントCFを提案する。
我々は、ユーザだけでなく、アイテムをエージェントとして、創造的に考慮し、両方のエージェントを同時に最適化する協調学習アプローチを開発します。
全体として、最適化されたエージェントは、ユーザ・イテム、ユーザ・ユーザ・ユーザ、アイテム・イテム、集合的インタラクションなど、フレームワーク内での多様なインタラクションの振る舞いを示す。
論文 参考訳(メタデータ) (2023-10-13T16:37:14Z) - Development of a Trust-Aware User Simulator for Statistical Proactive
Dialog Modeling in Human-AI Teams [4.384546153204966]
近年,人間-AIチームという概念が注目されている。
人間とAIチームメイトとの効果的なコラボレーションのためには、緊密な協調と効果的なコミュニケーションには、積極的活動が不可欠である。
本稿では,プロアクティブダイアログポリシーのトレーニングとテストのためのコーパスベースユーザシミュレータの開発について述べる。
論文 参考訳(メタデータ) (2023-04-24T08:42:51Z) - JECC: Commonsense Reasoning Tasks Derived from Interactive Fictions [75.42526766746515]
本稿では,人間のインタラクティブ・フィクション(IF)ゲームプレイ・ウォークスルーに基づく新しいコモンセンス推論データセットを提案する。
本データセットは,事実知識ではなく,機能的コモンセンス知識ルールの評価に重点を置いている。
実験の結果、導入したデータセットは、以前の機械読影モデルと新しい大規模言語モデルに難題であることが示されている。
論文 参考訳(メタデータ) (2022-10-18T19:20:53Z) - Investigations of Performance and Bias in Human-AI Teamwork in Hiring [30.046502708053097]
AIによる意思決定では、効果的なハイブリッドチームワーク(ヒューマンAI)は、AIのパフォーマンスにのみ依存するものではない。
本研究では,モデルの予測性能とバイアスの両方が,推薦型意思決定タスクにおいてどのように人間に伝達されるかを検討する。
論文 参考訳(メタデータ) (2022-02-21T17:58:07Z) - Model-based Reinforcement Learning for Decentralized Multiagent
Rendezvous [66.6895109554163]
目標を他のエージェントと整合させる人間の能力の下にあるのは、他人の意図を予測し、自分たちの計画を積極的に更新する能力である。
分散型マルチエージェントレンデブーのためのモデルに基づく強化学習手法である階層型予測計画(HPP)を提案する。
論文 参考訳(メタデータ) (2020-03-15T19:49:20Z) - SPA: Verbal Interactions between Agents and Avatars in Shared Virtual
Environments using Propositional Planning [61.335252950832256]
SPA(Sense-Plan-Ask)は、仮想的な仮想環境において、仮想的な人間のようなエージェントとユーザアバターの間の言語的対話を生成する。
提案アルゴリズムは実行時コストを小さくし,自然言語通信を利用せずにエージェントよりも効率的に目標を達成できることが判明した。
論文 参考訳(メタデータ) (2020-02-08T23:15:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。