論文の概要: Improving Human Performance with Value-Aware Interventions: A Case Study in Chess
- arxiv url: http://arxiv.org/abs/2604.14465v1
- Date: Wed, 15 Apr 2026 22:55:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.640508
- Title: Improving Human Performance with Value-Aware Interventions: A Case Study in Chess
- Title(参考訳): 価値意識による介入による人的パフォーマンス向上 : チェスを事例として
- Authors: Saumik Narayanan, Raja Panjwani, Siddhartha Sen, Chien-Ju Ho,
- Abstract要約: 潜在的なベースラインは、強いモデルに従って最適なアクションを推奨することである。
このようなアクションは、人間の意思決定者が実行できないような、最適なフォローアップアクションを前提とします。
我々は,強化学習の基本原理に動機づけられた,価値意識の介入を提案し,研究する。
- 参考スコア(独自算出の注目度): 12.313877328092824
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI systems are increasingly used to assist humans in sequential decision-making tasks, yet determining when and how an AI assistant should intervene remains a fundamental challenge. A potential baseline is to recommend the optimal action according to a strong model. However, such actions assume optimal follow-up actions, which human decision makers may fail to execute, potentially reducing overall performance. In this work, we propose and study value-aware interventions, motivated by a basic principle in reinforcement learning: under the Bellman equation, the optimal policy selects actions that maximize the immediate reward plus the value function. When a decision maker follows a suboptimal policy, this policy-value consistency no longer holds, creating discrepancies between the actions taken by the policy and those that maximize the immediate reward plus the value of the next state. We show that these policy-value inconsistencies naturally identify opportunities for intervention. We formalize this problem in a Markov decision process where an AI assistant may override human actions under an intervention budget. In the single-intervention regime, we show that the optimal strategy is to recommend the action that maximizes the human value function. For settings with multiple interventions, we propose a tractable approximation that prioritizes interventions based on the magnitude of the policy-value discrepancy. We evaluate these ideas in the domain of chess by learning models of humans from large-scale gameplay data. In simulation, our approach consistently outperforms interventions based on the strongest chess engine (Stockfish) in a wide range of settings. A within-subject human study with 20 players and 600 games further shows that our interventions significantly improve performance for low- and mid-skill players while matching expert-engine interventions for high-skill players.
- Abstract(参考訳): AIシステムは、人間のシーケンシャルな意思決定タスクを支援するためにますます使われていますが、いつ、どのようにAIアシスタントが介入すべきかは、依然として根本的な課題です。
潜在的なベースラインは、強いモデルに従って最適なアクションを推奨することである。
しかしながら、このようなアクションは最適なフォローアップアクションを前提としており、人間の意思決定者が実行できない可能性があるため、全体的なパフォーマンスが低下する可能性がある。
本研究では、ベルマン方程式の下では、即時報酬と値関数を最大化する行動を選択する。
意思決定者が準最適政策に従うと、この方針値の整合性はもはや保持されず、政策によって取られた行動と、即時報酬と次の状態の価値を最大化する行動との相違が生じます。
これらの政策価値の不整合が自然に介入の機会を識別することを示します。
我々は、AIアシスタントが介入予算の下で人間の行動をオーバーライドするマルコフ決定プロセスでこの問題を形式化する。
単一介入体制において、最適な戦略は、人間の価値関数を最大化するアクションを推奨することである。
複数の介入を伴う設定に対しては、ポリシー値の差の大きさに基づいて介入を優先順位付けするトラクタブル近似を提案する。
大規模なゲームプレイデータから人間のモデルを学習することで,これらのアイデアをチェスの領域で評価する。
シミュレーションでは,最強のチェスエンジン(Stockfish)を多種多様な設定で使用することにより,介入を継続的に改善する。
さらに,20人のプレイヤーと600人のゲームによる内的人間研究により,我々の介入は,ハイスキルプレイヤーのエキスパート・エンジニアリング介入に適合しながら,ロースキルプレイヤーとミッドスキルプレイヤーのパフォーマンスを著しく向上させることを示した。
関連論文リスト
- Anticipating Gaming to Incentivize Improvement: Guiding Agents in (Fair) Strategic Classification [6.660458629649826]
アルゴリズムを騙そうとする個人の選択(「改善」)について検討する。
それらのインタラクションをStackelbergのゲームとして定式化し、そこで企業は(フェア)分類器をデプロイし、個人は戦略的に応答する。
論文 参考訳(メタデータ) (2025-05-08T18:47:23Z) - Attaining Human`s Desirable Outcomes in Human-AI Interaction via Structural Causal Games [34.34801907296059]
人間とAIの相互作用において、顕著なゴールは、AIエージェントの助けを借りて、人間が望ましい結果を達成することである。
我々は、人間とAIの対話プロセスを形式化するために、構造因果ゲーム(SCG)と呼ばれる理論的枠組みを用いる。
我々は、AIエージェントを操り、人間に望ましい結果を得るための、SCGに対する事前政治介入と呼ばれる戦略を導入する。
論文 参考訳(メタデータ) (2024-05-26T14:42:49Z) - Reduced-Rank Multi-objective Policy Learning and Optimization [57.978477569678844]
実際には、因果研究者は先験を念頭において1つの結果を持っていない。
政府支援の社会福祉プログラムでは、政策立案者は貧困の多次元的性質を理解するために多くの成果を集めている。
本稿では、最適政策学習の文脈において、複数の結果に対するデータ駆動型次元性推論手法を提案する。
論文 参考訳(メタデータ) (2024-04-29T08:16:30Z) - A Minimaximalist Approach to Reinforcement Learning from Human Feedback [49.45285664482369]
人間のフィードバックから強化学習を行うアルゴリズムとして,SPO(Self-Play Preference Optimization)を提案する。
我々のアプローチは、報酬モデルや不安定な敵の訓練を必要としないという点で最小主義である。
我々は,一連の継続的制御タスクにおいて,報酬モデルに基づくアプローチよりもはるかに効率的に学習できることを実証した。
論文 参考訳(メタデータ) (2024-01-08T17:55:02Z) - Learning Complementary Policies for Human-AI Teams [13.371050441794651]
本稿では,意思決定における人間とAIの相補性の課題に取り組む。
我々は、割り当てられた行動の下でのみ結果が観察される場合に、人間とAIのコラボレーションのための堅牢なソリューションを開発する。
少数のインスタンスを人間の意思決定者にルーティングすることで,大幅なパフォーマンス向上が達成可能であることを示す。
論文 参考訳(メタデータ) (2023-02-06T17:22:18Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Stateful Strategic Regression [20.7177095411398]
結果のゲームにおけるスタックルバーグ均衡を記述し、計算のための新しいアルゴリズムを提供する。
分析の結果,ゲームの結果を形作る上でのマルチインタラクションの役割について,いくつかの興味深い知見が得られた。
最も重要なことは、処理時に複数ラウンドの相互作用を行うことで、主成分は、目的の方向に努力を蓄積するために、エージェントにインセンティブを与えるのにより効果的であることを示すことである。
論文 参考訳(メタデータ) (2021-06-07T17:46:29Z) - End-to-End Learning and Intervention in Games [60.41921763076017]
ゲームにおける学習と介入のための統一的なフレームワークを提供する。
明示的および暗黙的な区別に基づく2つのアプローチを提案する。
分析結果は、実世界のいくつかの問題を用いて検証される。
論文 参考訳(メタデータ) (2020-10-26T18:39:32Z) - Cooperative Inverse Reinforcement Learning [64.60722062217417]
協調強化学習(CIRL)としての値アライメント問題の形式的定義を提案する。
CIRL問題は、人間とロボットの2人のエージェントによる協調的部分情報ゲームであり、どちらも人間の報酬関数に従って報酬を受けるが、ロボットは当初それが何であるかを知らない。
古典的なIRLとは対照的に、人間は孤立して最適な行動をとると仮定されるが、最適なCIRLソリューションは活発な教育、活発な学習、コミュニケーション行動などの行動を生み出す。
論文 参考訳(メタデータ) (2016-06-09T22:39:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。