論文の概要: Decision Making under Imperfect Recall: Algorithms and Benchmarks
- arxiv url: http://arxiv.org/abs/2602.15252v1
- Date: Mon, 16 Feb 2026 23:19:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:17.934888
- Title: Decision Making under Imperfect Recall: Algorithms and Benchmarks
- Title(参考訳): 不完全なリコールによる意思決定:アルゴリズムとベンチマーク
- Authors: Emanuel Tewolde, Brian Hu Zhang, Ioannis Anagnostides, Tuomas Sandholm, Vincent Conitzer,
- Abstract要約: 本稿では,不完全-再コール決定問題に対する最初のベンチマークスイートを紹介する。
私たちのベンチマークでは、AIシステムのプライバシに関するものなど、さまざまな問題タイプを捉えています。
このような問題における一階最適戦略を見つけるために,異なるアルゴリズムの性能を評価する。
- 参考スコア(独自算出の注目度): 77.12503122836422
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In game theory, imperfect-recall decision problems model situations in which an agent forgets information it held before. They encompass games such as the ``absentminded driver'' and team games with limited communication. In this paper, we introduce the first benchmark suite for imperfect-recall decision problems. Our benchmarks capture a variety of problem types, including ones concerning privacy in AI systems that elicit sensitive information, and AI safety via testing of agents in simulation. Across 61 problem instances generated using this suite, we evaluate the performance of different algorithms for finding first-order optimal strategies in such problems. In particular, we introduce the family of regret matching (RM) algorithms for nonlinear constrained optimization. This class of parameter-free algorithms has enjoyed tremendous success in solving large two-player zero-sum games, but, surprisingly, they were hitherto relatively unexplored beyond that setting. Our key finding is that RM algorithms consistently outperform commonly employed first-order optimizers such as projected gradient descent, often by orders of magnitude. This establishes, for the first time, the RM family as a formidable approach to large-scale constrained optimization problems.
- Abstract(参考訳): ゲーム理論において、不完全なリコール決定問題は、エージェントが以前保持した情報を忘れる状況のモデルである。
それらは'absentminded driver''のようなゲームや、コミュニケーションの制限のあるチームゲームを含んでいる。
本稿では,不完全-再コール決定問題に対する最初のベンチマークスイートを紹介する。
私たちのベンチマークでは、機密情報を引き出すAIシステムのプライバシや、シミュレーションにおけるエージェントのテストによるAI安全性など、さまざまな問題タイプを捉えています。
本稿では,このスイートを用いて生成した61個の問題に対して,一階最適戦略を求めるアルゴリズムの性能評価を行った。
特に,非線形制約最適化のための後悔マッチングアルゴリズム(RM)のファミリを紹介する。
このパラメータフリーのアルゴリズムは、大きな2プレイヤーのゼロサムゲームを解くことに大成功をおさめたが、驚くべきことに、彼らはその設定を超えて比較的探索されていない。
我々の重要な発見は、RMアルゴリズムが、しばしば桁違いの順序で、射影勾配降下のような一階最適化器を一貫して上回っていることである。
これは、RMファミリーを大規模な制約付き最適化問題に対する強硬なアプローチとして初めて確立した。
関連論文リスト
- Exposing the Copycat Problem of Imitation-based Planner: A Novel Closed-Loop Simulator, Causal Benchmark and Joint IL-RL Baseline [49.51385135697656]
機械学習ベースの計画では、模倣学習(IL)が一般的なアルゴリズムである。
主に、教師付き軌跡データから直接ポリシーを学習する。
学習した方針が根本的駆動原理を真に理解しているかどうかを判断することは依然として困難である。
本研究は、模倣と強化学習の両方をサポートする新しいクローズドループシミュレータを提案する。
論文 参考訳(メタデータ) (2025-04-20T18:51:26Z) - Learning Multiple Initial Solutions to Optimization Problems [52.9380464408756]
厳密なランタイム制約の下で、同様の最適化問題を順次解決することは、多くのアプリケーションにとって不可欠である。
本稿では,問題インスタンスを定義するパラメータが与えられた初期解を多種多様に予測する学習を提案する。
提案手法は,すべての評価設定において有意かつ一貫した改善を実現し,必要な初期解の数に応じて効率よくスケールできることを実証した。
論文 参考訳(メタデータ) (2024-11-04T15:17:19Z) - Stochastic Differentially Private and Fair Learning [7.971065005161566]
我々は、収束することが保証されるフェアラーニングのための最初の微分プライベートアルゴリズムを提供する。
われわれのフレームワークは、人口格差や均等化オッズなど、さまざまな公平さを許容できるほど柔軟である。
本アルゴリズムは,複数の(非バイナリ)機密属性を持つ非バイナリ分類タスクに適用可能である。
論文 参考訳(メタデータ) (2022-10-17T06:54:57Z) - Machine Learning for Online Algorithm Selection under Censored Feedback [71.6879432974126]
オンラインアルゴリズム選択(OAS)では、アルゴリズム問題クラスのインスタンスがエージェントに次々に提示され、エージェントは、固定された候補アルゴリズムセットから、おそらく最高のアルゴリズムを迅速に選択する必要がある。
SAT(Satisfiability)のような決定問題に対して、品質は一般的にアルゴリズムのランタイムを指す。
本研究では,OASのマルチアームバンディットアルゴリズムを再検討し,この問題に対処する能力について議論する。
ランタイム指向の損失に適応し、時間的地平線に依存しない空間的・時間的複雑さを維持しながら、部分的に検閲されたデータを可能にする。
論文 参考訳(メタデータ) (2021-09-13T18:10:52Z) - Double Coverage with Machine-Learned Advice [100.23487145400833]
オンラインの基本的な$k$-serverの問題を学習強化環境で研究する。
我々のアルゴリズムは任意の k に対してほぼ最適の一貫性-破壊性トレードオフを達成することを示す。
論文 参考訳(メタデータ) (2021-03-02T11:04:33Z) - Constraint-Handling Techniques for Particle Swarm Optimization
Algorithms [0.0]
人口ベースの手法は、従来の方法よりもはるかに複雑な問題を含む、さまざまな問題に対処することができる。
本研究の目的は,アルゴリズムに汎用的な設定を組み込んだPSOに適したCHTを開発し,比較することである。
論文 参考訳(メタデータ) (2021-01-25T01:49:10Z) - Multi-armed Bandits with Cost Subsidy [1.6631602844999724]
本稿では、インテリジェントSMSルーティング問題と広告オーディエンス最適化問題という2つのアプリケーションを提案する。
既存のMABアルゴリズムの素早い一般化は、この問題に対してうまく機能しないことを示す。
また,このアルゴリズムに対して,探索定理の簡単な変種を提示し,ほぼ最適な後悔境界を定めている。
論文 参考訳(メタデータ) (2020-11-03T05:38:42Z) - Towards Solving Large-scale Expensive Optimization Problems Efficiently
Using Coordinate Descent Algorithm [3.1600708674008393]
計算予算が限られているLSEGO問題に対処するために,修正された座標 Descent アルゴリズム (MCD) を提案する。
提案アルゴリズムは,関心領域の探索と,指数速度で半分に折り畳むことで検索空間の縮小という,2つの主要なステップの恩恵を受ける。
提案アルゴリズムは,次元1000の20個のベンチマーク関数上でのデルタグルーピングと協調的共進化との比較を行った。
論文 参考訳(メタデータ) (2020-03-07T22:48:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。