論文の概要: DexHoldem: Playing Texas Hold'em with Dexterous Embodied System
- arxiv url: http://arxiv.org/abs/2605.18727v1
- Date: Mon, 18 May 2026 17:51:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:50.216759
- Title: DexHoldem: Playing Texas Hold'em with Dexterous Embodied System
- Title(参考訳): DexHoldem:Dexterous Embodied Systemでテキサスホールディングスをプレイ
- Authors: Feng Chen, Tianzhe Chu, Li Sun, Pei Zhou, Zhuxiu Xu, Shenghua Gao, Yuexiang Zhai, Yanchao Yang, Yi Ma,
- Abstract要約: 私たちはDexHoldemを紹介します。これは、Texas Hold'emをShadowHandで巧妙に操作する、現実世界のシステムレベルのベンチマークです。
DexHoldemは14のテキサスホールドエム操作プリミティブ、標準化された物理ポリシーベンチマーク、エージェント認識ベンチマークで1,470の遠隔操作デモを提供している。
- 参考スコア(独自算出の注目度): 37.40119131568691
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating embodied systems on real dexterous hardware requires more than isolated primitive skills: an agent must perceive a changing tabletop scene, choose a context-appropriate action, execute it with a dexterous hand, and leave the scene usable for later decisions. We introduce DexHoldem, a real-world system-level benchmark built around Texas Hold'em dexterous manipulation with a ShadowHand. DexHoldem provides 1,470 teleoperated demonstrations across 14 Texas Hold'em manipulation primitives, a standardized physical policy benchmark, and an agentic perception benchmark that tests whether agents can recover the structured game state needed for embodied decision making. On primitive execution, $π_{0.5}$ obtains the highest task completion rate ($61.2\%$), while $π_{0.5}$ and $π_0$ tie on scene-preserving success rate ($47.5\%$). On agentic perception, Opus 4.7 obtains the best strict problem-level accuracy ($34.3\%$), while GPT 5.5 obtains the best average field-wise accuracy ($66.8\%$), exposing a gap between isolated visual sub-capabilities and complete routing-relevant state recovery. Finally, we instantiate the full embodied-agent loop in three case studies, where waiting, recovery dispatches, human-help requests, and repeated primitive execution reveal how perception and policy errors accumulate during closed-loop deployment. DexHoldem therefore evaluates dexterous tabletop execution, agentic perception, and embodied decision routing in a shared physical setting. Project page: https://dexholdem.github.io/Dexholdem/.
- Abstract(参考訳): エージェントは変化するテーブルトップシーンを認識し、コンテキストに適したアクションを選択し、デキスタスハンドで実行し、後の決定に使用可能なシーンを残す必要がある。
私たちはDexHoldemを紹介します。これは、Texas Hold'emをShadowHandで巧妙に操作する、現実世界のシステムレベルのベンチマークです。
DexHoldemは14のテキサスホールデム操作プリミティブ、標準化された物理ポリシーベンチマーク、エージェントが具体的意思決定に必要な構造化されたゲーム状態を回復できるかどうかをテストするエージェント認識ベンチマークで、14のテキサスホールデム操作プリミティブにわたって1,470の遠隔操作デモを提供している。
プリミティブ実行では、$π_{0.5}$が最も高いタスク完了率($61.2\%$)を得るのに対し、$π_{0.5}$と$π_0$はシーン保存成功率($47.5\%$)を得る。
エージェント的認識では、Opus 4.7は最高の厳密な問題レベルの精度(34.3\%$)を、GPT 5.5は最高のフィールドレベルの精度(66.8\%$)を取得し、分離された視覚サブ能力と完全なルーティング関連状態回復のギャップを露呈する。
最後に、待ち時間、リカバリディスパッチ、ヒューマンヘルプリクエスト、繰り返し実行されるプリミティブな3つのケーススタディにおいて、完全なエンボディエージェントループをインスタンス化し、クローズドループデプロイメント中に認識とポリシーエラーがどのように蓄積されるかを明らかにする。
したがって、DexHoldemは、デキスタラステーブルトップの実行、エージェント知覚、および共有物理環境での具体的決定ルーティングを評価する。
プロジェクトページ: https://dexholdem.github.io/Dexholdem/。
関連論文リスト
- DexJoCo: A Benchmark and Toolkit for Task-Oriented Dexterous Manipulation on MuJoCo [82.73355932907565]
DexJoCoはタスク指向のデクサラス操作のためのベンチマークとツールキットである。
本研究は,ツール使用,双方向調整,長期実行,推論などを評価する機能的なタスクを11個提示する。
我々は、視覚的・動的ランダム化、マルチタスクトレーニング、アクションヘッド適応など、多様な設定で最新のモデルをベンチマークする。
論文 参考訳(メタデータ) (2026-05-15T17:59:51Z) - ClawForge: Generating Executable Interactive Benchmarks for Command-Line Agents [59.626170560327274]
textbfClawForgeは、ステートコンフリクト下で実行可能なコマンドラインカテゴリのためのジェネレータベースのベンチマークフレームワークである。
私たちはこのフレームワークをClawForge-Bench(17のシナリオ、6の能力カテゴリ)としてインスタンス化します。
論文 参考訳(メタデータ) (2026-05-13T21:34:08Z) - Equilibrium Residuals Expose Three Regimes of Matrix-Game Strategic Reasoning in Language Models [6.170669604828877]
大きな言語モデルは、名前付きゲーム理論のベンチマークでうまくスコアを付けることができ、セマンティックキューが取り除かれると、同じ戦略的計算で失敗する。
プロシージャ的に生成されたゼロサム行列ゲームとはこのギャップを示す。
トレーニングは2時間2ドルと3時間3ドルで、教師なしの微調整は5時間5ドルから7時間7ドルを2%から61%に引き上げる。
論文 参考訳(メタデータ) (2026-05-11T11:49:08Z) - When Routine Chats Turn Toxic: Unintended Long-Term State Poisoning in Personalized Agents [16.57930301062107]
textbfStateGuardはライトウェイトでポスト実行後のディフェンスで、書き込みバウンダリで状態差を監査し、危険な編集を選択的にロールバックする。
StateGuardは、安全第一の書き込み防衛と最小限のオーバーヘッドの下で、HSをほぼゼロ、偽陰性に減らし、高い偽陽性率を許容できることを示す。
論文 参考訳(メタデータ) (2026-05-07T12:25:16Z) - Safety, Security, and Cognitive Risks in State-Space Models: A Systematic Threat Analysis with Spectral, Stateful, and Capacity Attacks [0.0]
State-Space Models (SSM) は、安全クリティカルな長期研究アプリケーションにデプロイされる。
本報告では,SSMの安全性,安全性,認知リスクに関する最初の体系的治療について述べる。
論文 参考訳(メタデータ) (2026-04-04T13:08:38Z) - Execution Is the New Attack Surface: Survivability-Aware Agentic Crypto Trading with OpenClaw-Style Local Executors [0.0]
Survivability-Aware Execution (SAE)は、OpenClawスタイルのシステムとスキル対応エージェントの実行層サバイバル標準である。
我々は、スコープ外ラベリングと再現可能なメトリクスを可能にするログ付きIntended Policy Specを通じて、デリゲーションギャップ(DG)を運用する。
SAEは、OpenClaw+skills時代の代理取引の安全性を再設定する: 上流の意図とスキルを信頼できないものとして扱い、アクションが副作用となる生存可能性を強化する。
論文 参考訳(メタデータ) (2026-03-10T15:54:01Z) - Latency and Ordering Effects in Online Decisions [0.0]
オンライン意思決定システムは遅延フィードバックと順序に敏感なダイナミクスの下で動作している。
ヘテロジニアスレイテンシ、非可換性、実装ギャップ効果を1つの下界ステートメントにパッケージ化する。
論文 参考訳(メタデータ) (2025-11-17T07:08:05Z) - Acting in Delayed Environments with Non-Stationary Markov Policies [57.52103323209643]
本稿では,MDPにおける学習と計画のためのフレームワークについて紹介する。
実行が遅れると、元の状態空間における決定論的マルコフポリシーは最大報酬を得るのに十分であるが、非定常である必要があることを証明します。
我々は、状態拡張に頼らずに遅延実行タスクを解く非定常Q学習スタイルのモデルベースアルゴリズムを考案した。
論文 参考訳(メタデータ) (2021-01-28T13:35:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。