論文の概要: UniMaia: Steering Chess Policies with Language for Human-like Play
- arxiv url: http://arxiv.org/abs/2605.27767v1
- Date: Tue, 26 May 2026 23:32:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.604824
- Title: UniMaia: Steering Chess Policies with Language for Human-like Play
- Title(参考訳): UniMaia:人間ライクな遊びのための言語でチェスを操る
- Authors: Sherman Siu, Lesley Istead,
- Abstract要約: チェスでは、特殊ポリシーネットワークは強い性能を達成するが、意味的な制御性は欠如している。
我々は、プロンプト条件付きポリシー変調のためのフレームワークである$textbfUniMaia$を提案する。
UniMaiaは、事前訓練されたポリシー表現を保持しながら、オープニングセレクションやプレイヤーの強さを含むゲームプレイのセマンティックコントロールを可能にする。
- 参考スコア(独自算出の注目度): 0.422454950310174
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large language models have enabled natural language to serve as a flexible interface for controlling complex systems, but often at the cost of large-scale multimodal training or weakened domain-specific inductive biases. In structured decision-making domains such as chess, specialized policy networks achieve strong performance but lack semantic controllability, while prompt-conditioned language models are more flexible yet typically exhibit weaker domain grounding. We propose $\textbf{UniMaia}$, a framework for prompt-conditioned policy modulation that adapts a frozen Lc0-based chess policy network using a parameter-efficient text encoder and a ControlNet-style conditioning mechanism. UniMaia enables semantic control over gameplay, including opening selection and player strength, while preserving the pretrained policy representations. We further introduce $\textbf{UniMaia-Aux}$, which incorporates auxiliary temporal conditioning and behavioral prediction objectives. To support this work, we construct a large-scale metadata-augmented Lichess dataset, develop a semi-automated prompt-generation pipeline, and introduce benchmarks spanning both prompt-conditioned and metadata-conditioned settings. UniMaia achieves state-of-the-art expected accuracy on several prompt-conditioned benchmarks and competitive top-move accuracy on general instruction-following tasks, while remaining competitive with dedicated metadata-conditioned approaches on human move prediction benchmarks. UniMaia-Aux further improves expected accuracy and behavioral modeling across several evaluation settings, with modest trade-offs in top-move accuracy. Overall, our results demonstrate that prompt-conditioned control of domain-specific policy networks is feasible without end-to-end multimodal training, while highlighting trade-offs between controllability and predictive performance.
- Abstract(参考訳): 近年の大規模言語モデルの進歩により、自然言語は複雑なシステムを制御するフレキシブルなインタフェースとして機能するようになり、大規模なマルチモーダルトレーニングやドメイン固有の帰納バイアスの低減といったコストがかかるようになった。
チェスのような構造化決定ドメインでは、特殊ポリシーネットワークは強い性能を達成できるが、意味制御性に欠けるが、プロンプト条件付き言語モデルはより柔軟であるが、典型的には弱いドメイン基盤を示す。
パラメータ効率のよいテキストエンコーダと制御ネット方式のコンディショニング機構を用いて,凍結したLc0ベースのチェスポリシーネットワークに適応する,プロンプト条件付きポリシー変調のためのフレームワークである$\textbf{UniMaia}$を提案する。
UniMaiaは、事前訓練されたポリシー表現を保持しながら、オープニングセレクションやプレイヤーの強さを含むゲームプレイのセマンティックコントロールを可能にする。
さらに、補助的時間条件付けと行動予測目的を組み込んだ$\textbf{UniMaia-Aux}$を導入する。
この作業を支援するために,大規模なメタデータ拡張Lichessデータセットを構築し,半自動的なプロンプト生成パイプラインを開発し,プロンプト条件とメタデータ条件の両方にまたがるベンチマークを導入する。
UniMaiaは、いくつかのプロンプト条件付きベンチマークにおける最先端の予測精度と一般的な命令追従タスクにおける競合するトップモーブ精度を達成し、一方で、人間の動き予測ベンチマークにおける専用のメタデータ条件付きアプローチと競合する。
UniMaia-Auxは、いくつかの評価設定で期待される精度と振る舞いのモデリングをさらに改善し、トップモブの精度はわずかにトレードオフしている。
その結果、制御性と予測性能のトレードオフを強調しつつ、エンドツーエンドのマルチモーダルトレーニングなしで、ドメイン固有ポリシーネットワークの迅速な制御が可能であることを実証した。
関連論文リスト
- gym-invmgmt: An Open Benchmarking Framework for Inventory Management Methods [1.0799969476894555]
Gym-invmgmtは、監査可能なクロスパラダイム評価のためのOR-Gymインベントリ管理系統の拡張である。
Gymnasium互換のOR-Gymインベントリ管理系統であるGimmom-invmgmtを聴覚的クロスパラダイム評価のために提案する。
論文 参考訳(メタデータ) (2026-05-12T00:22:15Z) - GEM: Guided Expectation-Maximization for Behavior-Normalized Candidate Action Selection in Offline RL [7.213487945222728]
GEM(Guided expectation-Maximization)は,マルチモーダルかつ制御可能なアクション選択を実現する分析フレームワークである。
推測中、GEMは、行動正規化サポートと結びついた保守的なアンサンブルの低信頼を用いて、候補ベースの選択を行う。
実証的には、GEMはD4RLベンチマークで競合し、計算を再トレーニングせずに意思決定品質と交換する単純な推論時予算ノブ(候補数)を提供する。
論文 参考訳(メタデータ) (2026-03-24T14:04:43Z) - Matching Features, Not Tokens: Energy-Based Fine-Tuning of Language Models [102.20309135516186]
クロスエントロピー(CE)トレーニングは、言語モデルの密集したスケーラブルな監視を提供する。
言語モデル微調整のための特徴マッチング手法を提案する。
この目的を効率的に最適化するために,エネルギーベースファインチューニングを提案する。
論文 参考訳(メタデータ) (2026-03-12T17:57:50Z) - Claim Automation using Large Language Model [0.0]
LLM(Large Language Models)は汎用言語タスクにおいて高いパフォーマンスを達成しているが、規制やデータに敏感なドメインへの展開は依然として限られている。
本稿では,非構造化クレームの物語から構造化された修正-アクションレコメンデーションを生成する,ガバナンス対応言語モデリングコンポーネントを提案する。
我々は,Low-Rank Adaptation (LoRA) を用いて事前学習LLMを微調整し,クレーム処理パイプライン内の初期決定モジュールにモデルをスコーピングし,クレーム調整者の判断を高速化する。
論文 参考訳(メタデータ) (2026-02-18T20:01:12Z) - TeNet: Text-to-Network for Compact Policy Synthesis [4.562874561676235]
TeNetは、自然言語記述から直接、コンパクトでタスク固有のロボットポリシーをインスタンス化するフレームワークである。
我々はTeNetがシーケンスベースのベースラインよりも桁違いに小さいポリシーを生成することを示す。
論文 参考訳(メタデータ) (2026-01-22T12:42:30Z) - Domain-Shift-Aware Conformal Prediction for Large Language Models [8.620363085499243]
ドメインシフト対応コンフォーマル予測(DS-CP)と呼ばれる新しいフレームワークを提案する。
我々のフレームワークは、キャリブレーションサンプルを体系的に再重み付けすることで、ドメインシフト中の大きな言語モデルに整合予測を適用する。
MMLUベンチマークの理論的解析と実験により,提案手法は標準共形予測よりも信頼性の高いカバレッジを提供することが示された。
論文 参考訳(メタデータ) (2025-10-07T04:22:06Z) - LANGTRAJ: Diffusion Model and Dataset for Language-Conditioned Trajectory Simulation [102.1527101235251]
LangTrajは、トラフィックシナリオにおけるすべてのエージェントの共同動作をシミュレートする、言語条件のシーン拡散モデルである。
自然言語入力を条件付けすることで、LangTrajはインタラクティブな振る舞いを柔軟かつ直感的に制御できる。
LangTraj氏は、リアリズム、言語制御性、言語条件の安全クリティカルなシミュレーションにおいて、強力なパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-04-15T17:14:06Z) - Test-Time Alignment for Large Language Models via Textual Model Predictive Control [63.508812485566374]
Textual Model Predictive Control (TMPC) は、推論時に大規模言語モデルを調整するために適応された新しい予測計画フレームワークである。
TMPCは、談話レベル翻訳、長文応答生成、プログラム合成の3つの異なるセグメンテーション特性を持つタスクで評価される。
その結果、TMPCはパフォーマンスを継続的に改善し、一般性を強調している。
論文 参考訳(メタデータ) (2025-02-28T07:24:33Z) - Bayesian Prompt Learning for Image-Language Model Generalization [64.50204877434878]
我々はベイズ法の正規化能力を用いて、変分推論問題としてプロンプト学習をフレーム化する。
提案手法は,プロンプト空間を正規化し,目に見えないプロンプトへの過剰適合を低減し,目に見えないプロンプトのプロンプト一般化を改善する。
ベイジアン・プロンプト学習がプロンプト空間の適切なカバレッジを提供する15のベンチマークを実証的に示す。
論文 参考訳(メタデータ) (2022-10-05T17:05:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。