論文の概要: Latent Planning via Embedding Arithmetic: A Contrastive Approach to Strategic Reasoning
- arxiv url: http://arxiv.org/abs/2511.09477v1
- Date: Thu, 13 Nov 2025 01:57:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.586065
- Title: Latent Planning via Embedding Arithmetic: A Contrastive Approach to Strategic Reasoning
- Title(参考訳): 算術の埋め込みによる潜在計画--戦略的推論への対照的なアプローチ
- Authors: Andrew Hamara, Greg Hamerly, Pablo Rivas, Andrew C. Freeman,
- Abstract要約: 評価整合型埋め込み空間において,高次元決定空間における計画が直接実施できるかどうかを検討する。
本稿では,教師付きコントラスト学習を用いて,そのような空間を学習するSOLISを紹介する。
この表現では、結果の類似性は近接して捉えられ、単一の大域的有利ベクトルは、その空間が勝利する領域に負けないように配向する。
- 参考スコア(独自算出の注目度): 0.17499351967216337
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Planning in high-dimensional decision spaces is increasingly being studied through the lens of learned representations. Rather than training policies or value heads, we investigate whether planning can be carried out directly in an evaluation-aligned embedding space. We introduce SOLIS, which learns such a space using supervised contrastive learning. In this representation, outcome similarity is captured by proximity, and a single global advantage vector orients the space from losing to winning regions. Candidate actions are then ranked according to their alignment with this direction, reducing planning to vector operations in latent space. We demonstrate this approach in chess, where SOLIS uses only a shallow search guided by the learned embedding to reach competitive strength under constrained conditions. More broadly, our results suggest that evaluation-aligned latent planning offers a lightweight alternative to traditional dynamics models or policy learning.
- Abstract(参考訳): 高次元決定空間における計画は、学習された表現のレンズを通して研究されている。
本研究は,評価整合型埋め込み空間において,学習方針やバリューヘッドではなく,直接的に計画を行うことができるかどうかを考察する。
本稿では,教師付きコントラスト学習を用いて,そのような空間を学習するSOLISを紹介する。
この表現では、結果の類似性は近接して捉えられ、単一の大域的有利ベクトルは、その空間が勝利する領域に負けないように配向する。
候補行動はこの方向に従ってランク付けされ、潜在空間におけるベクトル演算の計画が削減される。
チェスでは,SOLISは学習した埋め込みによって導かれる浅い探索のみを用いて,制約条件下での競争力に到達する。
より広範に、評価整合型潜在計画が従来の力学モデルや政策学習に代わる軽量な代替手段となることを示唆している。
関連論文リスト
- Bidirectional Task-Motion Planning Based on Hierarchical Reinforcement Learning for Strategic Confrontation [12.278121909070485]
Swarm Roboticsでは、戦略的対立を含む対決シナリオは、効率的な意思決定を必要とする。
従来のタスクと動作計画手法は意思決定を2つの層に分けるが、その一方向構造はこれらの層間の相互依存を捉えない。
本稿では階層的強化学習に基づく新しい双方向手法を提案し,層間の動的相互作用を実現する。
論文 参考訳(メタデータ) (2025-04-22T13:22:58Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Consciousness-Inspired Spatio-Temporal Abstractions for Better Generalization in Reinforcement Learning [83.41487567765871]
Skipperはモデルベースの強化学習フレームワークである。
これは、与えられたタスクをより小さく、より管理しやすいサブタスクに自動的に一般化する。
環境の関連部分には、スパースな意思決定と集中した抽象化を可能にする。
論文 参考訳(メタデータ) (2023-09-30T02:25:18Z) - Massively Scalable Inverse Reinforcement Learning in Google Maps [3.1244966374281544]
逆強化学習は、ルートレコメンデーションにおいて人間の潜在的嗜好を学習するための強力で一般的な枠組みを提供する。
数億の州と実証軌道で惑星規模の問題に対処したアプローチはない。
我々は、ルーティングコンテキストにおける古典的IRL手法を再検討し、安価で決定論的プランナーと高価で堅牢なポリシーとの間にトレードオフがあることを重要視する。
Receding Horizon Inverse Planning (RHIP)は、従来のIRLアルゴリズムの新たな一般化であり、その計画的地平を通したパフォーマンストレードオフのきめ細かい制御を提供する。
論文 参考訳(メタデータ) (2023-05-18T20:14:28Z) - Safe Multi-agent Learning via Trapping Regions [89.24858306636816]
我々は、動的システムの定性理論から知られているトラップ領域の概念を適用し、分散学習のための共同戦略空間に安全セットを作成する。
本稿では,既知の学習力学を持つシステムにおいて,候補がトラップ領域を形成することを検証するための二分分割アルゴリズムと,学習力学が未知のシナリオに対するサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-27T14:47:52Z) - PALMER: Perception-Action Loop with Memory for Long-Horizon Planning [1.5469452301122177]
PALMERと呼ばれる汎用計画アルゴリズムを導入する。
Palmerは古典的なサンプリングベースの計画アルゴリズムと学習に基づく知覚表現を組み合わせる。
これにより、表現学習、記憶、強化学習、サンプリングベースの計画の間に、緊密なフィードバックループが生成される。
論文 参考訳(メタデータ) (2022-12-08T22:11:49Z) - Reinforcement Learning for Low-Thrust Trajectory Design of
Interplanetary Missions [77.34726150561087]
本稿では, 惑星間軌道のロバスト設計における強化学習の適用について検討する。
最先端アルゴリズムのオープンソース実装が採用されている。
その結果得られた誘導制御ネットワークは、堅牢な名目的軌道と関連する閉ループ誘導法の両方を提供する。
論文 参考訳(メタデータ) (2020-08-19T15:22:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。