論文の概要: SAINT: Attention-Based Modeling of Sub-Action Dependencies in Multi-Action Policies
- arxiv url: http://arxiv.org/abs/2505.12109v1
- Date: Sat, 17 May 2025 18:34:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.044675
- Title: SAINT: Attention-Based Modeling of Sub-Action Dependencies in Multi-Action Policies
- Title(参考訳): SAINT:マルチアクションポリシーにおけるサブアクション依存性の注意に基づくモデリング
- Authors: Matthew Landers, Taylor W. Killian, Thomas Hartvigsen, Afsaneh Doryab,
- Abstract要約: サブ・アクション・インタラクション・ネットワーク (SAINT) は、多成分のアクションを無秩序な集合として表現し、その依存関係をグローバルな状態に設定された自己注意によってモデル化する新しいポリシーアーキテクチャである。
3つのタスクドメインにまたがる15の異なる環境、例えば1700万近い共同アクションを持つ環境では、SAINTは一貫して強力なベースラインを上回っている。
- 参考スコア(独自算出の注目度): 13.673494183777716
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The combinatorial structure of many real-world action spaces leads to exponential growth in the number of possible actions, limiting the effectiveness of conventional reinforcement learning algorithms. Recent approaches for combinatorial action spaces impose factorized or sequential structures over sub-actions, failing to capture complex joint behavior. We introduce the Sub-Action Interaction Network using Transformers (SAINT), a novel policy architecture that represents multi-component actions as unordered sets and models their dependencies via self-attention conditioned on the global state. SAINT is permutation-invariant, sample-efficient, and compatible with standard policy optimization algorithms. In 15 distinct combinatorial environments across three task domains, including environments with nearly 17 million joint actions, SAINT consistently outperforms strong baselines.
- Abstract(参考訳): 多くの実世界のアクション空間の組合せ構造は、可能なアクションの数を指数関数的に増加させ、従来の強化学習アルゴリズムの有効性を制限する。
組合せ的作用空間に対する最近のアプローチは、複雑な関節の挙動を捉えることができず、部分作用よりも分解的あるいはシーケンシャルな構造を課している。
本稿では,トランスフォーマを用いたサブアクションインタラクションネットワーク(SAINT)について紹介する。これは,多成分アクションを無秩序な集合として表現し,その依存関係をグローバルな状態に設定した自己アテンションによってモデル化する,新しいポリシーアーキテクチャである。
SAINTは置換不変であり、サンプル効率が高く、標準ポリシー最適化アルゴリズムと互換性がある。
3つのタスクドメインにまたがる15の異なる組合せ環境、例えば1700万近い共同アクションを持つ環境において、SAINTは一貫して強力なベースラインを上回っている。
関連論文リスト
- Primary-Fine Decoupling for Action Generation in Robotic Imitation [91.2899765310853]
ロボット操作動作シーケンスにおけるマルチモーダル分布は、模倣学習にとって重要な課題である。
PF-DAG(プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、PF-DAG)を提案する。
PF-DAGは、Adroit、DexArt、MetaWorldベンチマークの56タスクで最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2026-02-25T08:36:45Z) - Improving and Accelerating Offline RL in Large Discrete Action Spaces with Structured Policy Initialization [11.646124619395486]
離散的な作用空間における強化学習では、指数関数的に多くの共同作用を探索し、コヒーレントな組み合わせを形成する複数の部分作用を同時に選択する必要がある。
既存のアプローチは、サブアクション間で独立性を仮定することでポリシー学習を単純化するか、またはアクション構造とコントロールを共同で学ぼうとする。
本稿では,まず行動構造モデル(ASM)を事前訓練し,有効な行動の多様体を抽出し,その表現を凍結し,軽量なポリシーヘッドを制御するための2段階のフレームワークであるStructured Policy Initialization(SPIN)を紹介する。
論文 参考訳(メタデータ) (2026-01-07T22:57:21Z) - Flexible Multitask Learning with Factorized Diffusion Policy [59.526246520933135]
マルチタスク学習は、ロボットの行動分布が多様で多様な性質を持つため、大きな課題となる。
既存のモノリシックモデルは、しばしばアクション分布に不適合であり、効率的な適応に必要な柔軟性に欠ける。
本稿では,複雑な行動分布を特殊拡散モデルの合成に分解する,新しいモジュラー拡散政策フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-26T07:11:47Z) - Q-function Decomposition with Intervention Semantics with Factored Action Spaces [51.01244229483353]
元の作用空間の低次元射影部分空間上で定義されるQ-函数を考察し、分解されたQ-函数の不偏性について考察する。
これにより、標準モデルフリー強化学習アルゴリズムにおいて、予測Q関数を用いてQ関数を近似する動作分解強化学習と呼ばれる一般的なスキームが導かれる。
論文 参考訳(メタデータ) (2025-04-30T05:26:51Z) - An Efficient Approach for Cooperative Multi-Agent Learning Problems [0.8287206589886881]
本稿では,複数のエージェントの同時動作をモデル化する政策学習のための中心的枠組みを提案する。
本手法は,集中型手法に典型的なスケーラビリティ問題を克服する逐次的抽象化によるコーディネーション問題に対処する。
実験の結果,提案手法は多様なマルチエージェント学習環境におけるエージェントのコーディネートに成功していることがわかった。
論文 参考訳(メタデータ) (2025-04-07T09:03:35Z) - Multi Activity Sequence Alignment via Implicit Clustering [50.3168866743067]
暗黙のクラスタリングによるシーケンスアライメントによる制約を克服する新しいフレームワークを提案する。
具体的には、列内のフレームをアライメントしながら、暗黙的なクリップレベルのクラスタリングを行うという考え方です。
実験の結果,提案手法は最先端の結果よりも優れていた。
論文 参考訳(メタデータ) (2025-03-16T14:28:46Z) - Reinforcement learning with combinatorial actions for coupled restless bandits [62.89013331120493]
提案するSEQUOIAは,動作空間に対する長期報酬を直接最適化するRLアルゴリズムである。
我々は,複数介入,経路制約,二部間マッチング,容量制約という,制約を伴う4つの新しいレスレス・バンディット問題に対して,SEQUOIAを実証的に検証した。
論文 参考訳(メタデータ) (2025-03-01T21:25:21Z) - BraVE: Offline Reinforcement Learning for Discrete Combinatorial Action Spaces [12.904199719046968]
本稿では,従属構造を保ちながら協調動作の線形数を評価するための値に基づく手法を提案する。
BraVEは400万以上のアクションを持つ環境において、事前のオフラインRLメソッドを最大20タイム$でパフォーマンスする。
論文 参考訳(メタデータ) (2024-10-28T15:49:46Z) - Composable Part-Based Manipulation [61.48634521323737]
本稿では,ロボット操作スキルの学習と一般化を改善するために,構成可能な部品ベース操作(CPM)を提案する。
CPMは構成可能な拡散モデルの集合で構成され、各モデルは異なるオブジェクト間の対応をキャプチャする。
シミュレーションおよび実世界のシナリオにおいて、我々のアプローチを検証し、ロバストかつ一般化された操作能力を達成する上での有効性を実証する。
論文 参考訳(メタデータ) (2024-05-09T16:04:14Z) - Efficient Planning in Combinatorial Action Spaces with Applications to
Cooperative Multi-Agent Reinforcement Learning [16.844525262228103]
協調型マルチエージェント強化学習では、多数のエージェントが共同でグローバル報酬関数を最適化し、エージェントの数によってアクション空間が爆発する。
最小限の要件として、モデルクラスの任意のQ-関数に対する欲求ポリシーを効率的に計算できるargmaxオラクルへのアクセスを仮定する。
そこで本研究では,全ての問題パラメータの計算と問合せを複雑化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-08T23:42:49Z) - Rethinking Trajectory Prediction via "Team Game" [118.59480535826094]
本稿では,対話型グループコンセンサスの概念を明示的に導入した,マルチエージェント軌道予測の新しい定式化について述べる。
チームスポーツと歩行者の2つのマルチエージェント設定において,提案手法は既存手法と比較して常に優れた性能を達成している。
論文 参考訳(メタデータ) (2022-10-17T07:16:44Z) - Modeling Multi-Label Action Dependencies for Temporal Action
Localization [53.53490517832068]
実世界のビデオには、アクションクラス間の固有の関係を持つ多くの複雑なアクションが含まれている。
非発生ビデオにおける時間的行動の局在化のタスクのためのこれらの行動関係をモデル化する注意に基づくアーキテクチャを提案する。
マルチラベルアクションローカリゼーションベンチマークの最先端の方法よりもパフォーマンスが向上しました。
論文 参考訳(メタデータ) (2021-03-04T13:37:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。