Fugu-MT 論文翻訳(概要): SAINT: Attention-Based Modeling of Sub-Action Dependencies in Multi-Action Policies

論文の概要: SAINT: Attention-Based Modeling of Sub-Action Dependencies in Multi-Action Policies

arxiv url: http://arxiv.org/abs/2505.12109v1
Date: Sat, 17 May 2025 18:34:31 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-20 14:57:11.044675
Title: SAINT: Attention-Based Modeling of Sub-Action Dependencies in Multi-Action Policies
Title（参考訳）: SAINT:マルチアクションポリシーにおけるサブアクション依存性の注意に基づくモデリング
Authors: Matthew Landers, Taylor W. Killian, Thomas Hartvigsen, Afsaneh Doryab,
Abstract要約: サブ・アクション・インタラクション・ネットワーク (SAINT) は、多成分のアクションを無秩序な集合として表現し、その依存関係をグローバルな状態に設定された自己注意によってモデル化する新しいポリシーアーキテクチャである。 3つのタスクドメインにまたがる15の異なる環境、例えば1700万近い共同アクションを持つ環境では、SAINTは一貫して強力なベースラインを上回っている。
参考スコア（独自算出の注目度）: 13.673494183777716
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The combinatorial structure of many real-world action spaces leads to exponential growth in the number of possible actions, limiting the effectiveness of conventional reinforcement learning algorithms. Recent approaches for combinatorial action spaces impose factorized or sequential structures over sub-actions, failing to capture complex joint behavior. We introduce the Sub-Action Interaction Network using Transformers (SAINT), a novel policy architecture that represents multi-component actions as unordered sets and models their dependencies via self-attention conditioned on the global state. SAINT is permutation-invariant, sample-efficient, and compatible with standard policy optimization algorithms. In 15 distinct combinatorial environments across three task domains, including environments with nearly 17 million joint actions, SAINT consistently outperforms strong baselines.
Abstract（参考訳）: 多くの実世界のアクション空間の組合せ構造は、可能なアクションの数を指数関数的に増加させ、従来の強化学習アルゴリズムの有効性を制限する。組合せ的作用空間に対する最近のアプローチは、複雑な関節の挙動を捉えることができず、部分作用よりも分解的あるいはシーケンシャルな構造を課している。本稿では,トランスフォーマを用いたサブアクションインタラクションネットワーク(SAINT)について紹介する。これは,多成分アクションを無秩序な集合として表現し,その依存関係をグローバルな状態に設定した自己アテンションによってモデル化する,新しいポリシーアーキテクチャである。 SAINTは置換不変であり、サンプル効率が高く、標準ポリシー最適化アルゴリズムと互換性がある。 3つのタスクドメインにまたがる15の異なる組合せ環境、例えば1700万近い共同アクションを持つ環境において、SAINTは一貫して強力なベースラインを上回っている。

関連論文リスト

Q-function Decomposition with Intervention Semantics with Factored Action Spaces [51.01244229483353]
元の作用空間の低次元射影部分空間上で定義されるQ-函数を考察し、分解されたQ-函数の不偏性について考察する。これにより、標準モデルフリー強化学習アルゴリズムにおいて、予測Q関数を用いてQ関数を近似する動作分解強化学習と呼ばれる一般的なスキームが導かれる。
論文参考訳（メタデータ） (2025-04-30T05:26:51Z)
An Efficient Approach for Cooperative Multi-Agent Learning Problems [0.8287206589886881]
本稿では,複数のエージェントの同時動作をモデル化する政策学習のための中心的枠組みを提案する。本手法は,集中型手法に典型的なスケーラビリティ問題を克服する逐次的抽象化によるコーディネーション問題に対処する。実験の結果,提案手法は多様なマルチエージェント学習環境におけるエージェントのコーディネートに成功していることがわかった。
論文参考訳（メタデータ） (2025-04-07T09:03:35Z)
Multi Activity Sequence Alignment via Implicit Clustering [50.3168866743067]
暗黙のクラスタリングによるシーケンスアライメントによる制約を克服する新しいフレームワークを提案する。具体的には、列内のフレームをアライメントしながら、暗黙的なクリップレベルのクラスタリングを行うという考え方です。実験の結果,提案手法は最先端の結果よりも優れていた。
論文参考訳（メタデータ） (2025-03-16T14:28:46Z)
Reinforcement learning with combinatorial actions for coupled restless bandits [62.89013331120493]
提案するSEQUOIAは,動作空間に対する長期報酬を直接最適化するRLアルゴリズムである。我々は,複数介入,経路制約,二部間マッチング,容量制約という,制約を伴う4つの新しいレスレス・バンディット問題に対して,SEQUOIAを実証的に検証した。
論文参考訳（メタデータ） (2025-03-01T21:25:21Z)
BraVE: Offline Reinforcement Learning for Discrete Combinatorial Action Spaces [12.904199719046968]
本稿では,従属構造を保ちながら協調動作の線形数を評価するための値に基づく手法を提案する。 BraVEは400万以上のアクションを持つ環境において、事前のオフラインRLメソッドを最大20タイム$でパフォーマンスする。
論文参考訳（メタデータ） (2024-10-28T15:49:46Z)
Composable Part-Based Manipulation [61.48634521323737]
本稿では,ロボット操作スキルの学習と一般化を改善するために,構成可能な部品ベース操作(CPM)を提案する。 CPMは構成可能な拡散モデルの集合で構成され、各モデルは異なるオブジェクト間の対応をキャプチャする。シミュレーションおよび実世界のシナリオにおいて、我々のアプローチを検証し、ロバストかつ一般化された操作能力を達成する上での有効性を実証する。
論文参考訳（メタデータ） (2024-05-09T16:04:14Z)
Efficient Planning in Combinatorial Action Spaces with Applications to Cooperative Multi-Agent Reinforcement Learning [16.844525262228103]
協調型マルチエージェント強化学習では、多数のエージェントが共同でグローバル報酬関数を最適化し、エージェントの数によってアクション空間が爆発する。最小限の要件として、モデルクラスの任意のQ-関数に対する欲求ポリシーを効率的に計算できるargmaxオラクルへのアクセスを仮定する。そこで本研究では,全ての問題パラメータの計算と問合せを複雑化するアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-02-08T23:42:49Z)
Rethinking Trajectory Prediction via "Team Game" [118.59480535826094]
本稿では,対話型グループコンセンサスの概念を明示的に導入した,マルチエージェント軌道予測の新しい定式化について述べる。チームスポーツと歩行者の2つのマルチエージェント設定において,提案手法は既存手法と比較して常に優れた性能を達成している。
論文参考訳（メタデータ） (2022-10-17T07:16:44Z)
Modeling Multi-Label Action Dependencies for Temporal Action Localization [53.53490517832068]
実世界のビデオには、アクションクラス間の固有の関係を持つ多くの複雑なアクションが含まれている。非発生ビデオにおける時間的行動の局在化のタスクのためのこれらの行動関係をモデル化する注意に基づくアーキテクチャを提案する。マルチラベルアクションローカリゼーションベンチマークの最先端の方法よりもパフォーマンスが向上しました。
論文参考訳（メタデータ） (2021-03-04T13:37:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。