論文の概要: Multi-State-Action Tokenisation in Decision Transformers for Multi-Discrete Action Spaces
- arxiv url: http://arxiv.org/abs/2407.01310v1
- Date: Mon, 1 Jul 2024 14:18:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 21:20:18.361358
- Title: Multi-State-Action Tokenisation in Decision Transformers for Multi-Discrete Action Spaces
- Title(参考訳): マルチ離散アクション空間のための決定変換器の多状態動作トークン化
- Authors: Perusha Moodley, Pramod Kaushik, Dhillu Thambi, Mark Trovinger, Praveen Paruchuri, Xia Hong, Benjamin Rosman,
- Abstract要約: マルチステートアクショントークン化(Multi-State Action Tokenisation, M-SAT)は、マルチディスクアクション空間におけるアクションのトークン化のためのアプローチである。
マルチ離散動作空間と画像ベース状態空間を持つViZDoom環境におけるM-SATの性能向上を示す。
- 参考スコア(独自算出の注目度): 11.912792723929876
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Decision Transformers, in their vanilla form, struggle to perform on image-based environments with multi-discrete action spaces. Although enhanced Decision Transformer architectures have been developed to improve performance, these methods have not specifically addressed this problem of multi-discrete action spaces which hampers existing Decision Transformer architectures from learning good representations. To mitigate this, we propose Multi-State Action Tokenisation (M-SAT), an approach for tokenising actions in multi-discrete action spaces that enhances the model's performance in such environments. Our approach involves two key changes: disentangling actions to the individual action level and tokenising the actions with auxiliary state information. These two key changes also improve individual action level interpretability and visibility within the attention layers. We demonstrate the performance gains of M-SAT on challenging ViZDoom environments with multi-discrete action spaces and image-based state spaces, including the Deadly Corridor and My Way Home scenarios, where M-SAT outperforms the baseline Decision Transformer without any additional data or heavy computational overheads. Additionally, we find that removing positional encoding does not adversely affect M-SAT's performance and, in some cases, even improves it.
- Abstract(参考訳): 決定変換器は、そのバニラ形式で、複数の離散アクション空間を持つ画像ベースの環境において、実行に苦労する。
改良された決定変換器アーキテクチャは性能向上のために開発されたが、これらの手法は、既存の決定変換器アーキテクチャを優れた表現の学習から妨げるマルチ離散動作空間の問題に特に対処していない。
これを軽減するために,マルチ状態行動トークン化(M-SAT)を提案する。
私たちのアプローチでは、アクションを個々のアクションレベルに分離する、補助的な状態情報でアクションをトークン化する、という2つの重要な変更を伴います。
これら2つの重要な変更は、個々のアクションレベルの解釈性と、注意層内の可視性も改善する。
我々は、M-SATがVizDoom環境に挑戦する上で、Dadly Corridor や My Way Home のシナリオを含むマルチ離散アクション空間や画像ベースの状態空間において、M-SAT は、追加のデータや計算オーバーヘッドを伴わずにベースライン決定変換器より優れていることを示す。
さらに、位置符号化の除去がM-SATの性能に悪影響を及ぼさないことや、場合によってはそれを改善することさえある。
関連論文リスト
- MAT: Multi-Range Attention Transformer for Efficient Image Super-Resolution [14.265237560766268]
多様な空間範囲にわたる注意の柔軟な統合は、大幅なパフォーマンス向上をもたらす可能性がある。
スーパーレゾリューション(SR)タスクに適したマルチランジアテンショントランス(MAT)を提案する。
MATは、様々な空間範囲にまたがる依存関係を包含し、その特徴表現の多様性と有効性を向上させる。
論文 参考訳(メタデータ) (2024-11-26T08:30:31Z) - Mixture-of-Noises Enhanced Forgery-Aware Predictor for Multi-Face Manipulation Detection and Localization [52.87635234206178]
本稿では,多面的操作検出と局所化に適したMoNFAPという新しいフレームワークを提案する。
このフレームワークには2つの新しいモジュールが含まれている: Forgery-aware Unified Predictor (FUP) Module と Mixture-of-Noises Module (MNM)。
論文 参考訳(メタデータ) (2024-08-05T08:35:59Z) - Boosting the Transferability of Adversarial Examples via Local Mixup and
Adaptive Step Size [5.04766995613269]
敵対的な例は、様々な視覚的アプリケーションに対する重要なセキュリティ上の脅威の一つであり、注入された人間に知覚できない摂動が出力を混乱させる可能性がある。
既存の入力多様性に基づく手法では、異なる画像変換が採用されているが、入力の多様性が不十分であり、同じ摂動ステップサイズのため、非効率である可能性がある。
本稿では,改良された入力の多様性と適応的なステップサイズを共同で設計し,ブラックボックスの逆生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-24T03:26:34Z) - MVSFormer++: Revealing the Devil in Transformer's Details for Multi-View
Stereo [60.75684891484619]
我々は、MVSパイプラインの様々なコンポーネントを強化するために、注意の特性を最大化するMVSFormer++を紹介する。
特徴エンコーダとコスト容積正規化には異なる注意機構を用い,それぞれ特徴量と空間的アグリゲーションに着目した。
DTU, タンク・アンド・テンプル, BlendedMVS, ETH3Dの総合的な実験により, 提案手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-01-22T03:22:49Z) - DeNoising-MOT: Towards Multiple Object Tracking with Severe Occlusions [52.63323657077447]
DNMOTは、複数のオブジェクト追跡のためのエンドツーエンドのトレーニング可能なDeNoising Transformerである。
具体的には、トレーニング中にノイズを伴って軌道を拡大し、エンコーダ・デコーダアーキテクチャのデノイング過程をモデルに学習させる。
我々はMOT17,MOT20,DanceTrackのデータセットについて広範な実験を行い,実験結果から,提案手法が従来の最先端手法よりも明確なマージンで優れていることが示された。
論文 参考訳(メタデータ) (2023-09-09T04:40:01Z) - Semantic-Constraint Matching Transformer for Weakly Supervised Object
Localization [31.039698757869974]
弱教師付きオブジェクトローカライゼーション(WSOL)は、イメージレベルの監督のみでオブジェクトをローカライズすることを学ぶ。
従来のCNNベースのメソッドは、エンティティのスコープ全体ではなく、オブジェクトの識別部分に集中して、部分的なアクティベーションの問題に悩まされていた。
本稿では,変圧器を用いたセマンティック・制約マッチングネットワーク(SCMN)を提案する。
論文 参考訳(メタデータ) (2023-09-04T03:20:31Z) - Active Domain Adaptation with Multi-level Contrastive Units for Semantic
Segmentation [22.048328293739182]
セマンティックイメージセグメンテーションのための多レベルコントラストユニット(ADA-MCU)を用いた新しいアクティブドメイン適応方式を提案する。
ADA-MCUは、ラベル付きおよびラベルなしのピクセルを使用して、画像内、クロスイメージ、およびクロスドメインレベルから構築される。
提案手法は,ラベル付き画素を50%減らした最先端のSSDA手法に対する競合性能を実現し,同レベルのアノテーションコストを用いることで,最先端のSSDA手法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2022-05-23T10:55:39Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - Unsupervised Motion Representation Learning with Capsule Autoencoders [54.81628825371412]
Motion Capsule Autoencoder (MCAE) は、2レベル階層のモーションをモデル化する。
MCAEは、新しいTrajectory20モーションデータセットと、様々な現実世界の骨格に基づく人間のアクションデータセットで評価されている。
論文 参考訳(メタデータ) (2021-10-01T16:52:03Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。