論文の概要: Unsupervised Learning of Temporal Abstractions with Slot-based
Transformers
- arxiv url: http://arxiv.org/abs/2203.13573v1
- Date: Fri, 25 Mar 2022 10:59:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-28 19:52:18.885952
- Title: Unsupervised Learning of Temporal Abstractions with Slot-based
Transformers
- Title(参考訳): スロット型変圧器を用いた時間的抽象化の教師なし学習
- Authors: Anand Gopalakrishnan, Kazuki Irie, J\"urgen Schmidhuber, Sjoerd van
Steenkiste
- Abstract要約: SloTTArは、シーケンス処理トランスフォーマーをSlot Attentionモジュールとアダプティブ計算に統合する、完全に並列なアプローチである。
可変量のサブルーチンを含むシーケンスであっても,SloTTArが境界点探索において強いベースラインを達成可能であることを示す。
- 参考スコア(独自算出の注目度): 16.566011530507737
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The discovery of reusable sub-routines simplifies decision-making and
planning in complex reinforcement learning problems. Previous approaches
propose to learn such temporal abstractions in a purely unsupervised fashion
through observing state-action trajectories gathered from executing a policy.
However, a current limitation is that they process each trajectory in an
entirely sequential manner, which prevents them from revising earlier decisions
about sub-routine boundary points in light of new incoming information. In this
work we propose SloTTAr, a fully parallel approach that integrates sequence
processing Transformers with a Slot Attention module and adaptive computation
for learning about the number of such sub-routines in an unsupervised fashion.
We demonstrate how SloTTAr is capable of outperforming strong baselines in
terms of boundary point discovery, even for sequences containing variable
amounts of sub-routines, while being up to 7x faster to train on existing
benchmarks.
- Abstract(参考訳): 再利用可能なサブルーチンの発見は、複雑な強化学習問題の意思決定と計画を容易にする。
従来のアプローチでは、政策の実行から集められた状態-行動軌跡を観察することで、純粋に教師なしの方法でそのような時間的抽象化を学習することを提案した。
しかし、現在の制限は、それぞれの軌道を全く連続的に処理することであり、新しい入射情報に照らして、サブルーチン境界点に関する以前の決定を修正できないことである。
本研究では,SloTTArを提案する。Slot Attentionモジュールとシーケンス処理トランスフォーマーを統合し,非教師付き方式でサブルーチン数を学習するための適応計算を行う。
我々は,SloTTArが境界点探索において,可変量のサブルーチンを含むシーケンスであっても,既存のベンチマークのトレーニングを最大7倍高速に行うことができることを示す。
関連論文リスト
- Continual LLaVA: Continual Instruction Tuning in Large Vision-Language Models [93.5327725085853]
連続LLaVA(Continuous LLaVA)は、LVLMにおける連続的な命令チューニングに適したリハーサルフリーな手法である。
実験により,提案した連続LLaVAは,連続的な命令チューニング過程における忘れを著しく減らし,従来の手法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-11-04T19:55:32Z) - Hybrid Recurrent Models Support Emergent Descriptions for Hierarchical Planning and Control [0.8749675983608172]
リカレントスイッチング線形力学系(rSLDS)として知られるハイブリッド状態空間モデルのクラスは、意味のある振る舞い単位を発見する。
我々は、rSLDSによって形成されたリッチな表現は、計画と制御に有用な抽象化を提供することができると提案する。
本稿では,低レベル線形二乗制御器上に離散型MDPを配置する,アクティブ推論にインスパイアされた新しい階層型モデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-08-20T16:02:54Z) - Directed Exploration in Reinforcement Learning from Linear Temporal Logic [59.707408697394534]
リニア時間論理(LTL)は強化学習におけるタスク仕様のための強力な言語である。
合成された報酬信号は基本的に疎結合であり,探索が困難であることを示す。
我々は、仕様をさらに活用し、それに対応するリミット決定性B"uchi Automaton(LDBA)をマルコフ報酬プロセスとしてキャストすることで、よりよい探索を実現することができることを示す。
論文 参考訳(メタデータ) (2024-08-18T14:25:44Z) - Robust Stochastically-Descending Unrolled Networks [85.6993263983062]
Deep Unrolling(ディープ・アンローリング)は、トレーニング可能なニューラルネットワークの層に切り捨てられた反復アルゴリズムをアンロールする、新たな学習最適化手法である。
アンロールネットワークの収束保証と一般化性は、いまだにオープンな理論上の問題であることを示す。
提案した制約の下で訓練されたアンロールアーキテクチャを2つの異なるアプリケーションで数値的に評価する。
論文 参考訳(メタデータ) (2023-12-25T18:51:23Z) - Reinforcement Logic Rule Learning for Temporal Point Processes [17.535382791003176]
本稿では,時間的事象の発生を説明するための説明的時間論理則を漸進的に拡張するフレームワークを提案する。
提案アルゴリズムは、現在のルールセットの重みが更新されるマスター問題と、新しいルールを探索し、その可能性を高めるために含めるサブプロブレムとを交互に行う。
人工的および実際の医療データセットにおいて,提案手法の評価を行い,有望な結果を得た。
論文 参考訳(メタデータ) (2023-08-11T12:05:32Z) - Large Language Models as General Pattern Machines [64.75501424160748]
我々は,事前訓練された大規模言語モデル (LLM) が,複雑なトークンシーケンスを自動回帰的に完了することを示す。
驚いたことに、語彙からランダムにサンプリングされたトークンを用いてシーケンスが表現された場合でも、パターン完了の習熟度を部分的に保持することができる。
本研究では,ロボット工学における問題に対して,これらのゼロショット機能がどのように適用されるかを検討する。
論文 参考訳(メタデータ) (2023-07-10T17:32:13Z) - Reinforcement Learning with Simple Sequence Priors [9.869634509510016]
圧縮可能な動作列でタスクを解くことを学習するRLアルゴリズムを提案する。
得られたRLアルゴリズムは学習を高速化し、最先端のモデルフリーアプローチよりも高いリターンが得られることを示す。
論文 参考訳(メタデータ) (2023-05-26T17:18:14Z) - Chain-of-Thought Predictive Control [32.30974063877643]
複雑な低レベル制御のための実証から一般化可能な政策学習について研究する。
準最適デモを利用した新しい階層型模倣学習法を提案する。
論文 参考訳(メタデータ) (2023-04-03T07:59:13Z) - SMART: Self-supervised Multi-task pretrAining with contRol Transformers [34.604339091596884]
自己指導型事前訓練は言語と視覚領域で広く研究されている。
シーケンシャルな意思決定タスクのための事前学習アプローチを適切に設計することは困難である。
逐次意思決定のための一般的な事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-24T05:01:23Z) - Progressively Guide to Attend: An Iterative Alignment Framework for
Temporal Sentence Grounding [53.377028000325424]
時間的文接地作業のための反復アライメントネットワーク(IA-Net)を提案する。
学習可能なパラメータを持つマルチモーダル特徴をパットすることで、非整合フレームワードペアの非整合問題を軽減する。
また、アライメントの知識を洗練させるために、各アライメントモジュールに従ってキャリブレーションモジュールを考案する。
論文 参考訳(メタデータ) (2021-09-14T02:08:23Z) - Fast and Complete: Enabling Complete Neural Network Verification with
Rapid and Massively Parallel Incomplete Verifiers [112.23981192818721]
BaB プロセス中に線形計画法 (LP) を置き換えるために, 逆モード線形緩和に基づく解析法 (LiRPA) を提案する。
LPとは異なり、LiRPAを適用すると、より弱い境界が得られ、分割時にサブドメインのコンフリクトをチェックすることもできない。
既存のLPベースのアプローチと比較して、桁違いのスピードアップを示す。
論文 参考訳(メタデータ) (2020-11-27T16:42:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。