論文の概要: Can a MISL Fly? Analysis and Ingredients for Mutual Information Skill Learning
- arxiv url: http://arxiv.org/abs/2412.08021v2
- Date: Thu, 20 Mar 2025 01:53:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:32:21.943113
- Title: Can a MISL Fly? Analysis and Ingredients for Mutual Information Skill Learning
- Title(参考訳): MISL飛行は可能か? 相互情報スキル学習における分析と難易度
- Authors: Chongyi Zheng, Jens Tuyls, Joanne Peng, Benjamin Eysenbach,
- Abstract要約: 自己教師型学習は、今日の強化学習におけるいくつかの重要な課題を取り上げる可能性を秘めている。
最近の研究(METRA)は、相互情報から離れ、代わりに特定のワッサーシュタイン距離を最適化することが、優れたパフォーマンスのために重要であると効果的に主張している。
- 参考スコア(独自算出の注目度): 20.967307958092317
- License:
- Abstract: Self-supervised learning has the potential of lifting several of the key challenges in reinforcement learning today, such as exploration, representation learning, and reward design. Recent work (METRA) has effectively argued that moving away from mutual information and instead optimizing a certain Wasserstein distance is important for good performance. In this paper, we argue that the benefits seen in that paper can largely be explained within the existing framework of mutual information skill learning (MISL). Our analysis suggests a new MISL method (contrastive successor features) that retains the excellent performance of METRA with fewer moving parts, and highlights connections between skill learning, contrastive representation learning, and successor features. Finally, through careful ablation studies, we provide further insight into some of the key ingredients for both our method and METRA.
- Abstract(参考訳): 自己教師型学習は、探索、表現学習、報酬設計など、今日の強化学習におけるいくつかの重要な課題を取り上げる可能性がある。
最近の研究(METRA)は、相互情報から離れ、代わりに特定のワッサーシュタイン距離を最適化することが、優れたパフォーマンスのために重要であると効果的に主張している。
本稿では,既存の相互情報スキル学習(MISL)の枠組みの中で,この論文に見られるメリットを概説する。
そこで本研究では,METRAの動作部が少なくて優れた性能を保ち,スキル学習,コントラスト表現学習,後継特徴の関連性を強調したMISL法を提案する。
最後に,慎重なアブレーション研究を通じて,本手法とMETRAの双方にとって重要な要素について,さらなる知見を提供する。
関連論文リスト
- From Exploration to Mastery: Enabling LLMs to Master Tools via Self-Driven Interactions [60.733557487886635]
本稿では,大規模言語モデルと外部ツールとの包括的ギャップを埋めることに焦点を当てる。
ツール文書の動的精錬を目的とした新しいフレームワーク DRAFT を提案する。
複数のデータセットに対する大規模な実験は、DRAFTの反復的なフィードバックベースの改善がドキュメントの品質を大幅に改善することを示している。
論文 参考訳(メタデータ) (2024-10-10T17:58:44Z) - Efficient Multi-Model Fusion with Adversarial Complementary Representation Learning [26.393644289860084]
単一モデルシステムは、話者検証(SV)や画像分類といったタスクにおいて、しばしば欠陥に悩まされる。
本稿では、新たに訓練されたモデルが以前取得した知識を回避できる逆相補表現学習(ACoRL)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-24T07:47:55Z) - How Does the Textual Information Affect the Retrieval of Multimodal In-Context Learning? [11.374310255084753]
本稿では,マルチモーダル・イン・コンテクスト学習効率を向上させるニューラルネットワークを用いたMLLM-Retriever MSIERを提案する。
このアプローチは3つの異なるタスクにわたる広範なテストを通じて検証され、メソッドの有効性が実証される。
この探索は、マルチモーダルデータの戦略的利用を通じてMLLMにおける洗練された文脈内学習の可能性を強調し、今後の進歩の道を開くものである。
論文 参考訳(メタデータ) (2024-04-19T13:05:37Z) - C-ICL: Contrastive In-context Learning for Information Extraction [54.39470114243744]
c-ICLは、正しいサンプル構築と間違ったサンプル構築の両方を活用して、コンテキスト内学習のデモを作成する、新しい数ショット技術である。
各種データセットに対する実験により,c-ICLは従来の数発のインコンテキスト学習法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-02-17T11:28:08Z) - MA2CL:Masked Attentive Contrastive Learning for Multi-Agent
Reinforcement Learning [128.19212716007794]
我々はtextbfMulti-textbfAgent textbfMasked textbfAttentive textbfContrastive textbfLearning (MA2CL) という効果的なフレームワークを提案する。
MA2CLは、潜伏空間におけるマスクされたエージェント観察を再構築することにより、時間的およびエージェントレベルの予測の両方の学習表現を奨励する。
提案手法は,様々なMARLアルゴリズムの性能とサンプル効率を大幅に向上させ,様々な視覚的,状態的シナリオにおいて,他の手法よりも優れる。
論文 参考訳(メタデータ) (2023-06-03T05:32:19Z) - Exploring Effective Factors for Improving Visual In-Context Learning [56.14208975380607]
In-Context Learning(ICL)は、いくつかのデモ(別名プロンプト)を通じて新しいタスクを理解し、モデルをチューニングせずに新しい入力を予測することである。
本稿では,視覚的文脈学習の推論性能に直接的な影響を及ぼす要因として,迅速な選択と迅速な融合があげられる。
視覚的インコンテキスト学習のためのシンプルなフレームワークプロンプトSelFを提案する。
論文 参考訳(メタデータ) (2023-04-10T17:59:04Z) - Accelerating exploration and representation learning with offline
pre-training [52.6912479800592]
1つのオフラインデータセットから2つの異なるモデルを別々に学習することで、探索と表現の学習を改善することができることを示す。
ノイズコントラスト推定と補助報酬モデルを用いて状態表現を学習することで、挑戦的なNetHackベンチマークのサンプル効率を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-03-31T18:03:30Z) - Functional Knowledge Transfer with Self-supervised Representation
Learning [11.566644244783305]
本研究では,機能的知識伝達の方向における自己指導型表現学習の未探索ユーザビリティについて検討する。
本研究では,自己教師型学習課題と教師型学習課題の協調最適化により,機能的知識伝達を実現する。
論文 参考訳(メタデータ) (2023-03-12T21:14:59Z) - Heterogeneous Contrastive Learning: Encoding Spatial Information for
Compact Visual Representations [183.03278932562438]
本稿では,エンコーディング段階に空間情報を加えることで,対照的な目的と強いデータ拡張操作の間の学習の不整合を緩和する効果的な手法を提案する。
提案手法は,視覚表現の効率を向上し,自己指導型視覚表現学習の今後の研究を刺激する鍵となるメッセージを提供する。
論文 参考訳(メタデータ) (2020-11-19T16:26:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。