論文の概要: Mixture-of-Experts Meets In-Context Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2506.05426v1
- Date: Thu, 05 Jun 2025 06:29:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.152698
- Title: Mixture-of-Experts Meets In-Context Reinforcement Learning
- Title(参考訳): Mixture-of-ExpertsがIn-Context Reinforcement Learningを導入
- Authors: Wenhao Wu, Fuhong Liu, Haoru Li, Zican Hu, Daoyi Dong, Chunlin Chen, Zhi Wang,
- Abstract要約: 本稿では,テキストbfT2MIR(textbfToken- and textbfTask-wise textbfMoE for textbfIn-context textbfRL)を紹介する。
総合的な実験により、T2MIRはコンテキスト内学習能力を大幅に向上させ、様々なベースラインを上回ります。
- 参考スコア(独自算出の注目度): 29.866936147753368
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In-context reinforcement learning (ICRL) has emerged as a promising paradigm for adapting RL agents to downstream tasks through prompt conditioning. However, two notable challenges remain in fully harnessing in-context learning within RL domains: the intrinsic multi-modality of the state-action-reward data and the diverse, heterogeneous nature of decision tasks. To tackle these challenges, we propose \textbf{T2MIR} (\textbf{T}oken- and \textbf{T}ask-wise \textbf{M}oE for \textbf{I}n-context \textbf{R}L), an innovative framework that introduces architectural advances of mixture-of-experts (MoE) into transformer-based decision models. T2MIR substitutes the feedforward layer with two parallel layers: a token-wise MoE that captures distinct semantics of input tokens across multiple modalities, and a task-wise MoE that routes diverse tasks to specialized experts for managing a broad task distribution with alleviated gradient conflicts. To enhance task-wise routing, we introduce a contrastive learning method that maximizes the mutual information between the task and its router representation, enabling more precise capture of task-relevant information. The outputs of two MoE components are concatenated and fed into the next layer. Comprehensive experiments show that T2MIR significantly facilitates in-context learning capacity and outperforms various types of baselines. We bring the potential and promise of MoE to ICRL, offering a simple and scalable architectural enhancement to advance ICRL one step closer toward achievements in language and vision communities. Our code is available at https://github.com/NJU-RL/T2MIR.
- Abstract(参考訳): インコンテキスト強化学習 (ICRL) は, 迅速な条件付けにより, 下流タスクにRLエージェントを適応させる有望なパラダイムとして登場した。
しかし、RLドメイン内でのコンテキスト内学習の完全活用には、状態-アクション-リワードデータの本質的なマルチモーダリティと、決定タスクの多様で異質な性質の2つの課題がある。
これらの課題に対処するために、混合実験(MoE)のアーキテクチャ的進歩をトランスフォーマーベースの決定モデルに導入する革新的なフレームワークである \textbf{T2MIR} (\textbf{T}oken- and \textbf{T}oken- and \textbf{M}oE for \textbf{I}n-context \textbf{R}L) を提案する。
T2MIRはフィードフォワード層を2つの並列層に置き換える: トークンワイドのMoEは複数のモードにわたる入力トークンのセマンティクスをキャプチャする。
タスクワイドルーティングを強化するために,タスクとルータ表現間の相互情報を最大化し,タスク関連情報のより正確なキャプチャを可能にするコントラスト学習手法を提案する。
2つのMoE成分の出力は連結され、次の層に供給される。
総合的な実験により、T2MIRはコンテキスト内学習能力を大幅に向上させ、様々なベースラインを上回ります。
我々は、ICRLにMoEの可能性と約束をもたらし、ICRLを進化させるためにシンプルでスケーラブルなアーキテクチャ拡張を提供し、言語とビジョンのコミュニティにおける達成に向けて一歩前進させます。
私たちのコードはhttps://github.com/NJU-RL/T2MIRで公開されています。
関連論文リスト
- Resolving Task Objective Conflicts in Unified Multimodal Understanding and Generation via Task-Aware Mixture-of-Experts [11.307588007047407]
マルチモーダル・大規模言語モデル(MLLM)は、理解タスクと生成タスクを単一のフレームワークに統合する。
固有のタスク目的 理解における高レベルのセマンティックな抽象化と、生成時のきめ細かい詳細保存との間の対立は、重大な課題である。
タスク目的の衝突を解決するために,ARの内部コンポーネントを分離する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-06-04T05:44:21Z) - M2IV: Towards Efficient and Fine-grained Multimodal In-Context Learning in Large Vision-Language Models [11.542439154523647]
学習可能なtextbfVectors を LVLM に直接組み込んだ明示的なデモンストレーションを代用する textbfM2IV を提案する。
M2IVは、トレーニングを通じて堅牢なクロスモーダル忠実度と微粒なセマンティック蒸留を実現する。
実験の結果、M2IVはVanilla ICLと先行表現工学のアプローチを超越していることがわかった。
論文 参考訳(メタデータ) (2025-04-06T22:02:21Z) - LamRA: Large Multimodal Model as Your Advanced Retrieval Assistant [63.28378110792787]
LamRAは大規模マルチモーダルモデルに高度な検索と再ランク機能を持たせるために設計された多機能フレームワークである。
検索には、言語のみの事前学習とマルチモーダル・インストラクション・チューニングからなる2段階のトレーニング戦略を採用する。
再格付けには、ポイントワイドとリストワイドの両方のジョイントトレーニングを採用し、検索性能をさらに向上させる2つの方法を提供している。
論文 参考訳(メタデータ) (2024-12-02T17:10:16Z) - Few-Shot Joint Multimodal Entity-Relation Extraction via Knowledge-Enhanced Cross-modal Prompt Model [16.03304915788997]
JMERE(Joint Multimodal Entity-Relation extract)は、ソーシャルメディア投稿において、エンティティとそれらの関係をテキストイメージペアから抽出することを目的とした課題である。
JMEREの既存の方法は大量のラベル付きデータを必要とする。
textbfKnowledge-textbfEnhanced textbfCross-modal textbfPrompt textbfModelを紹介する。
論文 参考訳(メタデータ) (2024-10-18T07:14:54Z) - M3-Jepa: Multimodal Alignment via Multi-directional MoE based on the JEPA framework [6.928469290518152]
M3-Jepaはスケーラブルなマルチモーダルアライメントフレームワークであり、専門家の多方向混合によって実装された予測器を備えている。
我々は,M3-Jepaが様々なモダリティやタスクの最先端性能を達成でき,未知のデータセットやドメインに一般化でき,学習や推論において計算効率がよいことを示す。
論文 参考訳(メタデータ) (2024-09-09T10:40:50Z) - NoteLLM-2: Multimodal Large Representation Models for Recommendation [71.87790090964734]
大規模言語モデル(LLM)は、テキスト理解や埋め込みタスクにおいて、例外的な習熟度を示している。
マルチモーダル表現のポテンシャル、特にアイテムツーイテム(I2I)レコメンデーションについては、未解明のままである。
本稿では,既存のLLMと視覚エンコーダの統合をカスタマイズし,効率的なマルチモーダル表現を実現するエンド・ツー・エンドのファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T03:24:01Z) - T-REX: Mixture-of-Rank-One-Experts with Semantic-aware Intuition for Multi-task Large Language Model Finetuning [31.276142111455847]
大規模言語モデル(LLM)は多様なマルチタスクの微調整において重要な適応課題に直面している。
我々はmixunderlinetextbfTureunderlinetextbf-of-underlinetextbfRank-onunderlinetextbfE-eunderlinetextbfXper ts (textttT-REX) という新しいフレームワークを設計する。
Rank-1のエキスパートは、ミックス・アンド・マッチのメカニズムにより、線形パラメータのオーバーヘッドを持つエキスパートのベクトル部分空間を2次に拡張し、最適で近似誤差削減を達成することができる。
論文 参考訳(メタデータ) (2024-04-13T12:14:58Z) - Dual Semantic Knowledge Composed Multimodal Dialog Systems [114.52730430047589]
本稿では,MDS-S2という新しいマルチモーダルタスク指向対話システムを提案する。
コンテキスト関連属性と関係知識を知識ベースから取得する。
また、合成された応答表現から意味情報を抽出するために、潜在クエリ変数のセットを考案する。
論文 参考訳(メタデータ) (2023-05-17T06:33:26Z) - HiNet: Novel Multi-Scenario & Multi-Task Learning with Hierarchical Information Extraction [50.40732146978222]
マルチシナリオとマルチタスク学習は、産業アプリケーションにおける多くのレコメンデーションシステムに広く応用されている。
階層型情報抽出ネットワーク(HiNet)を提案する。
HiNetは、新しい最先端のパフォーマンスを実現し、既存のソリューションを大幅に上回っている。
論文 参考訳(メタデータ) (2023-03-10T17:24:41Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。