Fugu-MT 論文翻訳(概要): Combining Pre-Trained Models for Enhanced Feature Representation in Reinforcement Learning

論文の概要: Combining Pre-Trained Models for Enhanced Feature Representation in Reinforcement Learning

arxiv url: http://arxiv.org/abs/2507.07197v1
Date: Wed, 09 Jul 2025 18:13:52 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-11 16:40:15.168795
Title: Combining Pre-Trained Models for Enhanced Feature Representation in Reinforcement Learning
Title（参考訳）: 強化学習における特徴表現強化のための事前学習モデルの組み合わせ
Authors: Elia Piccoli, Malio Li, Giacomo Carfì, Vincenzo Lomonaco, Davide Bacciu,
Abstract要約: 強化学習(Reinforcement Learning, RL)は、エージェントと環境との相互作用を通じて得られる累積報酬の最大化に焦点を当てている。我々は、複数の事前学習モデルの埋め込みを組み合わせ、リッチな状態表現を形成する新しいアーキテクチャである、Weight Sharing Attention (WSA)を提案する。
参考スコア（独自算出の注目度）: 16.04558746520946
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The recent focus and release of pre-trained models have been a key components to several advancements in many fields (e.g. Natural Language Processing and Computer Vision), as a matter of fact, pre-trained models learn disparate latent embeddings sharing insightful representations. On the other hand, Reinforcement Learning (RL) focuses on maximizing the cumulative reward obtained via agent's interaction with the environment. RL agents do not have any prior knowledge about the world, and they either learn from scratch an end-to-end mapping between the observation and action spaces or, in more recent works, are paired with monolithic and computationally expensive Foundational Models. How to effectively combine and leverage the hidden information of different pre-trained models simultaneously in RL is still an open and understudied question. In this work, we propose Weight Sharing Attention (WSA), a new architecture to combine embeddings of multiple pre-trained models to shape an enriched state representation, balancing the tradeoff between efficiency and performance. We run an extensive comparison between several combination modes showing that WSA obtains comparable performance on multiple Atari games compared to end-to-end models. Furthermore, we study the generalization capabilities of this approach and analyze how scaling the number of models influences agents' performance during and after training.
Abstract（参考訳）: 最近の事前学習モデルの焦点とリリースは、多くの分野(例えば自然言語処理やコンピュータビジョン)におけるいくつかの進歩の重要な要素であり、実際、事前学習されたモデルは、洞察に富んだ表現を共有する異なる遅延埋め込みを学ぶ。一方、強化学習(Reinforcement Learning, RL)は、エージェントと環境との相互作用を通じて得られる累積報酬の最大化に焦点を当てている。 RLエージェントは、世界に関する事前の知識を持っておらず、観察空間と行動空間の間のエンドツーエンドのマッピングから学習するか、より最近の研究で、モノリシックで計算的に高価な基礎モデルと組み合わせられる。 RLにおいて、異なる事前訓練されたモデルの隠れた情報を効果的に組み合わせ、活用する方法は、まだオープンで未検討の質問である。本研究では,複数の事前学習モデルの埋め込みを結合してリッチな状態表現を形成し,効率と性能のトレードオフをバランスさせる新しいアーキテクチャであるWeight Sharing Attention (WSA)を提案する。我々は、WSAが複数のAtariゲームにおいて、エンド・ツー・エンドモデルと比較して同等の性能を得られることを示す複数の組み合わせモードを広範囲に比較する。さらに,本手法の一般化能力について検討し,モデル数のスケーリングがエージェントのパフォーマンスに与える影響を学習前後で分析する。

関連論文リスト

GRAM: A Generative Foundation Reward Model for Reward Generalization [48.63394690265176]
まず,大規模教師なし学習を用いて学習し,教師付き学習により微調整を行う生成報酬モデルを開発した。このモデルは、応答ランキング、人間のフィードバックからの強化学習、微調整によるタスク適応など、様々なタスクをうまく一般化する。
論文参考訳（メタデータ） (2025-06-17T04:34:27Z)
AXIOM: Learning to Play Games in Minutes with Expanding Object-Centric Models [41.429595107023125]
AXIOMは、オブジェクト中心のダイナミクスとインタラクションに関する、最小限だが表現力に富んだコアプライドのセットを統合する、新しいアーキテクチャである。これはベイズ的アプローチの通常のデータ効率と解釈可能性と、通常DRLに付随する全タスクの一般化を組み合わせている。 AXIOMは、DRLに比べて少数のパラメータを持ち、グラデーションベースの最適化の計算コストなしで、わずか10,000のインタラクションステップで様々なゲームをマスターする。
論文参考訳（メタデータ） (2025-05-30T16:46:20Z)
Platonic Grounding for Efficient Multimodal Language Models [22.715168904364756]
我々は、事前訓練されたモデルの整合性に依存する既存のマルチモーダルフレームワークをモチベーションし、簡単な修正を提案する。私たちの研究は、事前学習されたモデルをより大規模なシステムに効率的に組み合わせることにも影響します。
論文参考訳（メタデータ） (2025-04-27T18:56:26Z)
Scaling Laws for Native Multimodal Models [53.490942903659565]
我々は、ネイティブマルチモーダルモデルのアーキテクチャ設計を再考し、広範なスケーリング法の研究を行う。我々の調査では、早期核融合アーキテクチャよりも後期核融合アーキテクチャに固有の利点は示されていない。モデルにMixture of Experts(MoEs)を組み込むことで、モデルがモダリティ固有の重みを学習し、性能を著しく向上できることを示す。
論文参考訳（メタデータ） (2025-04-10T17:57:28Z)
Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining [74.83412846804977]
強化学習(RL)に基づく微調整は、訓練後の言語モデルにおいて重要なステップとなっている。数理推論のためのRLファインタニングを、スクラッチから完全にトレーニングモデルを用いて体系的にエンドツーエンドに研究する。
論文参考訳（メタデータ） (2025-04-10T17:15:53Z)
Active Data Curation Effectively Distills Large-Scale Multimodal Models [66.23057263509027]
知識蒸留(KD)は、大規模モデルをより小さなものに圧縮するデファクトスタンダードである。本研究では, 対照的なマルチモーダル事前学習のための効果的な蒸留法として, 能動的データキュレーションの代替として, 簡単なアプローチを探求する。我々の単純なオンラインバッチ選択方法であるACIDは、さまざまなモデル、データ、計算構成において、強力なKDベースラインよりも優れています。
論文参考訳（メタデータ） (2024-11-27T18:50:15Z)
A Collaborative Ensemble Framework for CTR Prediction [73.59868761656317]
我々は、複数の異なるモデルを活用するための新しいフレームワーク、CETNet(Collaborative Ensemble Training Network)を提案する。ナイーブなモデルスケーリングとは違って,私たちのアプローチは,共同学習による多様性とコラボレーションを重視しています。当社のフレームワークは,Metaの3つのパブリックデータセットと大規模産業データセットに基づいて検証する。
論文参考訳（メタデータ） (2024-11-20T20:38:56Z)
Has Your Pretrained Model Improved? A Multi-head Posterior Based Approach [25.927323251675386]
我々は、世界的知識の源として各エンティティに関連するメタ機能を活用し、モデルからエンティティ表現を採用する。本稿では,これらの表現とメタ機能との整合性を,事前学習モデルの評価指標として用いることを提案する。提案手法の有効性は,関係データセットを用いたモデル,大規模言語モデル,画像モデルなど,様々な領域で実証されている。
論文参考訳（メタデータ） (2024-01-02T17:08:26Z)
Fantastic Gains and Where to Find Them: On the Existence and Prospect of General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文参考訳（メタデータ） (2023-10-26T17:59:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。