論文の概要: $\text{M}^{\text{3}}$: A Modular World Model over Streams of Tokens
- arxiv url: http://arxiv.org/abs/2502.11537v2
- Date: Thu, 20 Feb 2025 10:35:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:29:11.248338
- Title: $\text{M}^{\text{3}}$: A Modular World Model over Streams of Tokens
- Title(参考訳): $\text{M}^{\text{3}}$: トークンのストリーム上のモジュラーワールドモデル
- Authors: Lior Cohen, Kaixin Wang, Bingyi Kang, Uri Gadot, Shie Mannor,
- Abstract要約: トークン化を個別に最適化しながら、トークンストリームを動的にモデリングする、有望なモジュラーフレームワークとして、トークンベースのワールドモデルが登場した。
本稿では、このフレームワークを拡張した、$textbfm$odular $textbfw$orld $textbfm$odelを紹介します。
$textMtext3$は、エージェントのパフォーマンスを向上させるために、既存の文献からいくつかの改善を実現している。
- 参考スコア(独自算出の注目度): 51.65485693709418
- License:
- Abstract: Token-based world models emerged as a promising modular framework, modeling dynamics over token streams while optimizing tokenization separately. While successful in visual environments with discrete actions (e.g., Atari games), their broader applicability remains uncertain. In this paper, we introduce $\text{M}^{\text{3}}$, a $\textbf{m}$odular $\textbf{w}$orld $\textbf{m}$odel that extends this framework, enabling flexible combinations of observation and action modalities through independent modality-specific components. $\text{M}^{\text{3}}$ integrates several improvements from existing literature to enhance agent performance. Through extensive empirical evaluation across diverse benchmarks, $\text{M}^{\text{3}}$ achieves state-of-the-art sample efficiency for planning-free world models. Notably, among these methods, it is the first to reach a human-level median score on Atari 100K, with superhuman performance on 13 games. Our code and model weights are publicly available at https://github.com/leor-c/M3.
- Abstract(参考訳): トークン化を個別に最適化しながら、トークンストリームを動的にモデリングする、有望なモジュラーフレームワークとして、トークンベースのワールドモデルが登場した。
離散的なアクション(例えば、アタリゲーム)を持つ視覚環境では成功したが、より広い適用性はいまだに不明である。
本稿では、このフレームワークを拡張して、独立なモダリティ固有のコンポーネントによる観察と行動モダリティの柔軟な組み合わせを可能にする、$\textbf{m}$odular $\textbf{w}$orld $\textbf{m}$odelを紹介する。
$\text{M}^{\text{3}}$は、エージェントのパフォーマンスを向上させるために、既存の文献からのいくつかの改善を統合する。
多様なベンチマークにわたる広範な経験的評価を通じて、$\text{M}^{\text{3}}$は、計画自由世界モデルのための最先端のサンプル効率を達成する。
特に、Atari 100Kで人間レベルのスコアに到達したのは初めてであり、13試合で超人的なパフォーマンスを達成している。
コードとモデルの重み付けはhttps://github.com/leor-c/M3.comで公開されています。
関連論文リスト
- Scaling Embedding Layers in Language Models [52.47659840377581]
SCONEは、キャッシュされた$n$-gram埋め込みの数を増やし、それらを学ぶのに使用されるモデルをスケーリングする、固定された推論時間FLOPSを維持しながら、2つの新しいスケーリング戦略を実現する。
両面のスケーリングにより,SCONE は推論時間 FLOPS の半分 しか使用せず,多様なコーパスで 1.9B パラメータのベースラインを上回り得ることを示す。
論文 参考訳(メタデータ) (2025-02-03T18:59:32Z) - TLDR: Token-Level Detective Reward Model for Large Vision Language Models [57.41524422460438]
既存の報酬モデルは、任意のテキストに1つのバイナリフィードバックを割り当てることによって、人間のアノテーションを模倣するだけである。
我々は、各テキストトークンにきめ細かいアノテーションを提供するために、$textbfT$oken-$textbfL$evel $textbfD$etective $textbfR$eward Modelを提案する。
論文 参考訳(メタデータ) (2024-10-07T04:00:22Z) - Weak-to-Strong Search: Align Large Language Models via Searching over Small Language Models [22.425339110551743]
我々は,テストタイムの欲求検索として,大規模言語モデルのアライメントをフレーミングする,$textitweak-to-strong検索を導入する。
制御された知覚生成と要約では、チューニングされていない$textttgpt2$sを使用して、追加のトレーニングなしで大規模モデルのアライメントを改善する。
より難しい命令追従ベンチマークでは、市販の小型モデルの再利用により、ホワイトボックスモデルとブラックボックスモデルの両方の長制御された勝利率を改善することが示されている。
論文 参考訳(メタデータ) (2024-05-29T16:55:32Z) - Connecting the Dots: Collaborative Fine-tuning for Black-Box Vision-Language Models [121.0693322732454]
本稿では,下流タスクに対するブラックボックス視覚言語モデルの微調整のための textbfCraFT' アプローチを提案する。
CraFTは、2つのモジュールと、テキストプロンプトを学習するプロンプト生成モジュールと、残差スタイルの出力予測を強化する予測改善モジュールとから構成される。
15以上のデータセットに対する数ショットの分類実験は、CraFTの優位性を示している。
論文 参考訳(メタデータ) (2024-02-06T14:53:19Z) - M$^{2}$Chat: Empowering VLM for Multimodal LLM Interleaved Text-Image Generation [45.79215260916687]
textbf$M2Chat$は、インターリーブされたテキストイメージの会話を生成するための新しい統合マルチモーダルLLMフレームワークである。
M3Adapter$は、マルチモーダルプロンプトから、粒度の低い視覚情報と高レベルのセマンティック機能を統合する。
M3FT$ fine-tuning strategy イメージテキストアライメントとビジュアルインストラクションのために、パラメータの分離したグループを最適化する。
論文 参考訳(メタデータ) (2023-11-29T11:30:33Z) - Unlocking Emergent Modularity in Large Language Models [27.12431620957652]
標準言語モデル(LM)は、余分なパラメータを導入することなく、Mixture-of-Expert(MoEs)として微調整できることを示す。
実験により,細調整EMoEはバニラ微調整と比較して,下流領域と外部領域の一般化を効果的に改善することが示された。
論文 参考訳(メタデータ) (2023-10-17T01:02:32Z) - Simplifying and Understanding State Space Models with Diagonal Linear
RNNs [56.33053691749856]
本研究は、離散化ステップを解消し、バニラ対角線形RNNに基づくモデルを提案する。
概念的にはるかに単純であるにもかかわらず、$mathrmDLR$は以前提案したSSMと同じくらいのパフォーマンスを示す。
また、合成シーケンス・ツー・シーケンス・タスクのスイートによって、SSMとアテンションベースモデルの表現性も特徴付ける。
論文 参考訳(メタデータ) (2022-12-01T18:53:06Z) - Improving Robustness and Generality of NLP Models Using Disentangled
Representations [62.08794500431367]
スーパービジョンニューラルネットワークはまず入力$x$を単一の表現$z$にマップし、次に出力ラベル$y$にマッピングする。
本研究では,非交叉表現学習の観点から,NLPモデルの堅牢性と汎用性を改善する手法を提案する。
提案した基準でトレーニングしたモデルは、広範囲の教師付き学習タスクにおいて、より堅牢性とドメイン適応性を向上することを示す。
論文 参考訳(メタデータ) (2020-09-21T02:48:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。