論文の概要: Induced Model Matching: How Restricted Models Can Help Larger Ones
- arxiv url: http://arxiv.org/abs/2402.12513v1
- Date: Mon, 19 Feb 2024 20:21:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 18:09:52.610749
- Title: Induced Model Matching: How Restricted Models Can Help Larger Ones
- Title(参考訳): 誘導モデルマッチング: 制限されたモデルが大きなモデルにどのように役立つか
- Authors: Usama Muneeb and Mesrob I. Ohannessian
- Abstract要約: 制限された特徴を用いた非常に正確な予測モデルが、より大きく、フル機能の、モデルのトレーニング時に利用可能であるシナリオを考察する。
制限されたモデルは、フルモデルにどのように役立つのか?
本稿では,制約モデルと制約モデルの性能を一致させることで,制約モデルの知識をフルモデルに伝達する手法を提案する。
- 参考スコア(独自算出の注目度): 1.7676816383911753
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider scenarios where a very accurate predictive model using restricted
features is available at the time of training of a larger, full-featured,
model. This restricted model may be thought of as "side-information", derived
either from an auxiliary exhaustive dataset or on the same dataset, by forcing
the restriction. How can the restricted model be useful to the full model? We
propose an approach for transferring the knowledge of the restricted model to
the full model, by aligning the full model's context-restricted performance
with that of the restricted model's. We call this methodology Induced Model
Matching (IMM) and first illustrate its general applicability by using logistic
regression as a toy example. We then explore IMM's use in language modeling,
the application that initially inspired it, and where it offers an explicit
foundation in contrast to the implicit use of restricted models in techniques
such as noising. We demonstrate the methodology on both LSTM and transformer
full models, using $N$-grams as restricted models. To further illustrate the
potential of the principle whenever it is much cheaper to collect restricted
rather than full information, we conclude with a simple RL example where POMDP
policies can improve learned MDP policies via IMM.
- Abstract(参考訳): 制限された特徴を用いた非常に正確な予測モデルが、より大きく、フル機能の、モデルのトレーニング時に利用できるシナリオを考える。
この制限付きモデルは、制限を強制することによって、補助的な徹底的なデータセットまたは同じデータセットから派生した「サイド情報」と考えることができる。
制限付きモデルはフルモデルにどのように役立つのか?
本研究では,制約モデルの文脈制約性能と制約モデルの知識を整合させることにより,制約モデルの知識をフルモデルに移す手法を提案する。
この手法をモデルマッチング(imm)と呼び,ロジスティック回帰(logistic regression)をトイ例として用いることで,その汎用性を説明する。
次に、言語モデリングにおけるIMMの使用、最初にインスピレーションを受けたアプリケーション、そして、ノーミングのようなテクニックにおける制限されたモデルの暗黙的な使用とは対照的に、明確な基盤を提供する場所について調べる。
LSTMとトランスフォーマーフルモデルの両方において,制限モデルとして$N$-gramを用いて方法論を実証する。
完全情報よりも制限された情報を収集する方がはるかに安価である場合に、この原則の可能性をさらに説明するために、POMDPポリシーがIMMを介して学習されたMDPポリシーを改善できる簡単なRL例で結論付ける。
関連論文リスト
- Offline Model-Based Reinforcement Learning with Anti-Exploration [0.0]
モースモデルに基づくオフラインRL(MoMo)を提案する。
MoMoは、価値過大評価に対抗するために、アンチ探索ボーナスを使用してオフラインで強化学習を行う。
後者は、テストされたD4RLデータセットの大部分で、モデルベースとモデルフリーのベースラインを上回っている。
論文 参考訳(メタデータ) (2024-08-20T10:29:21Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Adapting Large Language Models for Content Moderation: Pitfalls in Data
Engineering and Supervised Fine-tuning [79.53130089003986]
大規模言語モデル(LLM)は、様々なドメインでタスクを処理するための実現可能なソリューションとなっている。
本稿では、コンテンツモデレーションのためにプライベートにデプロイ可能なLLMモデルを微調整する方法を紹介する。
論文 参考訳(メタデータ) (2023-10-05T09:09:44Z) - Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。
元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。
我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-02-08T07:37:51Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Mismatched No More: Joint Model-Policy Optimization for Model-Based RL [172.37829823752364]
本稿では,モデルとポリシーを共同でトレーニングする単一目的について提案する。
我々の目標は、期待されるリターンのグローバルな低い境界であり、この境界は特定の仮定の下で厳密になる。
結果のアルゴリズム(MnM)は概念的にはGANと似ている。
論文 参考訳(メタデータ) (2021-10-06T13:43:27Z) - Trust the Model When It Is Confident: Masked Model-based Actor-Critic [11.675078067322897]
Masked Model-based Actor-Critic (M2AC)は、新しいポリシー最適化アルゴリズムである。
M2ACはモデルの不確実性に基づいてマスキング機構を実装し、その予測が使用されるかどうかを決定する。
論文 参考訳(メタデータ) (2020-10-10T03:39:56Z) - Variational Model-based Policy Optimization [34.80171122943031]
モデルベース強化学習(RL)アルゴリズムにより、実システムとの相互作用から得られたデータとモデル生成データを組み合わせ、RLにおけるデータ効率問題を緩和する。
本稿では,ログライクリフのログライクリフの変動的下界としての目的関数を提案し,モデルとポリシーを共同で学習し,改善する。
多くの連続制御タスクに関する実験により、モデルベース(Eステップ)アルゴリズムはより複雑であるにもかかわらず、浮動小数点数モデルベースポリシー最適化(VMBPO)と呼ばれるアルゴリズムの方がよりサンプリング効率が高いことが示された。
論文 参考訳(メタデータ) (2020-06-09T18:30:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。