論文の概要: Induced Model Matching: Restricted Models Help Train Full-Featured Models
- arxiv url: http://arxiv.org/abs/2402.12513v2
- Date: Tue, 08 Apr 2025 19:27:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-10 13:04:46.947908
- Title: Induced Model Matching: Restricted Models Help Train Full-Featured Models
- Title(参考訳): 誘導型モデルマッチング:制限されたモデルがフル機能のモデルを訓練するのに役立つ
- Authors: Usama Muneeb, Mesrob I. Ohannessian,
- Abstract要約: フル機能の(大きな)モデルをトレーニングする際に、制限された機能を使用した非常に正確な(小さな)予測モデルが利用可能であるシナリオを検討する。
制限されたモデルは、フルモデルにどのように役立つのか?
誘導モデルマッチング(IMM)と呼ばれる手法を導入する。
IMMは、大きなモデルのコンテキスト制限された、あるいは誘導されたバージョンと制限されたモデルとを一致させる。
- 参考スコア(独自算出の注目度): 1.4963011898406866
- License:
- Abstract: We consider scenarios where a very accurate (often small) predictive model using restricted features is available when training a full-featured (often larger) model. This restricted model may be thought of as side-information'', and can come either from an auxiliary dataset or from the same dataset by forcing the restriction. How can the restricted model be useful to the full model? To answer this, we introduce a methodology called Induced Model Matching (IMM). IMM aligns the context-restricted, or induced, version of the large model with the restricted model. We relate IMM to approaches such as noising, which is implicit in addressing the problem, and reverse knowledge distillation from weak teachers, which is explicit but does not exploit restriction being the nature of the weakness. We show that these prior methods can be thought of as approximations to IMM and can be problematic in terms of consistency. Experimentally, we first motivate IMM using logistic regression as a toy example. We then explore it in language modeling, the application that initially inspired it, and demonstrate it on both LSTM and transformer full models, using bigrams as restricted models. We lastly give a simple RL example, which shows that POMDP policies can help learn better MDP policies. The IMM principle is thus generally applicable in common scenarios where restricted data is cheaper to collect or restricted models are easier to learn.
- Abstract(参考訳): フル機能の(大きな)モデルをトレーニングする際に、制限された機能を使用した非常に正確な(小さな)予測モデルが利用可能であるシナリオを検討する。
この制限されたモデルは、サイド情報(side-information)'とみなすことができ、制限を強制することで、補助的なデータセットからでも、同じデータセットからでも得ることができる。
制限されたモデルは、フルモデルにどのように役立つのか?
そこで本研究では,誘導モデルマッチング (IMM) と呼ばれる手法を提案する。
IMMは、大きなモデルのコンテキスト制限された、あるいは誘導されたバージョンと制限されたモデルとを一致させる。
IMMは,問題に対処する際に暗黙的に対処するノーミングや,弱い教師による知識の蒸留といった手法と関係があるが,弱さの性質である制約を活用できない。
従来の手法はIMMの近似とみなすことができ、一貫性の観点からも問題となる可能性があることを示す。
実験ではまず,おもちゃの例としてロジスティック回帰を用いたIMMの動機付けを行った。
次に、最初にインスピレーションを受けた言語モデリングについて検討し、制限付きモデルとしてBigramを使用し、LSTMとTransformerのフルモデルの両方でそれをデモします。
最後に、シンプルなRLの例を挙げ、PMDPポリシーがMDPポリシーの学習に役立つことを示す。
したがって、IMM原則は、制限されたデータがより安価に収集したり、制限されたモデルを学習しやすいような一般的なシナリオで一般的に適用されます。
関連論文リスト
- Offline Model-Based Reinforcement Learning with Anti-Exploration [0.0]
モースモデルに基づくオフラインRL(MoMo)を提案する。
MoMoは、価値過大評価に対抗するために、アンチ探索ボーナスを使用してオフラインで強化学習を行う。
後者は、テストされたD4RLデータセットの大部分で、モデルベースとモデルフリーのベースラインを上回っている。
論文 参考訳(メタデータ) (2024-08-20T10:29:21Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Adapting Large Language Models for Content Moderation: Pitfalls in Data
Engineering and Supervised Fine-tuning [79.53130089003986]
大規模言語モデル(LLM)は、様々なドメインでタスクを処理するための実現可能なソリューションとなっている。
本稿では、コンテンツモデレーションのためにプライベートにデプロイ可能なLLMモデルを微調整する方法を紹介する。
論文 参考訳(メタデータ) (2023-10-05T09:09:44Z) - Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。
元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。
我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-02-08T07:37:51Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Mismatched No More: Joint Model-Policy Optimization for Model-Based RL [172.37829823752364]
本稿では,モデルとポリシーを共同でトレーニングする単一目的について提案する。
我々の目標は、期待されるリターンのグローバルな低い境界であり、この境界は特定の仮定の下で厳密になる。
結果のアルゴリズム(MnM)は概念的にはGANと似ている。
論文 参考訳(メタデータ) (2021-10-06T13:43:27Z) - Trust the Model When It Is Confident: Masked Model-based Actor-Critic [11.675078067322897]
Masked Model-based Actor-Critic (M2AC)は、新しいポリシー最適化アルゴリズムである。
M2ACはモデルの不確実性に基づいてマスキング機構を実装し、その予測が使用されるかどうかを決定する。
論文 参考訳(メタデータ) (2020-10-10T03:39:56Z) - Variational Model-based Policy Optimization [34.80171122943031]
モデルベース強化学習(RL)アルゴリズムにより、実システムとの相互作用から得られたデータとモデル生成データを組み合わせ、RLにおけるデータ効率問題を緩和する。
本稿では,ログライクリフのログライクリフの変動的下界としての目的関数を提案し,モデルとポリシーを共同で学習し,改善する。
多くの連続制御タスクに関する実験により、モデルベース(Eステップ)アルゴリズムはより複雑であるにもかかわらず、浮動小数点数モデルベースポリシー最適化(VMBPO)と呼ばれるアルゴリズムの方がよりサンプリング効率が高いことが示された。
論文 参考訳(メタデータ) (2020-06-09T18:30:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。