Fugu-MT 論文翻訳(概要): Model Ratatouille: Recycling Diverse Models for Out-of-Distribution Generalization

論文の概要: Model Ratatouille: Recycling Diverse Models for Out-of-Distribution Generalization

arxiv url: http://arxiv.org/abs/2212.10445v3
Date: Wed, 9 Aug 2023 14:02:55 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-10 18:08:50.423701
Title: Model Ratatouille: Recycling Diverse Models for Out-of-Distribution Generalization
Title（参考訳）: model ratatouille: 分散一般化のための多様なモデルのリサイクル
Authors: Alexandre Ram\'e, Kartik Ahuja, Jianyu Zhang, Matthieu Cord, L\'eon Bottou, David Lopez-Paz
Abstract要約: ファウンデーションモデルは、AIシステムの構築方法を再定義している。実践者は、機械学習ソリューションを構築するための標準手順に従う。我々は,多種多様な補助的タスクにおいて,同じ基礎モデルの複数の微調整をリサイクルする新しい戦略であるモデルラタトゥーイユを提案する。
参考スコア（独自算出の注目度）: 99.6826401545377
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Foundation models are redefining how AI systems are built. Practitioners now follow a standard procedure to build their machine learning solutions: from a pre-trained foundation model, they fine-tune the weights on the target task of interest. So, the Internet is swarmed by a handful of foundation models fine-tuned on many diverse tasks: these individual fine-tunings exist in isolation without benefiting from each other. In our opinion, this is a missed opportunity, as these specialized models contain rich and diverse features. In this paper, we thus propose model ratatouille, a new strategy to recycle the multiple fine-tunings of the same foundation model on diverse auxiliary tasks. Specifically, we repurpose these auxiliary weights as initializations for multiple parallel fine-tunings on the target task; then, we average all fine-tuned weights to obtain the final model. This recycling strategy aims at maximizing the diversity in weights by leveraging the diversity in auxiliary tasks. Empirically, it improves the state of the art on the reference DomainBed benchmark for out-of-distribution generalization. Looking forward, this work contributes to the emerging paradigm of updatable machine learning where, akin to open-source software development, the community collaborates to reliably update machine learning models. Our code is released: https://github.com/facebookresearch/ModelRatatouille.
Abstract（参考訳）: ファンデーションモデルは、AIシステムの構築方法を再定義している。現在、実践者は機械学習ソリューションを構築するための標準的な手順に従う。事前訓練された基礎モデルから、対象とするタスクの重みを微調整する。だからインターネットは、さまざまなタスクで微調整された一握りのファンデーションモデルによって群がっている: これらの個々の微調整は、互いに利益をもたらさずに、孤立して存在している。当社の意見では、これらの特殊なモデルにはリッチで多様な機能が含まれています。そこで本稿では,同一基礎モデルの複数の微調整を多様な補助タスクで再利用する新しい手法であるモデル・ラタトゥイユを提案する。具体的には、これらの補助重みを目標タスクにおける多重並列微調整の初期化として再利用し、最終モデルを得るためにすべての微調整重みを平均化する。このリサイクル戦略は, 補助作業の多様性を活かし, 重量の多様性を最大化することを目的としている。経験上、分散の一般化のための参照ドメインベッドベンチマークにおける技術状態を改善する。今後この研究は、オープンソースのソフトウェア開発と同様に、機械学習モデルを確実に更新するためにコミュニティが協力する、アップダブルな機械学習のパラダイムに寄与する。私たちのコードはhttps://github.com/facebookresearch/modelratatouilleです。

関連論文リスト

GRAM: A Generative Foundation Reward Model for Reward Generalization [48.63394690265176]
まず,大規模教師なし学習を用いて学習し,教師付き学習により微調整を行う生成報酬モデルを開発した。このモデルは、応答ランキング、人間のフィードバックからの強化学習、微調整によるタスク適応など、様々なタスクをうまく一般化する。
論文参考訳（メタデータ） (2025-06-17T04:34:27Z)
Intention-Conditioned Flow Occupancy Models [69.79049994662591]
大規模な事前学習は、今日の機械学習研究のやり方を根本的に変えた。同じフレームワークを強化学習に適用することは、RLの中核的な課題に対処するための魅力的な方法を提供するので、魅力的です。生成AIの最近の進歩は、高度に複雑な分布をモデリングするための新しいツールを提供している。
論文参考訳（メタデータ） (2025-06-10T15:27:46Z)
360Brew: A Decoder-only Foundation Model for Personalized Ranking and Recommendation [15.922317310616952]
我々は、LinkedInのデータとタスクに基づいてトレーニングされ、微調整された150Bパラメータ、デコーダのみのモデルである、研究前のモデルである360Brew V1.0を紹介します。このモデルは、LinkedInプラットフォームのさまざまなセグメントで30以上の予測タスクを解決し、現在のプロダクションシステムと同等以上のパフォーマンスレベルを達成することができる。
論文参考訳（メタデータ） (2025-01-27T19:14:52Z)
Multiagent Finetuning: Self Improvement with Diverse Reasoning Chains [114.76612918465948]
大規模言語モデル(LLM)は近年顕著なパフォーマンスを達成しているが、基礎となるトレーニングデータによって根本的に制限されている。本稿では,言語モデルのマルチエージェント社会にファインタニングを適用した自己改善への補完的アプローチを提案する。
論文参考訳（メタデータ） (2025-01-10T04:35:46Z)
RADIOv2.5: Improved Baselines for Agglomerative Vision Foundation Models [60.596005921295806]
集約モデルは、ビジョンファウンデーションモデルをトレーニングするための強力なアプローチとして現れています。我々は、解像度モードシフト、教師の不均衡、慣用的教師アーティファクト、過剰な出力トークンなど、重要な課題を識別する。本稿では,マルチレゾリューショントレーニング,モザイク強化,教師の損失関数のバランスの改善など,いくつかの新しいソリューションを提案する。
論文参考訳（メタデータ） (2024-12-10T17:06:41Z)
EnsIR: An Ensemble Algorithm for Image Restoration via Gaussian Mixture Models [70.60381055741391]
画像復元の課題は、説明された問題に関連し、単一のモデル予測と地道のずれをもたらす。アンサンブル学習は、複数のベースモデルの予測を組み合わせることで、これらの偏差に対処することを目的としている。我々は予測候補のアンサンブル重みを推定するために予測(EM)に基づくアルゴリズムを用いる。我々のアルゴリズムは、モデルに依存しない訓練不要であり、様々なトレーニング済み画像復元モデルのシームレスな統合と強化を可能にする。
論文参考訳（メタデータ） (2024-10-30T12:16:35Z)
EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。 EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文参考訳（メタデータ） (2024-05-23T05:25:45Z)
Jack of All Trades, Master of Some, a Multi-Purpose Transformer Agent [2.3967405016776384]
Jack of All Trades (JAT) は、シーケンシャルな意思決定タスクに最適化されたユニークな設計のトランスフォーマーベースのモデルである。 JATは、その種の最初のモデルはhttps://huggingface.co/jat-project/jatで完全にオープンソース化されている。
論文参考訳（メタデータ） (2024-02-15T10:01:55Z)
Model Breadcrumbs: Scaling Multi-Task Model Merging with Sparse Masks [12.146530928616386]
目標問題に対する一般的なアプローチは、特定の目標タスクに対して、訓練済みの基礎モデルを微調整することである。この研究は、補助的なタスクのスペクトルから導かれた同じ基礎モデルの複数の微調整をマージする問題に焦点を当てる。事前学習したモデルの重み空間内でモデル適応を誘導する疎定義の重み集合からなる,新しい簡易な方法であるモデルブレッドクラブを導入する。
論文参考訳（メタデータ） (2023-12-11T19:10:55Z)
ZhiJian: A Unifying and Rapidly Deployable Toolbox for Pre-trained Model Reuse [59.500060790983994]
本稿では、PyTorchバックエンドを利用して、モデル再利用のための包括的でユーザフレンドリなツールボックスであるZhiJianを紹介する。 ZhiJianは、PTMによるターゲットアーキテクチャ構築、PTMによるターゲットモデルチューニング、およびPTMに基づく推論を含む、モデル再利用に関するさまざまな視点を統一する新しいパラダイムを提示している。
論文参考訳（メタデータ） (2023-08-17T19:12:13Z)
UnIVAL: Unified Model for Image, Video, Audio and Language Tasks [105.77733287326308]
UnIVALモデルは2つのモードを超えて、テキスト、画像、ビデオ、オーディオを1つのモデルに統合する。本モデルは,タスクバランスとマルチモーダルカリキュラム学習に基づいて,多くのタスクに対して効率的に事前学習を行う。統一モデルにより、重み一般化によるマルチモーダルモデルの融合に関する新しい研究を提案する。
論文参考訳（メタデータ） (2023-07-30T09:48:36Z)
TaCA: Upgrading Your Visual Foundation Model with Task-agnostic Compatible Adapter [21.41170708560114]
視覚基盤モデルに基づくアプリケーションが増えている。システムのアップグレードを伴う状況では、新しい基盤モデルに適応するために、下流モジュールを再訓練することが不可欠です。パラメータ効率とタスク非依存のアダプタであるTaCAを導入し,異なる基礎モデル間の互換性を実現する。
論文参考訳（メタデータ） (2023-06-22T03:00:24Z)
Model Reuse with Reduced Kernel Mean Embedding Specification [70.044322798187]
現在のアプリケーションで有用なモデルを見つけるための2段階のフレームワークを提案する。アップロードフェーズでは、モデルがプールにアップロードされている場合、モデルの仕様としてカーネル平均埋め込み(RKME)を縮小する。デプロイフェーズでは、RKME仕様の値に基づいて、現在のタスクと事前訓練されたモデルの関連性を測定する。
論文参考訳（メタデータ） (2020-01-20T15:15:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。