論文の概要: Composing Ensembles of Pre-trained Models via Iterative Consensus
- arxiv url: http://arxiv.org/abs/2210.11522v1
- Date: Thu, 20 Oct 2022 18:46:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 13:24:24.796886
- Title: Composing Ensembles of Pre-trained Models via Iterative Consensus
- Title(参考訳): 反復的コンセンサスによる事前学習モデルの構成
- Authors: Shuang Li, Yilun Du, Joshua B. Tenenbaum, Antonio Torralba, Igor
Mordatch
- Abstract要約: 本稿では,異なる事前学習モデルのアンサンブルを構成するための統一的なフレームワークを提案する。
事前学習したモデルを「ジェネレータ」あるいは「スコーラ」として使用し、クローズドループ反復コンセンサス最適化により構成する。
スコアラーのアンサンブルによって達成されたコンセンサスは、シングルスコアラーのフィードバックよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 95.10641301155232
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large pre-trained models exhibit distinct and complementary capabilities
dependent on the data they are trained on. Language models such as GPT-3 are
capable of textual reasoning but cannot understand visual information, while
vision models such as DALL-E can generate photorealistic photos but fail to
understand complex language descriptions. In this work, we propose a unified
framework for composing ensembles of different pre-trained models -- combining
the strengths of each individual model to solve various multimodal problems in
a zero-shot manner. We use pre-trained models as "generators" or "scorers" and
compose them via closed-loop iterative consensus optimization. The generator
constructs proposals and the scorers iteratively provide feedback to refine the
generated result. Such closed-loop communication enables models to correct
errors caused by other models, significantly boosting performance on downstream
tasks, e.g. improving accuracy on grade school math problems by 7.5%, without
requiring any model finetuning. We demonstrate that consensus achieved by an
ensemble of scorers outperforms the feedback of a single scorer, by leveraging
the strengths of each expert model. Results show that the proposed method can
be used as a general purpose framework for a wide range of zero-shot multimodal
tasks, such as image generation, video question answering, mathematical
reasoning, and robotic manipulation. Project page:
https://energy-based-model.github.io/composing-pretrained-models.
- Abstract(参考訳): 事前トレーニングされた大規模モデルは、トレーニングされたデータに依存する特徴的で補完的な能力を示す。
gpt-3のような言語モデルはテキスト推論はできるが視覚情報を理解できないが、dall-eのような視覚モデルはフォトリアリスティックな写真を生成することができるが、複雑な言語記述は理解できない。
本研究では,異なる事前学習モデルのアンサンブルを構成する統一的な枠組みを提案し,各モデルの強みを組み合わせて,ゼロショット方式で様々なマルチモーダル問題を解く。
事前学習したモデルを「ジェネレータ」あるいは「スコラー」として使用し、閉ループ反復コンセンサス最適化により構成する。
ジェネレータは提案を構築し、スコアラーは生成された結果を洗練するためにフィードバックを反復的に提供します。
このようなクローズループ通信により、モデルは他のモデルによるエラーを修正でき、例えば小学校数学の問題の精度を7.5%向上させるなど、下流タスクのパフォーマンスを大幅に向上する。
スコアラーのアンサンブルによって達成されたコンセンサスは、各専門家モデルの強みを生かして、単一のスコアラーのフィードバックを上回ることを実証する。
その結果,提案手法は画像生成,ビデオ質問応答,数学的推論,ロボット操作など,広範囲のゼロショットマルチモーダルタスクの汎用フレームワークとして利用できることがわかった。
プロジェクトページ: https://energy-based-model.github.io/composing-pretrained-models。
関連論文リスト
- Enabling Small Models for Zero-Shot Classification through Model Label Learning [50.68074833512999]
モデルと機能の間のギャップを埋める新しいパラダイムであるモデルラベル学習(MLL)を導入する。
7つの実世界のデータセットの実験により、MLLの有効性と効率が検証された。
論文 参考訳(メタデータ) (2024-08-21T09:08:26Z) - Has Your Pretrained Model Improved? A Multi-head Posterior Based
Approach [25.927323251675386]
我々は、世界的知識の源として各エンティティに関連するメタ機能を活用し、モデルからエンティティ表現を採用する。
本稿では,これらの表現とメタ機能との整合性を,事前学習モデルの評価指標として用いることを提案する。
提案手法の有効性は,関係データセットを用いたモデル,大規模言語モデル,画像モデルなど,様々な領域で実証されている。
論文 参考訳(メタデータ) (2024-01-02T17:08:26Z) - Machine Learning Model Attribution Challenge [2.6532805035238747]
微調整された機械学習モデルは、明らかな帰属特性のない他の訓練されたモデルに由来する可能性がある。
この課題において、参加者は匿名で微調整された大きな言語モデルの集合を成す公開ベースモデルを特定する。
論文 参考訳(メタデータ) (2023-02-13T22:05:27Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Multimodal Knowledge Alignment with Reinforcement Learning [103.68816413817372]
ESPERは言語のみのゼロショットモデルを拡張して、画像や音声のキャプションといったマルチモーダルタスクを未確認にする。
我々の重要な新規性は、強化学習を使用することで、直接監督することなく、多モーダル入力を言語モデル世代に整列させることである。
実験の結果、ESPERはベースラインと様々なゼロショットタスクの事前作業より優れていることが示された。
論文 参考訳(メタデータ) (2022-05-25T10:12:17Z) - What Language Model Architecture and Pretraining Objective Work Best for
Zero-Shot Generalization? [50.84738303888189]
本稿では,モデル選択の大規模評価とそのゼロショット一般化への影響について述べる。
私たちは、70億以上のトークンに対して、50億以上のパラメータを持つモデルをトレーニングします。
事前学習した因果デコーダモデルを非因果デコーダモデルに効率的に適用できることが判明した。
論文 参考訳(メタデータ) (2022-04-12T14:19:49Z) - MEGA: Model Stealing via Collaborative Generator-Substitute Networks [4.065949099860426]
近年のデータフリーモデルステイティングメソッドは,実際のクエリの例を使わずに,ターゲットモデルの知識を抽出するために有効であることが示されている。
本稿では,データフリーモデルステーリングフレームワーク(MEGA)を提案する。
以上の結果から,我々の訓練した代替モデルの精度と敵攻撃成功率は,最先端のデータフリーブラックボックス攻撃よりも最大で33%,40%高い値となる可能性が示唆された。
論文 参考訳(メタデータ) (2022-01-31T09:34:28Z) - What do we expect from Multiple-choice QA Systems? [70.86513724662302]
複数のMultiple Choice Question Answering(MCQA)データセット上で,トップパフォーマンスモデルを検討する。
このようなモデルから得られる可能性のある一連の期待値に対して、モデル入力のゼロ情報摂動を用いて評価する。
論文 参考訳(メタデータ) (2020-11-20T21:27:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。