論文の概要: Cross-Modal Fine-Tuning: Align then Refine
- arxiv url: http://arxiv.org/abs/2302.05738v2
- Date: Sat, 18 Mar 2023 17:05:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 00:02:58.514419
- Title: Cross-Modal Fine-Tuning: Align then Refine
- Title(参考訳): クロスモーダルファインチューニング:アライン・アンド・リファイン
- Authors: Junhong Shen, Liam Li, Lucio M. Dery, Corey Staten, Mikhail Khodak,
Graham Neubig, Ameet Talwalkar
- Abstract要約: ORCAはクロスモーダルな微調整フレームワークであり、単一の大規模事前訓練モデルの適用範囲を様々に拡張する。
ORCAは12のモダリティから60以上のデータセットを含む3つのベンチマークで最先端の結果を得る。
- 参考スコア(独自算出の注目度): 83.37294254884446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-tuning large-scale pretrained models has led to tremendous progress in
well-studied modalities such as vision and NLP. However, similar gains have not
been observed in many other modalities due to a lack of relevant pretrained
models. In this work, we propose ORCA, a general cross-modal fine-tuning
framework that extends the applicability of a single large-scale pretrained
model to diverse modalities. ORCA adapts to a target task via an
align-then-refine workflow: given the target input, ORCA first learns an
embedding network that aligns the embedded feature distribution with the
pretraining modality. The pretrained model is then fine-tuned on the embedded
data to exploit the knowledge shared across modalities. Through extensive
experiments, we show that ORCA obtains state-of-the-art results on 3 benchmarks
containing over 60 datasets from 12 modalities, outperforming a wide range of
hand-designed, AutoML, general-purpose, and task-specific methods. We highlight
the importance of data alignment via a series of ablation studies and
demonstrate ORCA's utility in data-limited regimes.
- Abstract(参考訳): 微調整された大規模事前学習モデルによって、視覚やnlpといったよく研究されたモダリティが大幅に進歩した。
しかし、関連する事前学習モデルがないため、他の多くのモダリティでは同様の効果は見られていない。
本研究では,単一大規模事前学習モデルの適用性を多様性に拡張した汎用クロスモーダル微調整フレームワークORCAを提案する。
ORCAは、ターゲット入力が与えられたら、まず埋め込みネットワークを学習し、組み込まれた特徴分布と事前訓練されたモダリティを整合させる。
トレーニング済みのモデルは、モーダリティ間で共有される知識を活用すべく、組み込みデータ上で微調整される。
広範にわたる実験により、ORCAは12のモダリティから60以上のデータセットを含む3つのベンチマークの最先端結果を取得し、手書き設計、AutoML、汎用、タスク固有メソッドよりも優れた性能を示した。
我々は、一連のアブレーション研究によるデータアライメントの重要性を強調し、データ制限体制におけるORCAの有用性を実証する。
関連論文リスト
- On Machine Learning Approaches for Protein-Ligand Binding Affinity Prediction [2.874893537471256]
本研究では,タンパク質-リガンド結合親和性予測における古典的木モデルと高度なニューラルネットワークの性能を評価する。
2次元モデルと3次元モデルを組み合わせることで、現在の最先端のアプローチを超えて、アクティブな学習結果が向上することを示す。
論文 参考訳(メタデータ) (2024-07-15T13:06:00Z) - Towards a Generalist and Blind RGB-X Tracker [91.36268768952755]
我々は、推論時間中に任意のモダリティ X を無視できる単一のモデルトラッカーを開発する。
トレーニングプロセスは非常にシンプルで,複数ラベルの分類損失をルーティング関数に統合する。
我々のジェネラリストとブラインドトラッカーは、確立されたモーダル固有モデルと比較して、競争性能を達成することができる。
論文 参考訳(メタデータ) (2024-05-28T03:00:58Z) - A Three-Phases SFT Hybrid Model Integrated Strong Prior Module and Data Overlap Estimation in the Eduation Context [0.0]
教師付き微調整モデルとして,エンド・ツー・エンドの3相モデルを提案する。
本モデルは,学習知識の構造的分解と漸進的指導によるアウトプットを実現する。
当社のモデルは,オープンソースモデルと比較して,コード能力の最先端性も達成している。
論文 参考訳(メタデータ) (2024-03-13T05:38:39Z) - Beyond Transfer Learning: Co-finetuning for Action Localisation [64.07196901012153]
同時に、複数のアップストリームとダウンストリームのタスクで1つのモデルをトレーニングする。
共ファインタニングは、同じデータ量を使用する場合、従来のトランスファーラーニングよりも優れていることを示す。
さらに、複数のアップストリームデータセットへのアプローチを簡単に拡張して、パフォーマンスをさらに向上する方法も示しています。
論文 参考訳(メタデータ) (2022-07-08T10:25:47Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - Knowledge as Priors: Cross-Modal Knowledge Generalization for Datasets
without Superior Knowledge [55.32035138692167]
クロスモーダルな知識蒸留は、優れたモーダルで訓練されたモデルから弱いモーダルで訓練された別のモデルに知識を移すことを扱う。
本研究では,教師が利用できないターゲットデータセットにおいて,生徒を訓練するための新しいスキームを提案する。
論文 参考訳(メタデータ) (2020-04-01T00:28:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。