論文の概要: What explains the success of cross-modal fine-tuning with ORCA?
- arxiv url: http://arxiv.org/abs/2403.13537v1
- Date: Wed, 20 Mar 2024 12:14:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 16:57:51.277099
- Title: What explains the success of cross-modal fine-tuning with ORCA?
- Title(参考訳): ORCAを用いたクロスモーダル微調整の成功を説明するには?
- Authors: Paloma García-de-Herreros, Vagrant Gautam, Philipp Slusallek, Dietrich Klakow, Marius Mosbach,
- Abstract要約: ORCAは、クロスモーダル微調整、すなわち、トレーニングデータを超えるモダリティに事前訓練されたトランスフォーマーモデルを適用する技術である。
一連のアブリケーションを実行し、埋め込みトレーニングが2Dタスクにまったく役に立たないことを見つけます。
実験した6つのデータセットのうち4つで、最大の違いをもたらすのはモデル微調整です。
- 参考スコア(独自算出の注目度): 22.105415529929584
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: ORCA (Shen et al., 2023) is a recent technique for cross-modal fine-tuning, i.e., applying pre-trained transformer models to modalities beyond their training data. The technique consists primarily of training an embedder and fine-tuning the embedder and model. Despite its high performance on a variety of downstream tasks, we do not understand precisely how each of these components contribute to ORCA's success. Therefore, we run a series of ablations and find that embedder training does not help 2D tasks at all, contrary to what the original paper posits. In 1D tasks, some amount of embedder training is necessary but more is not better. In 4 out of 6 datasets we experiment with, it is model fine-tuning that makes the biggest difference. Through our ablations and baselines, we contribute a better understanding of the individual components of ORCA.
- Abstract(参考訳): ORCA(Shen et al , 2023)は、最近のクロスモーダル微調整技術である。
この技術は主に埋め込み機を訓練し、埋め込み機とモデルを微調整する。
下流タスクの性能は高いが,それぞれのコンポーネントがORCAの成功にどのように貢献するかは正確には分かっていない。
そこで,本論文では,従来の論文とは対照的に,組込み学習が2次元作業にまったく役に立たないことが判明した。
1Dタスクでは、ある程度の埋め込みトレーニングが必要ですが、それ以上は良くありません。
実験した6つのデータセットのうち4つで、最大の違いをもたらすのはモデル微調整です。
我々は,ORCAの個々の構成要素の理解を深める。
関連論文リスト
- 2D Matryoshka Training for Information Retrieval [32.44832240958393]
2D Matryoshka Trainingは、エンコーダモデルを様々なレイヤ次元のセットアップで同時にトレーニングするために設計された埋め込み表現トレーニングアプローチである。
STSタスクにおける2D Matryoshka Trainingの両バージョンの実装と評価を行い,解析を検索タスクに拡張した。
論文 参考訳(メタデータ) (2024-11-26T10:47:35Z) - Fantastic Gains and Where to Find Them: On the Existence and Prospect of
General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。
このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-10-26T17:59:46Z) - An Empirical Study of Multimodal Model Merging [148.48412442848795]
モデルマージは、異なるタスクでトレーニングされた複数のモデルを融合してマルチタスクソリューションを生成するテクニックである。
我々は、モダリティ固有のアーキテクチャのビジョン、言語、およびクロスモーダルトランスフォーマーをマージできる新しい目標に向けて研究を行っている。
本稿では,重み間の距離を推定し,マージ結果の指標となる2つの指標を提案する。
論文 参考訳(メタデータ) (2023-04-28T15:43:21Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Cross-Modal Fine-Tuning: Align then Refine [83.37294254884446]
ORCAはクロスモーダルな微調整フレームワークであり、単一の大規模事前訓練モデルの適用範囲を様々に拡張する。
ORCAは12のモダリティから60以上のデータセットを含む3つのベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-11T16:32:28Z) - Revisiting Pre-training in Audio-Visual Learning [6.547660539954143]
事前学習したモデルが2つの音声視覚学習シナリオに与える影響について検討する。
対象タスクに対する事前学習モデルのキャパシティをよりよく活用するために,Adaptive Batchnorm Re-initialization (ABRi)を提案する。
論文 参考訳(メタデータ) (2023-02-07T15:34:14Z) - CMD: Self-supervised 3D Action Representation Learning with Cross-modal
Mutual Distillation [130.08432609780374]
3D行動認識では、骨格のモダリティの間に豊富な相補的な情報が存在する。
本稿では,CMD(Cross-modal Mutual Distillation)フレームワークを提案する。
提案手法は,既存の自己管理手法より優れ,新しい記録を多数設定する。
論文 参考訳(メタデータ) (2022-08-26T06:06:09Z) - Improving the Generalization of Supervised Models [30.264601433216246]
本稿では,両世界の長所を生かした教師あり学習環境を提案する。
これらの3つの改善により、IN1Kトレーニングタスクと13のトランスファータスクとのトレードオフがより有利になることを示す。
論文 参考訳(メタデータ) (2022-06-30T15:43:51Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。