Fugu-MT 論文翻訳(概要): Exploring Curriculum Learning for Vision-Language Tasks: A Study on Small-Scale Multimodal Training

論文の概要: Exploring Curriculum Learning for Vision-Language Tasks: A Study on Small-Scale Multimodal Training

arxiv url: http://arxiv.org/abs/2410.15509v1
Date: Sun, 20 Oct 2024 21:03:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:38.156356
Title: Exploring Curriculum Learning for Vision-Language Tasks: A Study on Small-Scale Multimodal Training
Title（参考訳）: 視覚言語課題のためのカリキュラム学習の探索:小規模マルチモーダルトレーニングに関する研究
Authors: Rohan Saha, Abrar Fahim, Alona Fyshe, Alex Murphy,
Abstract要約: 本研究では,BabyLMチャレンジの一環として,限られたデータ構造における3つのプライマリ変数の役割について検討する。カリキュラム学習は,非カリキュラム学習モデルよりもマルチモーダルな評価に有効であることがわかった。
参考スコア（独自算出の注目度）: 4.062463195973711
License: http://creativecommons.org/licenses/by/4.0/
Abstract: For specialized domains, there is often not a wealth of data with which to train large machine learning models. In such limited data / compute settings, various methods exist aiming to $\textit{do more with less}$, such as finetuning from a pretrained model, modulating difficulty levels as data are presented to a model (curriculum learning), and considering the role of model type / size. Approaches to efficient $\textit{machine}$ learning also take inspiration from $\textit{human}$ learning by considering use cases where machine learning systems have access to approximately the same number of words experienced by a 13 year old child (100M words). We investigate the role of 3 primary variables in a limited data regime as part of the multimodal track of the BabyLM challenge. We contrast: (i) curriculum learning, (ii), pretraining (with text-only data), (iii) model type. We modulate these variables and assess them on two types of tasks: (a) multimodal (text+image), and (b) unimodal (text-only) tasks. We find that curriculum learning benefits multimodal evaluations over non-curriclum learning models, particularly when combining text-only pretraining. On text-only tasks, curriculum learning appears to help models with smaller trainable parameter counts. We suggest possible reasons based on architectural differences and training designs as to why one might observe such results.
Abstract（参考訳）: 特殊なドメインでは、大規模な機械学習モデルをトレーニングするデータはあまり多くありません。このような制限されたデータ/計算設定では、事前訓練されたモデルからの微調整、データとして困難度をモデル(カリキュラム学習)に変更すること、モデルタイプ/サイズの役割を考慮することなど、$\textit{do more with less}$を目指す様々な方法が存在する。効率的な$\textit{machine}$ Learningへのアプローチはまた、13歳の子供(100万語)が経験したほぼ同じ単語に機械学習システムがアクセスできるユースケースを考えることで、$\textit{human}$ Learningからインスピレーションを得ている。本研究では,BabyLMチャレンジのマルチモーダルトラックの一部として,制限されたデータ構造における3つのプライマリ変数の役割について検討する。対照的に。 (i)カリキュラム学習 (ii)事前学習(テキストのみのデータ) (三)モデル型。これらの変数を変調し、2種類のタスクで評価します。 (a)マルチモーダル(text+image)、 (b)unimodal (text-only)タスク。カリキュラム学習は、特にテキストのみの事前学習と組み合わせた場合、非カリキュラム学習モデルよりもマルチモーダルな評価に有効であることがわかった。テキストのみのタスクでは、カリキュラム学習はトレーニング可能なパラメータ数を小さくするモデルに役立つように思われる。アーキテクチャ上の違いとトレーニング設計に基づいて,なぜそのような結果が観測されるのかを考察する。

関連論文リスト

Findings of the BabyLM Challenge: Sample-Efficient Pretraining on Developmentally Plausible Corpora [84.03928547166873]
子どもたちは1億ワード未満の入力から言語を習得できる。大規模な言語モデルはデータ効率がはるかに低く、通常は3～4桁以上のデータを必要とするが、多くの評価において人間ほど性能は高くない。 BabyLM Challengeは、参加者が固定データ予算で言語モデルトレーニングを最適化するために競う共同作業である。
論文参考訳（メタデータ） (2025-04-10T23:22:43Z)
4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities [17.374241865041856]
1つのモデルをトレーニングすることで、既存のモデルよりも少なくとも3倍多くのタスク/モダリティを解決し、パフォーマンスを損なうことなくそれを実行することが可能であることを示す。数十のモダリティと異なるデータセットを使用して、トレーニングを30億のパラメータモデルに拡張することに成功しました。得られたモデルとトレーニングコードは4m.epfl.chでオープンソース化されている。
論文参考訳（メタデータ） (2024-06-13T17:59:42Z)
Acquiring Linguistic Knowledge from Multimodal Input [10.965306219502303]
子どもとは対照的に、言語モデル(LM)は言語習得時のデータ効率が著しく劣っている。我々は、このデータ効率ギャップは、典型的な言語モデルの学習環境におけるマルチモーダル入力の欠如と基礎化によって生じるという仮説を検証した。
論文参考訳（メタデータ） (2024-02-27T23:29:10Z)
Exploring intra-task relations to improve meta-learning algorithms [1.223779595809275]
我々は,タスクの効果的なミニバッチによるトレーニング安定性向上のために,タスク関係の外部知識を活用することを目的としている。ミニバッチでタスクの多様なセットを選択すると、完全な勾配がより良く見積もられるため、トレーニングにおけるノイズの低減につながる、という仮説を立てる。
論文参考訳（メタデータ） (2023-12-27T15:33:52Z)
UnIVAL: Unified Model for Image, Video, Audio and Language Tasks [105.77733287326308]
UnIVALモデルは2つのモードを超えて、テキスト、画像、ビデオ、オーディオを1つのモデルに統合する。本モデルは,タスクバランスとマルチモーダルカリキュラム学習に基づいて,多くのタスクに対して効率的に事前学習を行う。統一モデルにより、重み一般化によるマルチモーダルモデルの融合に関する新しい研究を提案する。
論文参考訳（メタデータ） (2023-07-30T09:48:36Z)
EXnet: Efficient In-context Learning for Data-less Text classification [0.0]
本報告では,実例数に制限を加えることなく,文脈内学習を実現するためのモデルであるEXnetを提案する。テキスト内学習はタスクの精度を高めるための効果的な手法であり,実例を提供することでタスク間の一般化が促進される,と我々は主張する。大規模な実験により、我々の最小のモデル(15Mパラメータ)でさえ、いくつかの目に見えない分類タスクや領域に一般化できることが示される。
論文参考訳（メタデータ） (2023-05-24T01:40:57Z)
eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文参考訳（メタデータ） (2023-03-20T19:20:34Z)
Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文参考訳（メタデータ） (2022-10-23T00:37:08Z)
BERTIN: Efficient Pre-Training of a Spanish Language Model using Perplexity Sampling [0.0]
Common Crawlは、この事前学習サブ最適化を実現するのに十分なノイズを含むかもしれない。約半分のステップで言語モデルの事前学習を可能にする新しいデータ中心手法を提案する。私たちの仕事はトランスフォーマーの汎用性の証明であり、小さなチームが限られた予算でモデルをトレーニングするための道を開くものです。
論文参考訳（メタデータ） (2022-07-14T10:48:42Z)
Multi-Task Self-Training for Learning General Representations [97.01728635294879]
マルチタスク・セルフトレーニング(MuST)は、独立した専門教師モデルにおける知識を活用して、一人の一般学生モデルを訓練する。 MuSTはラベルなしまたは部分的にラベル付けされたデータセットでスケーラブルで、大規模データセットのトレーニングにおいて、特別な教師付きモデルとセルフ教師付きモデルの両方を上回っている。
論文参考訳（メタデータ） (2021-08-25T17:20:50Z)
Comparison of Interactive Knowledge Base Spelling Correction Models for Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文参考訳（メタデータ） (2020-10-20T17:31:07Z)
KGPT: Knowledge-Grounded Pre-Training for Data-to-Text Generation [100.79870384880333]
知識に富んだテキストを生成するための知識基盤事前学習(KGPT)を提案する。我々は、その効果を評価するために、3つの設定、すなわち、完全教師付き、ゼロショット、少数ショットを採用します。ゼロショット設定では、WebNLG上で30 ROUGE-L以上を達成するが、他の全てのベースラインは失敗する。
論文参考訳（メタデータ） (2020-10-05T19:59:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。