論文の概要: Rethinking Overlooked Aspects in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2405.11850v1
- Date: Mon, 20 May 2024 07:53:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 13:53:58.470945
- Title: Rethinking Overlooked Aspects in Vision-Language Models
- Title(参考訳): 視覚言語モデルにおける見過ごされた側面の再考
- Authors: Yuan Liu, Le Tian, Xiao Zhou, Jie Zhou,
- Abstract要約: 近年の視覚言語モデル(LVLM)の進歩は顕著である。
最近の研究は、モデルの性能を向上させるために、事前学習と指導のチューニングデータの導入に重点を置いている。
本稿では,事前学習におけるデータ効率の非無視的な側面と,トレーニングデータセットの選択過程について述べる。
- 参考スコア(独自算出の注目度): 32.525916879333145
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in large vision-language models (LVLMs), such as GPT4-V and LLaVA, have been substantial. LLaVA's modular architecture, in particular, offers a blend of simplicity and efficiency. Recent works mainly focus on introducing more pre-training and instruction tuning data to improve model's performance. This paper delves into the often-neglected aspects of data efficiency during pre-training and the selection process for instruction tuning datasets. Our research indicates that merely increasing the size of pre-training data does not guarantee improved performance and may, in fact, lead to its degradation. Furthermore, we have established a pipeline to pinpoint the most efficient instruction tuning (SFT) dataset, implying that not all SFT data utilized in existing studies are necessary. The primary objective of this paper is not to introduce a state-of-the-art model, but rather to serve as a roadmap for future research, aiming to optimize data usage during pre-training and fine-tuning processes to enhance the performance of vision-language models.
- Abstract(参考訳): GPT4-VやLLaVAのような大規模視覚言語モデル(LVLM)の最近の進歩は顕著である。
LLaVAのモジュラーアーキテクチャは、特に単純さと効率性をブレンドしている。
最近の研究は、モデルの性能を向上させるために、事前学習と指導のチューニングデータの導入に重点を置いている。
本稿では,事前学習におけるデータ効率の非無視的な側面と,訓練データセットの選択過程について述べる。
我々の研究は、単に事前学習データのサイズを拡大するだけでは性能が向上せず、実際にその劣化につながる可能性を示唆している。
さらに、我々は、SFTデータセットをピンポイントするパイプラインを構築し、既存の研究で活用されているすべてのSFTデータが必要ないことを示唆している。
本論文の主な目的は,最先端モデルの導入ではなく,事前学習および微調整プロセスにおけるデータ使用量の最適化を目標とし,ビジョン言語モデルの性能向上を目的とした今後の研究のロードマップとして機能することである。
関連論文リスト
- Controlling Forgetting with Test-Time Data in Continual Learning [15.455400390299593]
継続学習研究は、新しい知識が得られたときの過去の情報の破滅的な忘れを克服する技術を提供する。
テストタイムデータには,従来の学習タスクのモデルメモリをリフレッシュするために,自己管理的な方法で活用できる優れた情報がある,と我々は主張する。
論文 参考訳(メタデータ) (2024-06-19T15:56:21Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Learning Semantic Proxies from Visual Prompts for Parameter-Efficient Fine-Tuning in Deep Metric Learning [13.964106147449051]
既存のソリューションは、既存の画像データセット上でトレーニング済みのモデルを微調整することに集中している。
我々は、事前学習された視覚変換器(ViT)における視覚プロンプト(VPT)の学習に基づく、新しい効果的なフレームワークを提案する。
セマンティック情報を用いた新しい近似が代表的能力よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-04T04:42:05Z) - Functional Graphical Models: Structure Enables Offline Data-Driven
Optimization [121.57202302457135]
構造がサンプル効率のよいデータ駆動最適化を実現する方法を示す。
また、FGM構造自体を推定するデータ駆動最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-08T22:33:14Z) - Data-Centric Long-Tailed Image Recognition [49.90107582624604]
ロングテールモデルは高品質なデータに対する強い需要を示している。
データ中心のアプローチは、モデルパフォーマンスを改善するために、データの量と品質の両方を強化することを目的としています。
現在、情報強化の有効性を説明するメカニズムに関する研究が不足している。
論文 参考訳(メタデータ) (2023-11-03T06:34:37Z) - INGENIOUS: Using Informative Data Subsets for Efficient Pre-Training of
Language Models [40.54353850357839]
トレーニングコーパスの高度に代表的なサブセットを選択するために、サブモジュラー最適化を利用する方法を示す。
その結果,完全学習モデルの性能の最大$sim99%が得られた。
論文 参考訳(メタデータ) (2023-05-11T09:24:41Z) - Localized Latent Updates for Fine-Tuning Vision-Language Models [15.285292154680246]
この作業では,データポイントに近いモデル予測のみを更新する,軽量なアダプタを提案する。
我々は、この比較的単純なアプローチの有効性とスピードを、数ショットの学習の文脈で示し、トレーニング中に見られるクラスと見えないクラスの両方の結果が、芸術の状況に匹敵するか、改善されるかのどちらかであることを示した。
論文 参考訳(メタデータ) (2022-12-13T13:15:20Z) - Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。
画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2022-09-30T02:25:12Z) - Improved Fine-tuning by Leveraging Pre-training Data: Theory and
Practice [52.11183787786718]
対象データに事前学習されたモデルを微調整することは、多くのディープラーニングアプリケーションで広く利用されている。
近年の研究では、スクラッチからのトレーニングが、この事前トレーニング戦略に比較して、最終的なパフォーマンスを示すことが実証されている。
本稿では,対象タスクの一般化を改善するために,事前学習データからサブセットを選択する新しい選択戦略を提案する。
論文 参考訳(メタデータ) (2021-11-24T06:18:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。