論文の概要: Language-Pretraining-Induced Bias: A Strong Foundation for General Vision Tasks
- arxiv url: http://arxiv.org/abs/2604.01833v2
- Date: Fri, 03 Apr 2026 09:26:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 12:42:34.278326
- Title: Language-Pretraining-Induced Bias: A Strong Foundation for General Vision Tasks
- Title(参考訳): 言語訓練によるバイアス: 一般的なビジョンタスクのための強力な基盤
- Authors: Yaxin Luo, Zhiqiang Shen,
- Abstract要約: 橋梁訓練段階をモダリティ適応学習者として追加することで,大規模言語モデル(LLM)パラメータと視覚タスクを効果的に整合させることができることを示す。
具体的には、手動ラベリングを必要とせず、LLMパラメータが視覚基盤タスクに適応するのに役立つ、単純で強力なランダムラベルブリッジトレーニングを提案する。
- 参考スコア(独自算出の注目度): 42.933557718831544
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ratio of outlier parameters in language pre-training models and vision pre-training models differs significantly, making cross-modality (language and vision) inherently more challenging than cross-domain adaptation. As a result, many prior studies have focused on cross-domain transfer rather than attempting to bridge language and vision modalities, assuming that language pre-trained models are unsuitable for downstream visual tasks due to disparate parameter spaces. Contrary to this assumption, we show that adding a bridge training stage as a modality adaptation learner can effectively align Large Language Model (LLM) parameters with vision tasks. Specifically, we propose a simple yet powerful solution random label bridge training that requires no manual labeling and helps LLM parameters adapt to vision foundation tasks. Moreover, our findings reveal that partial bridge training is often advantageous, as certain layers in LLMs exhibit strong foundational properties that remain beneficial even without fine-tuning for visual tasks. This surprising discovery opens up new avenues for leveraging language pre-trained parameters directly within vision models and highlights the potential of partial bridge training as a practical pathway to cross-modality adaptation.
- Abstract(参考訳): 言語事前学習モデルと視覚事前学習モデルにおける外来パラメータの比率は著しく異なり、クロスドメイン適応よりも本質的にはクロスモダリティ(言語と視覚)を困難にしている。
その結果、多くの先行研究は言語と視覚のモダリティを橋渡ししようとするよりも、言語事前学習モデルは異なるパラメータ空間のために下流の視覚タスクには適さないと仮定して、ドメイン間移動に重点を置いている。
この仮定とは対照的に、モダリティ適応学習者としてブリッジトレーニングステージを追加することで、大規模言語モデル(LLM)パラメータを視覚タスクと効果的に整合させることができることを示す。
具体的には、手動ラベリングを必要とせず、LLMパラメータが視覚基盤タスクに適応するのに役立つ、単純で強力なランダムラベルブリッジトレーニングを提案する。
さらに,LLMのいくつかの層は,視覚的タスクを微調整することなく,優れた基礎特性を示すため,部分的ブリッジトレーニングがしばしば有利であることが明らかとなった。
この驚くべき発見は、視覚モデル内で言語事前訓練されたパラメータを直接活用するための新たな道を開き、相互モダリティ適応のための実践的な経路として部分的ブリッジトレーニングの可能性を強調している。
関連論文リスト
- eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Forging Multiple Training Objectives for Pre-trained Language Models via
Meta-Learning [97.28779163988833]
複数の事前学習目標が単一目的言語モデリングの理解能力の欠如を埋める。
メタラーニングに基づく新しい適応型サンプリングシステムであるtextitMOMETAS を提案し,任意の事前学習対象に対して潜時サンプリングパターンを学習する。
論文 参考訳(メタデータ) (2022-10-19T04:38:26Z) - Effective Adaptation in Multi-Task Co-Training for Unified Autonomous
Driving [103.745551954983]
本稿では,3つの下流タスクにおけるMoCoやSimCLRなど,多種多様な自己監督手法の転送性能について検討する。
彼らのパフォーマンスは、サブ最適か、あるいはシングルタスクベースラインよりもはるかに遅れていることに気付きました。
汎用マルチタスクトレーニングのための,単純かつ効果的な事前訓練-適応-ファインチューンパラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-19T12:15:31Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。