Fugu-MT 論文翻訳(概要): Language-Pretraining-Induced Bias: A Strong Foundation for General Vision Tasks

論文の概要: Language-Pretraining-Induced Bias: A Strong Foundation for General Vision Tasks

arxiv url: http://arxiv.org/abs/2604.01833v2
Date: Fri, 03 Apr 2026 09:26:05 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-06 12:42:34.278326
Title: Language-Pretraining-Induced Bias: A Strong Foundation for General Vision Tasks
Title（参考訳）: 言語訓練によるバイアス: 一般的なビジョンタスクのための強力な基盤
Authors: Yaxin Luo, Zhiqiang Shen,
Abstract要約: 橋梁訓練段階をモダリティ適応学習者として追加することで,大規模言語モデル(LLM)パラメータと視覚タスクを効果的に整合させることができることを示す。具体的には、手動ラベリングを必要とせず、LLMパラメータが視覚基盤タスクに適応するのに役立つ、単純で強力なランダムラベルブリッジトレーニングを提案する。
参考スコア（独自算出の注目度）: 42.933557718831544
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The ratio of outlier parameters in language pre-training models and vision pre-training models differs significantly, making cross-modality (language and vision) inherently more challenging than cross-domain adaptation. As a result, many prior studies have focused on cross-domain transfer rather than attempting to bridge language and vision modalities, assuming that language pre-trained models are unsuitable for downstream visual tasks due to disparate parameter spaces. Contrary to this assumption, we show that adding a bridge training stage as a modality adaptation learner can effectively align Large Language Model (LLM) parameters with vision tasks. Specifically, we propose a simple yet powerful solution random label bridge training that requires no manual labeling and helps LLM parameters adapt to vision foundation tasks. Moreover, our findings reveal that partial bridge training is often advantageous, as certain layers in LLMs exhibit strong foundational properties that remain beneficial even without fine-tuning for visual tasks. This surprising discovery opens up new avenues for leveraging language pre-trained parameters directly within vision models and highlights the potential of partial bridge training as a practical pathway to cross-modality adaptation.
Abstract（参考訳）: 言語事前学習モデルと視覚事前学習モデルにおける外来パラメータの比率は著しく異なり、クロスドメイン適応よりも本質的にはクロスモダリティ(言語と視覚)を困難にしている。その結果、多くの先行研究は言語と視覚のモダリティを橋渡ししようとするよりも、言語事前学習モデルは異なるパラメータ空間のために下流の視覚タスクには適さないと仮定して、ドメイン間移動に重点を置いている。この仮定とは対照的に、モダリティ適応学習者としてブリッジトレーニングステージを追加することで、大規模言語モデル(LLM)パラメータを視覚タスクと効果的に整合させることができることを示す。具体的には、手動ラベリングを必要とせず、LLMパラメータが視覚基盤タスクに適応するのに役立つ、単純で強力なランダムラベルブリッジトレーニングを提案する。さらに,LLMのいくつかの層は,視覚的タスクを微調整することなく,優れた基礎特性を示すため,部分的ブリッジトレーニングがしばしば有利であることが明らかとなった。この驚くべき発見は、視覚モデル内で言語事前訓練されたパラメータを直接活用するための新たな道を開き、相互モダリティ適応のための実践的な経路として部分的ブリッジトレーニングの可能性を強調している。

論文の概要: Language-Pretraining-Induced Bias: A Strong Foundation for General Vision Tasks

関連論文リスト