論文の概要: Florenz: Scaling Laws for Systematic Generalization in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2503.09443v1
- Date: Wed, 12 Mar 2025 14:41:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:40:19.328507
- Title: Florenz: Scaling Laws for Systematic Generalization in Vision-Language Models
- Title(参考訳): Florenz:ビジョンランゲージモデルにおける体系的一般化のためのスケーリング法則
- Authors: Julian Spravil, Sebastian Houben, Sven Behnke,
- Abstract要約: 言語間移動により、視覚言語モデルは1つの言語でのみトレーニングデータを用いて様々な言語で視覚タスクを実行することができる。
現在のアプローチは、大規模で訓練済みの多言語言語モデルに依存している。
本稿では,事前学習したVLM Florence-2と大規模言語モデルGemma-2を組み合わせた,0.4Bから11.2Bの単一言語エンコーダVLMであるFlorenzを提案する。
- 参考スコア(独自算出の注目度): 17.444066202370397
- License:
- Abstract: Cross-lingual transfer enables vision-language models (VLMs) to perform vision tasks in various languages with training data only in one language. Current approaches rely on large pre-trained multilingual language models. However, they face the curse of multilinguality, sacrificing downstream task performance for multilingual capabilities, struggling with lexical ambiguities, and falling behind recent advances. In this work, we study the scaling laws of systematic generalization with monolingual VLMs for multilingual tasks, focusing on the impact of model size and seen training samples. We propose Florenz, a monolingual encoder-decoder VLM with 0.4B to 11.2B parameters combining the pre-trained VLM Florence-2 and the large language model Gemma-2. Florenz is trained with varying compute budgets on a synthetic dataset that features intentionally incomplete language coverage for image captioning, thus, testing generalization from the fully covered translation task. We show that not only does indirectly learning unseen task-language pairs adhere to a scaling law, but also that with our data generation pipeline and the proposed Florenz model family, image captioning abilities can emerge in a specific language even when only data for the translation task is available. Fine-tuning on a mix of downstream datasets yields competitive performance and demonstrates promising scaling trends in multimodal machine translation (Multi30K, CoMMuTE), lexical disambiguation (CoMMuTE), and image captioning (Multi30K, XM3600, COCO Karpathy).
- Abstract(参考訳): 言語間移動により、視覚言語モデル(VLM)は1つの言語でのみ訓練データを用いて様々な言語で視覚タスクを実行することができる。
現在のアプローチは、大規模で訓練済みの多言語言語モデルに依存している。
しかし、彼らは多言語性の呪いに直面し、多言語能力のために下流タスクのパフォーマンスを犠牲にし、語彙の曖昧さに悩まされ、最近の進歩に遅れている。
本研究では,多言語タスクのための単言語VLMを用いた体系的一般化のスケーリング法則について検討し,モデルサイズの影響と学習サンプルの観察に着目した。
本稿では,事前学習したVLM Florence-2と大規模言語モデルGemma-2を組み合わせた,0.4Bから11.2Bの単一言語エンコーダVLMであるFlorenzを提案する。
Florenzは、画像キャプションのための意図的不完全な言語カバレッジを特徴とする合成データセット上で、様々な計算予算で訓練されており、完全にカバーされた翻訳タスクから一般化をテストする。
また,データ生成パイプラインと提案したFlorenzモデルファミリによって,翻訳タスクのデータのみを利用できる場合でも,画像キャプション能力が特定の言語で実現可能であることを示す。
下流データセットの微調整により、競合性能が向上し、マルチモーダル機械翻訳(Multi30K、CoMMuTE)、語彙曖昧化(CoMMuTE)、イメージキャプション(Multi30K、XM3600、COCO Karpathy)のスケーリングトレンドが期待できる。
関連論文リスト
- LDP: Generalizing to Multilingual Visual Information Extraction by Language Decoupled Pretraining [2.6638517946494535]
単言語事前学習データをよりよく活用するための多言語学習パラダイム LDP (Language Decoupled Pre-training) を提案する。
提案したモデル LDM はまず言語に依存しないデータに基づいて事前訓練され,言語知識は拡散モデルによって分離され,次に下流言語で微調整される。
論文 参考訳(メタデータ) (2024-12-19T07:31:40Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間の対応する概念、すなわち言語を横断的に関連付けることができるだろうか?
本研究は,言語横断的タスクにおける最先端LLMの評価である。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - ICU: Conquering Language Barriers in Vision-and-Language Modeling by
Dividing the Tasks into Image Captioning and Language Understanding [1.9906814758497542]
ICUは、V&Lタスクを2段階に分割する: V&Lモデルが英語で画像キャプションを行い、マルチ言語モデル(mLM)がそのキャプションをaltテキストとして取り、言語間理解を行う。
ICUは5つの言語に対して新しい最先端の結果が得られ、残りの言語では同等の結果が得られることを示す。
論文 参考訳(メタデータ) (2023-10-19T07:11:48Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Generalizing Multimodal Pre-training into Multilingual via Language
Acquisition [54.69707237195554]
英語のVision-Language Pre-Trainingは、様々な下流タスクで大きな成功を収めた。
この成功を英語以外の言語に一般化するために、Multilingual Vision-Language Pre-Trainingを通じていくつかの取り組みがなされている。
単言語視覚言語事前学習モデルを多言語に容易に一般化できるtextbfMultitextbfLingual textbfAcquisition (MLA) フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-29T08:53:22Z) - Translate & Fill: Improving Zero-Shot Multilingual Semantic Parsing with
Synthetic Data [2.225882303328135]
多言語セマンティックパーシングタスクのための銀のトレーニングデータを生成するための新しいTranslate-and-Fill(TaF)手法を提案する。
3つの多言語意味解析データセットの実験結果は、TaFによるデータ拡張が類似システムと競合する精度に達することを示している。
論文 参考訳(メタデータ) (2021-09-09T14:51:11Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。