論文の概要: PaLI: A Jointly-Scaled Multilingual Language-Image Model
- arxiv url: http://arxiv.org/abs/2209.06794v1
- Date: Wed, 14 Sep 2022 17:24:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-15 12:52:02.591121
- Title: PaLI: A Jointly-Scaled Multilingual Language-Image Model
- Title(参考訳): PaLI: 共同スケール多言語画像モデル
- Authors: Xi Chen, Xiao Wang, Soravit Changpinyo, AJ Piergiovanni, Piotr
Padlewski, Daniel Salz, Sebastian Goodman, Adam Grycner, Basil Mustafa, Lucas
Beyer, Alexander Kolesnikov, Joan Puigcerver, Nan Ding, Keran Rong, Hassan
Akbari, Gaurav Mishra, Linting Xue, Ashish Thapliyal, James Bradbury,
Weicheng Kuo, Mojtaba Seyedhosseini, Chao Jia, Burcu Karagol Ayan, Carlos
Riquelme, Andreas Steiner, Anelia Angelova, Xiaohua Zhai, Neil Houlsby, Radu
Soricut
- Abstract要約: PaLI(PathwaysLanguage and Image model)は、このアプローチを言語と視覚の合同モデリングに拡張する。
我々は、100以上の言語で10B画像とテキストを含む新しい画像テキストトレーニングセットに基づいて、事前学習タスクの多言語混合を作成する。
- 参考スコア(独自算出の注目度): 110.10710554358455
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective scaling and a flexible task interface enable large language models
to excel at many tasks.PaLI(PathwaysLanguage andImage model) extends this
approach to the joint modeling of language and vision. PaLI generates text
based on visual and textual inputs, and with this interface performs many
vision, language, and multimodal tasks, in many languages. To train PaLI, we
make use of large pretrained encoder-decoder language models and Vision
Transformers (ViTs). This allows us to capitalize on their existing
capabilities and leverage the substantial cost of training them. We find that
joint scaling of the vision and language components is important. Since
existing Transformers for language are much larger than their vision
counterparts, we train the largest ViT to date (ViT-e) to quantify the benefits
from even larger-capacity vision models. To train PaLI, we create a large
multilingual mix of pretraining tasks, based on a new image-text training set
containing 10B images and texts in over 100 languages. PaLI achieves
state-of-the-art in multiple vision and language tasks (such as captioning,
visual question-answering, scene-text understanding), while retaining a simple,
modular, and scalable design.
- Abstract(参考訳): 効果的なスケーリングと柔軟なタスクインタフェースにより、大きな言語モデルが多くのタスクで優れている。pali(pathwayslanguage andimage model)はこのアプローチを言語とビジョンの合同モデリングに拡張する。
paliは視覚とテキストの入力に基づいてテキストを生成し、このインターフェイスは多くの言語で多くの視覚、言語、マルチモーダルタスクを実行する。
PaLIのトレーニングには、トレーニング済みのエンコーダ-デコーダ言語モデルとビジョントランスフォーマー(ViT)を利用する。
これにより、既存の能力を活用し、トレーニングのかなりのコストを活用できます。
ビジョンと言語コンポーネントのジョイントスケーリングが重要であることが分かりました。
既存の言語用トランスフォーマーはビジョンモデルよりもはるかに大きいので、これまでで最大のViT(ViT-e)をトレーニングして、より大きな容量のビジョンモデルの利点を定量化します。
PaLIをトレーニングするために、100以上の言語で10B画像とテキストを含む新しい画像テキストトレーニングセットに基づいて、事前学習タスクの多言語混合を作成する。
PaLIは、複数の視覚と言語タスク(キャプション、視覚的質問応答、シーンテキスト理解など)において最先端を達成しつつ、シンプルでモジュラーでスケーラブルな設計を維持している。
関連論文リスト
- VLIS: Unimodal Language Models Guide Multimodal Language Generation [23.094728230459125]
VLIS(Importance Smpling weights)として視覚言語モデルを導入する。
視覚言語モデルの視覚的条件付け能力と、追加のトレーニングを伴わずに、アンモダルテキストのみの言語モデルの言語理解を組み合わせる。
VLISは、常識理解や複雑なテキスト生成など、様々なタスクにおける視覚言語モデルを改善する。
論文 参考訳(メタデータ) (2023-10-15T07:58:52Z) - Vision Language Transformers: A Survey [0.9137554315375919]
イメージを記述するキャプションに関する質問に答えたり、生成したりするといった視覚言語タスクは、コンピュータが実行するのが難しいタスクである。
最近の研究は、ciptvaswani 2017で導入された事前訓練されたトランスフォーマーアーキテクチャを視覚言語モデリングに適用している。
トランスフォーマーモデルは、以前のビジョン言語モデルよりも性能と汎用性を大幅に改善した。
論文 参考訳(メタデータ) (2023-07-06T19:08:56Z) - PaLI-X: On Scaling up a Multilingual Vision and Language Model [166.9837904115951]
マルチ言語ビジョンと言語モデルであるPaLI-Xをスケールアップする際のトレーニングレシピと結果を示す。
我々のモデルは、多種多様な複雑なタスクにおいて、新しいレベルのパフォーマンスを達成する。
複雑なカウントや多言語オブジェクト検出といった,トレーニングミックスに明示的に含まれないタスクの出現を観察する。
論文 参考訳(メタデータ) (2023-05-29T18:58:38Z) - PaLM-E: An Embodied Multimodal Language Model [101.29116156731762]
本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。
我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。
562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
論文 参考訳(メタデータ) (2023-03-06T18:58:06Z) - VAuLT: Augmenting the Vision-and-Language Transformer with the
Propagation of Deep Language Representations [6.405005247717135]
視覚・言語変換器(VAuLT)を提案する。
VAuLTはViLT(Vision-and-Language Transformer)の拡張であり、視覚・言語タスクのパフォーマンスを向上させる。
このような戦略は、よりリッチな言語入力を含む視覚・言語タスクにおいて、ViLTよりも大幅に改善されることを示す。
論文 参考訳(メタデータ) (2022-08-18T18:51:13Z) - Generalizing Multimodal Pre-training into Multilingual via Language
Acquisition [54.69707237195554]
英語のVision-Language Pre-Trainingは、様々な下流タスクで大きな成功を収めた。
この成功を英語以外の言語に一般化するために、Multilingual Vision-Language Pre-Trainingを通じていくつかの取り組みがなされている。
単言語視覚言語事前学習モデルを多言語に容易に一般化できるtextbfMultitextbfLingual textbfAcquisition (MLA) フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-29T08:53:22Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。