論文の概要: PaLI-X: On Scaling up a Multilingual Vision and Language Model
- arxiv url: http://arxiv.org/abs/2305.18565v1
- Date: Mon, 29 May 2023 18:58:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 19:35:27.601826
- Title: PaLI-X: On Scaling up a Multilingual Vision and Language Model
- Title(参考訳): PaLI-X: マルチ言語ビジョンと言語モデルのスケールアップについて
- Authors: Xi Chen, Josip Djolonga, Piotr Padlewski, Basil Mustafa, Soravit
Changpinyo, Jialin Wu, Carlos Riquelme Ruiz, Sebastian Goodman, Xiao Wang, Yi
Tay, Siamak Shakeri, Mostafa Dehghani, Daniel Salz, Mario Lucic, Michael
Tschannen, Arsha Nagrani, Hexiang Hu, Mandar Joshi, Bo Pang, Ceslee
Montgomery, Paulina Pietrzyk, Marvin Ritter, AJ Piergiovanni, Matthias
Minderer, Filip Pavetic, Austin Waters, Gang Li, Ibrahim Alabdulmohsin, Lucas
Beyer, Julien Amelot, Kenton Lee, Andreas Peter Steiner, Yang Li, Daniel
Keysers, Anurag Arnab, Yuanzhong Xu, Keran Rong, Alexander Kolesnikov,
Mojtaba Seyedhosseini, Anelia Angelova, Xiaohua Zhai, Neil Houlsby, Radu
Soricut
- Abstract要約: マルチ言語ビジョンと言語モデルであるPaLI-Xをスケールアップする際のトレーニングレシピと結果を示す。
我々のモデルは、多種多様な複雑なタスクにおいて、新しいレベルのパフォーマンスを達成する。
複雑なカウントや多言語オブジェクト検出といった,トレーニングミックスに明示的に含まれないタスクの出現を観察する。
- 参考スコア(独自算出の注目度): 166.9837904115951
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present the training recipe and results of scaling up PaLI-X, a
multilingual vision and language model, both in terms of size of the components
and the breadth of its training task mixture. Our model achieves new levels of
performance on a wide-range of varied and complex tasks, including multiple
image-based captioning and question-answering tasks, image-based document
understanding and few-shot (in-context) learning, as well as object detection,
video question answering, and video captioning. PaLI-X advances the
state-of-the-art on most vision-and-language benchmarks considered (25+ of
them). Finally, we observe emerging capabilities, such as complex counting and
multilingual object detection, tasks that are not explicitly in the training
mix.
- Abstract(参考訳): 本稿では,多言語ビジョンと言語モデルであるpali-xのトレーニングレシピと,そのトレーニングタスク混合物の大きさと幅について検討する。
本モデルでは,複数のイメージベースキャプションと質問応答タスク,画像ベース文書理解,少数ショット(テキスト内)学習,オブジェクト検出,ビデオ質問応答,ビデオキャプションなど,多種多様な複雑なタスクに対して,新たなレベルのパフォーマンスを実現する。
PaLI-Xは、ほとんどの視覚および言語ベンチマーク(そのうち25以上)で最先端を推し進めている。
最後に、複雑なカウントや多言語オブジェクト検出といった、トレーニングミックスに明示的に含まれないタスクの出現する機能を観察する。
関連論文リスト
- VLIS: Unimodal Language Models Guide Multimodal Language Generation [23.094728230459125]
VLIS(Importance Smpling weights)として視覚言語モデルを導入する。
視覚言語モデルの視覚的条件付け能力と、追加のトレーニングを伴わずに、アンモダルテキストのみの言語モデルの言語理解を組み合わせる。
VLISは、常識理解や複雑なテキスト生成など、様々なタスクにおける視覚言語モデルを改善する。
論文 参考訳(メタデータ) (2023-10-15T07:58:52Z) - MiniGPT-v2: large language model as a unified interface for
vision-language multi-task learning [65.60607895153692]
MiniGPT-v2は、様々な視覚言語タスクをよりよく扱うための統一インターフェースとして扱うことができるモデルである。
モデルをトレーニングする際、異なるタスクに対してユニークな識別子を使うことを提案する。
以上の結果から,MiniGPT-v2は多くの視覚的質問応答および視覚的接地ベンチマークにおいて高い性能を達成できた。
論文 参考訳(メタデータ) (2023-10-14T03:22:07Z) - Ziya-Visual: Bilingual Large Vision-Language Model via Multi-Task
Instruction Tuning [27.544311403607786]
バイリンガルな大規模視覚言語モデル(LVLM)の集合であるZiya-Visualシリーズを紹介する。
我々のモデルは BLIP-2 から Querying Transformer を採用し,最適化手法のさらなる支援を探求している。
さらに,多モーダルシナリオにおけるGPT-4の理解能力を刺激し,収集した英語画像テキストデータセットを中国語に翻訳する。
論文 参考訳(メタデータ) (2023-10-12T09:39:17Z) - PaLI: A Jointly-Scaled Multilingual Language-Image Model [110.10710554358455]
PaLI(Pathways Language and Image Model)は、このアプローチを言語と視覚の合同モデリングに拡張するモデルである。
我々は、100以上の言語で10B画像とテキストを含む新しい画像テキストトレーニングセットに基づいて、事前学習タスクの多言語混合を作成する。
論文 参考訳(メタデータ) (2022-09-14T17:24:07Z) - Image as a Foreign Language: BEiT Pretraining for All Vision and
Vision-Language Tasks [87.6494641931349]
汎用多目的基礎モデルBEiT-3を紹介する。
視覚と視覚言語の両方のタスクで最先端の転送性能を達成する。
論文 参考訳(メタデータ) (2022-08-22T16:55:04Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z) - Learning to Scale Multilingual Representations for Vision-Language Tasks [51.27839182889422]
SMALRの有効性は、これまでビジョン言語タスクでサポートされた2倍以上の10の多言語で実証されている。
単語の埋め込み手法と比較して,訓練パラメータの1/5以下で,複数言語による画像文検索と先行作業の3~4%の性能評価を行った。
論文 参考訳(メタデータ) (2020-04-09T01:03:44Z) - All-in-One Image-Grounded Conversational Agents [31.28974522911758]
我々は、最先端のTransformerとResNeXtモジュールを結合したアーキテクチャを、新しい注意型マルチモーダルモジュールとして設計する。
モデルのコンポーネントを徹底的に分析し、あるタスク、あるタスク、またはすべてのタスクでトレーニングを行う際の性能を伝達する。
論文 参考訳(メタデータ) (2019-12-28T03:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。