論文の概要: OpenFlamingo: An Open-Source Framework for Training Large Autoregressive
Vision-Language Models
- arxiv url: http://arxiv.org/abs/2308.01390v2
- Date: Mon, 7 Aug 2023 17:53:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 20:09:00.978493
- Title: OpenFlamingo: An Open-Source Framework for Training Large Autoregressive
Vision-Language Models
- Title(参考訳): OpenFlamingo: 大規模な自己回帰型ビジョンランゲージモデルをトレーニングするためのオープンソースフレームワーク
- Authors: Anas Awadalla and Irena Gao and Josh Gardner and Jack Hessel and Yusuf
Hanafy and Wanrong Zhu and Kalyani Marathe and Yonatan Bitton and Samir Gadre
and Shiori Sagawa and Jenia Jitsev and Simon Kornblith and Pang Wei Koh and
Gabriel Ilharco and Mitchell Wortsman and Ludwig Schmidt
- Abstract要約: 自己回帰型視覚言語モデルであるOpenFlamingoを紹介する。
7つのビジョン言語データセットでは、OpenFlamingoモデルは、対応するFlamingoのパフォーマンスの80~89%の平均である。
- 参考スコア(独自算出の注目度): 45.73648636147373
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce OpenFlamingo, a family of autoregressive vision-language models
ranging from 3B to 9B parameters. OpenFlamingo is an ongoing effort to produce
an open-source replication of DeepMind's Flamingo models. On seven
vision-language datasets, OpenFlamingo models average between 80 - 89% of
corresponding Flamingo performance. This technical report describes our models,
training data, hyperparameters, and evaluation suite. We share our models and
code at https://github.com/mlfoundations/open_flamingo.
- Abstract(参考訳): OpenFlamingoは,3Bパラメータから9Bパラメータまでの自動回帰視覚言語モデルである。
OpenFlamingoは、DeepMindのFlamingoモデルをオープンソースで複製する試みである。
7つのビジョン言語データセットでは、OpenFlamingoモデルは、対応するFlamingoのパフォーマンスの80~89%の平均である。
本報告では,モデル,トレーニングデータ,ハイパーパラメータ,評価スイートについて述べる。
私たちは、モデルとコードをhttps://github.com/mlfoundations/open_flamingoで共有しています。
関連論文リスト
- Ola: Pushing the Frontiers of Omni-Modal Language Model with Progressive Modality Alignment [88.72389428177942]
Olaはオムニモーダル言語モデルであり、画像、ビデオ、音声の理解間での競合的なパフォーマンスを実現する。
我々は、Olaを、この新興分野における将来の研究を進めるための、完全にオープンなオムニモーダル理解ソリューションにすることを目指している。
論文 参考訳(メタデータ) (2025-02-06T18:59:55Z) - Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models [146.85788712792177]
Molmoは視覚言語モデル(VLM)の新たなファミリーであり、オープンネスのクラスにおける最先端技術である。
我々の最高のクラス72Bモデルは、オープンウェイトとデータモデルのクラスで他よりも優れています。
論文 参考訳(メタデータ) (2024-09-25T17:59:51Z) - Arctic-Embed: Scalable, Efficient, and Accurate Text Embedding Models [5.2094499417507105]
本報告では,テキスト埋込型テキスト埋め込みモデルのファミリの背後にあるトレーニングデータセットの作成とレシピについて述べる。
リリース時点で、各モデルはMTEB検索のリーダーボード上で、その大きさのモデルに対する最先端の検索精度を達成した。
論文 参考訳(メタデータ) (2024-05-08T19:05:18Z) - Open-DDVM: A Reproduction and Extension of Diffusion Model for Optical
Flow Estimation [56.51837025874472]
GoogleはDDVMを提案し、画像から画像への変換タスクの一般的な拡散モデルが驚くほどうまく機能することを初めて証明した。
しかし、DDVMはまだクローズドソースモデルであり、高価でプライベートなPaletteスタイルの事前トレーニングがある。
本稿では,DDVMを再現した最初のオープンソースDDVMについて述べる。
論文 参考訳(メタデータ) (2023-12-04T09:10:25Z) - OpenBA: An Open-sourced 15B Bilingual Asymmetric seq2seq Model
Pre-trained from Scratch [41.45002811060755]
本報告では,オープンソースの15Bバイリンガル非対称seq2seqモデルであるOpenBAについて述べる。
OpenBAを効果的かつ効率的な技術で強化するとともに,スクラッチからモデルをトレーニングするための3段階のトレーニング戦略を採用しています。
私たちのソリューションは、380Bトークンだけで非常に競争力のあるパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-09-19T15:46:40Z) - Otter: A Multi-Modal Model with In-Context Instruction Tuning [30.804061018682244]
本研究では,Flamingoモデルの上流型インターリーブ型事前学習データセットを動機として,マルチモーダルモデルにインストラクションチューニングを導入する。
次に、OpenFlamingo(DeepMindのFlamingoのオープンソース版)をベースとしたマルチモーダルモデルであるOtterを紹介し、MIMIC-ITでトレーニングし、改善された命令追従能力とコンテキスト内学習を示す。
論文 参考訳(メタデータ) (2023-05-05T17:59:46Z) - Flamingo: a Visual Language Model for Few-Shot Learning [95.88782798074314]
この機能を備えたビジュアル言語モデル(VLM)のファミリーであるFlamingoを紹介します。
柔軟性のおかげで、Flamingoモデルは大規模なマルチモーダルWebコーパスでトレーニングできる。
一つのFlamingoモデルが、数ショットの学習で新しい最先端の技術を実現できることを実証する。
論文 参考訳(メタデータ) (2022-04-29T16:29:01Z) - Ensemble Distillation for Robust Model Fusion in Federated Learning [72.61259487233214]
Federated Learning(FL)は、多くのデバイスが機械学習モデルを協調的にトレーニングする機械学習環境である。
現在のトレーニングスキームのほとんどでは、サーバモデルのパラメータと更新されたパラメータをクライアント側から平均化することで、中央モデルを洗練します。
本研究では,モデル融合のためのアンサンブル蒸留法を提案する。
論文 参考訳(メタデータ) (2020-06-12T14:49:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。