Fugu-MT 論文翻訳(概要): OpenFlamingo: An Open-Source Framework for Training Large Autoregressive Vision-Language Models

論文の概要: OpenFlamingo: An Open-Source Framework for Training Large Autoregressive Vision-Language Models

arxiv url: http://arxiv.org/abs/2308.01390v2
Date: Mon, 7 Aug 2023 17:53:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-08 20:09:00.978493
Title: OpenFlamingo: An Open-Source Framework for Training Large Autoregressive Vision-Language Models
Title（参考訳）: OpenFlamingo: 大規模な自己回帰型ビジョンランゲージモデルをトレーニングするためのオープンソースフレームワーク
Authors: Anas Awadalla and Irena Gao and Josh Gardner and Jack Hessel and Yusuf Hanafy and Wanrong Zhu and Kalyani Marathe and Yonatan Bitton and Samir Gadre and Shiori Sagawa and Jenia Jitsev and Simon Kornblith and Pang Wei Koh and Gabriel Ilharco and Mitchell Wortsman and Ludwig Schmidt
Abstract要約: 自己回帰型視覚言語モデルであるOpenFlamingoを紹介する。 7つのビジョン言語データセットでは、OpenFlamingoモデルは、対応するFlamingoのパフォーマンスの80～89%の平均である。
参考スコア（独自算出の注目度）: 45.73648636147373
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce OpenFlamingo, a family of autoregressive vision-language models ranging from 3B to 9B parameters. OpenFlamingo is an ongoing effort to produce an open-source replication of DeepMind's Flamingo models. On seven vision-language datasets, OpenFlamingo models average between 80 - 89% of corresponding Flamingo performance. This technical report describes our models, training data, hyperparameters, and evaluation suite. We share our models and code at https://github.com/mlfoundations/open_flamingo.
Abstract（参考訳）: OpenFlamingoは,3Bパラメータから9Bパラメータまでの自動回帰視覚言語モデルである。 OpenFlamingoは、DeepMindのFlamingoモデルをオープンソースで複製する試みである。 7つのビジョン言語データセットでは、OpenFlamingoモデルは、対応するFlamingoのパフォーマンスの80～89%の平均である。本報告では,モデル,トレーニングデータ,ハイパーパラメータ,評価スイートについて述べる。私たちは、モデルとコードをhttps://github.com/mlfoundations/open_flamingoで共有しています。

関連論文リスト

Approximating Language Model Training Data from Weights [70.08614275061689]
モデル重みからデータ近似の問題を定式化し、いくつかのベースラインとメトリクスを提案する。そこで我々は,大規模公開テキストコーパスから最高のマッチングデータを選択する勾配に基づく手法を開発した。真のトレーニングデータがない場合でも、我々の方法では、公開Webドキュメントの小さなサブセットを見つけることができる。
論文参考訳（メタデータ） (2025-06-18T15:26:43Z)
Leveraging OpenFlamingo for Multimodal Embedding Analysis of C2C Car Parts Data [0.0]
われわれは2つのプラットフォーム、OfferUpとCraigslistからデータを収集した。 OpenFlamingoモデルは、各投稿のテキストと画像の埋め込みを抽出するために使用された。ほとんどのクラスタにはパターンが含まれていることが分かりましたが、いくつかのクラスタは内部パターンを示していません。
論文参考訳（メタデータ） (2025-03-20T19:35:15Z)
Ola: Pushing the Frontiers of Omni-Modal Language Model with Progressive Modality Alignment [88.72389428177942]
Olaはオムニモーダル言語モデルであり、画像、ビデオ、音声の理解間での競合的なパフォーマンスを実現する。我々は、Olaを、この新興分野における将来の研究を進めるための、完全にオープンなオムニモーダル理解ソリューションにすることを目指している。
論文参考訳（メタデータ） (2025-02-06T18:59:55Z)
Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Multimodal Models [146.18107944503436]
Molmoは、オープンネスのクラスで最先端のVLMの新たなファミリーである。私たちの重要なイノベーションは、人間のアノテーションから収集された、新しくて詳細な画像キャプションデータセットです。近い将来、モデルウェイト、キャプション、微調整データ、ソースコードをすべてリリースする予定です。
論文参考訳（メタデータ） (2024-09-25T17:59:51Z)
Arctic-Embed: Scalable, Efficient, and Accurate Text Embedding Models [5.2094499417507105]
本報告では,テキスト埋込型テキスト埋め込みモデルのファミリの背後にあるトレーニングデータセットの作成とレシピについて述べる。リリース時点で、各モデルはMTEB検索のリーダーボード上で、その大きさのモデルに対する最先端の検索精度を達成した。
論文参考訳（メタデータ） (2024-05-08T19:05:18Z)
Open-DDVM: A Reproduction and Extension of Diffusion Model for Optical Flow Estimation [56.51837025874472]
GoogleはDDVMを提案し、画像から画像への変換タスクの一般的な拡散モデルが驚くほどうまく機能することを初めて証明した。しかし、DDVMはまだクローズドソースモデルであり、高価でプライベートなPaletteスタイルの事前トレーニングがある。本稿では,DDVMを再現した最初のオープンソースDDVMについて述べる。
論文参考訳（メタデータ） (2023-12-04T09:10:25Z)
Tunable Soft Prompts are Messengers in Federated Learning [55.924749085481544]
フェデレートラーニング(FL)は、複数の参加者が分散データソースを使用して機械学習モデルを協調的にトレーニングすることを可能にする。 FLにおけるモデルプライバシ保護の欠如は無視できない課題となっている。そこで本研究では,ソフトプロンプトによって参加者間の情報交換を実現する新しいFLトレーニング手法を提案する。
論文参考訳（メタデータ） (2023-11-12T11:01:10Z)
OpenBA: An Open-sourced 15B Bilingual Asymmetric seq2seq Model Pre-trained from Scratch [41.45002811060755]
本報告では,オープンソースの15Bバイリンガル非対称seq2seqモデルであるOpenBAについて述べる。 OpenBAを効果的かつ効率的な技術で強化するとともに,スクラッチからモデルをトレーニングするための3段階のトレーニング戦略を採用しています。私たちのソリューションは、380Bトークンだけで非常に競争力のあるパフォーマンスを実現できます。
論文参考訳（メタデータ） (2023-09-19T15:46:40Z)
Otter: A Multi-Modal Model with In-Context Instruction Tuning [30.804061018682244]
本研究では,Flamingoモデルの上流型インターリーブ型事前学習データセットを動機として,マルチモーダルモデルにインストラクションチューニングを導入する。次に、OpenFlamingo(DeepMindのFlamingoのオープンソース版)をベースとしたマルチモーダルモデルであるOtterを紹介し、MIMIC-ITでトレーニングし、改善された命令追従能力とコンテキスト内学習を示す。
論文参考訳（メタデータ） (2023-05-05T17:59:46Z)
Flamingo: a Visual Language Model for Few-Shot Learning [95.88782798074314]
この機能を備えたビジュアル言語モデル(VLM)のファミリーであるFlamingoを紹介します。柔軟性のおかげで、Flamingoモデルは大規模なマルチモーダルWebコーパスでトレーニングできる。一つのFlamingoモデルが、数ショットの学習で新しい最先端の技術を実現できることを実証する。
論文参考訳（メタデータ） (2022-04-29T16:29:01Z)
Ensemble Distillation for Robust Model Fusion in Federated Learning [72.61259487233214]
Federated Learning(FL)は、多くのデバイスが機械学習モデルを協調的にトレーニングする機械学習環境である。現在のトレーニングスキームのほとんどでは、サーバモデルのパラメータと更新されたパラメータをクライアント側から平均化することで、中央モデルを洗練します。本研究では,モデル融合のためのアンサンブル蒸留法を提案する。
論文参考訳（メタデータ） (2020-06-12T14:49:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。