論文の概要: Flamingo: a Visual Language Model for Few-Shot Learning
- arxiv url: http://arxiv.org/abs/2204.14198v1
- Date: Fri, 29 Apr 2022 16:29:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-02 12:51:02.691062
- Title: Flamingo: a Visual Language Model for Few-Shot Learning
- Title(参考訳): Flamingo:Few-Shot Learningのためのビジュアル言語モデル
- Authors: Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc, Antoine Miech, Iain
Barr, Yana Hasson, Karel Lenc, Arthur Mensch, Katie Millican, Malcolm
Reynolds, Roman Ring, Eliza Rutherford, Serkan Cabi, Tengda Han, Zhitao Gong,
Sina Samangooei, Marianne Monteiro, Jacob Menick, Sebastian Borgeaud, Andrew
Brock, Aida Nematzadeh, Sahand Sharifzadeh, Mikolaj Binkowski, Ricardo
Barreira, Oriol Vinyals, Andrew Zisserman, Karen Simonyan
- Abstract要約: この機能を備えたビジュアル言語モデル(VLM)のファミリーであるFlamingoを紹介します。
柔軟性のおかげで、Flamingoモデルは大規模なマルチモーダルWebコーパスでトレーニングできる。
一つのFlamingoモデルが、数ショットの学習で新しい最先端の技術を実現できることを実証する。
- 参考スコア(独自算出の注目度): 95.88782798074314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building models that can be rapidly adapted to numerous tasks using only a
handful of annotated examples is an open challenge for multimodal machine
learning research. We introduce Flamingo, a family of Visual Language Models
(VLM) with this ability. Flamingo models include key architectural innovations
to: (i) bridge powerful pretrained vision-only and language-only models, (ii)
handle sequences of arbitrarily interleaved visual and textual data, and (iii)
seamlessly ingest images or videos as inputs. Thanks to their flexibility,
Flamingo models can be trained on large-scale multimodal web corpora containing
arbitrarily interleaved text and images, which is key to endow them with
in-context few-shot learning capabilities. We perform a thorough evaluation of
the proposed Flamingo models, exploring and measuring their ability to rapidly
adapt to a variety of image and video understanding benchmarks. These include
open-ended tasks such as visual question-answering, where the model is prompted
with a question which it has to answer, captioning tasks, which evaluate the
ability to describe a scene or an event, and close-ended tasks such as multiple
choice visual question-answering. For tasks lying anywhere on this spectrum, we
demonstrate that a single Flamingo model can achieve a new state of the art for
few-shot learning, simply by prompting the model with task-specific examples.
On many of these benchmarks, Flamingo actually surpasses the performance of
models that are fine-tuned on thousands of times more task-specific data.
- Abstract(参考訳): 一握りの注釈付き例だけで、多数のタスクに迅速に適応できるモデルを構築することは、マルチモーダル機械学習研究のオープンチャレンジである。
この機能を備えたビジュアル言語モデル(VLM)のファミリーであるFlamingoを紹介します。
Flamingoモデルには、次のような重要なアーキテクチャ革新が含まれている。
(i)強力な事前訓練された視覚のみと言語のみのモデルをブリッジする。
(ii)任意にインターリーブされた視覚及びテキストデータのシーケンスを処理し、
(iii)画像や動画を入力としてシームレスに取り込みます。
柔軟性のおかげで、Flamingoモデルは、任意にインターリーブされたテキストとイメージを含む大規模なマルチモーダルWebコーパスでトレーニングすることができる。
提案するフラミンゴモデルの徹底的な評価を行い,様々な画像および映像理解ベンチマークに迅速に適応する能力の探索と測定を行った。
例えば、視覚的質問回答のようなオープンエンドタスクでは、モデルにどの質問に答えなければならないか、シーンやイベントを記述する能力を評価するキャプションタスク、複数の選択された視覚的質問回答のようなクローズエンドタスクなどがある。
このスペクトル上の任意のタスクに対して、1つのflamingoモデルが、単にタスク固有の例をモデルに促すだけで、少数の学習のための新しい状態を達成することができることを実証する。
これらのベンチマークの多くにおいて、Flamingoは何千倍ものタスク固有のデータに基づいて微調整されたモデルの性能を上回っている。
関連論文リスト
- EVLM: An Efficient Vision-Language Model for Visual Understanding [18.794601813330715]
本稿では,計算コストを最小化する効率的なマルチモーダル言語モデルを提案する。
画像キャプションやビデオキャプションといったタスクにおいて,公開マルチモーダルベンチマークの競合スコアを達成し,良好な性能を発揮する。
論文 参考訳(メタデータ) (2024-07-19T10:09:51Z) - MOWA: Multiple-in-One Image Warping Model [65.73060159073644]
本研究で提案するマルチ・イン・ワン・イメージ・ワープ・モデル(MOWA)について述べる。
領域レベルと画素レベルでの動作推定を両立させることにより,マルチタスク学習の難しさを軽減する。
私たちの知る限り、これは1つのモデルで複数の実用的なワープタスクを解決する最初の作業です。
論文 参考訳(メタデータ) (2024-04-16T16:50:35Z) - Veagle: Advancements in Multimodal Representation Learning [0.0]
本稿では,既存モデルのマルチモーダル能力を向上するための新しいアプローチを提案する。
提案したモデルであるVeagleは、以前の作品の成功と洞察にインスパイアされたユニークなメカニズムを取り入れています。
以上の結果から,Veagleは既存のモデルよりも優れた性能を示し,性能は5-6%向上した。
論文 参考訳(メタデータ) (2024-01-18T12:45:25Z) - MiniGPT-v2: large language model as a unified interface for
vision-language multi-task learning [65.60607895153692]
MiniGPT-v2は、様々な視覚言語タスクをよりよく扱うための統一インターフェースとして扱うことができるモデルである。
モデルをトレーニングする際、異なるタスクに対してユニークな識別子を使うことを提案する。
以上の結果から,MiniGPT-v2は多くの視覚的質問応答および視覚的接地ベンチマークにおいて高い性能を達成できた。
論文 参考訳(メタデータ) (2023-10-14T03:22:07Z) - In-Context Learning Unlocked for Diffusion Models [163.54453915874402]
本稿では,拡散に基づく生成モデルにおいて,文脈内学習を可能にするフレームワークであるPrompt Diffusionを提案する。
本稿では,幅広い視覚言語タスクをモデル化可能な視覚言語プロンプトと,それを入力とする拡散モデルを提案する。
結果として得られるPrompt Diffusionモデルは、文脈内学習が可能な初めての拡散に基づく視覚言語基礎モデルである。
論文 参考訳(メタデータ) (2023-05-01T23:03:37Z) - MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks [59.09343552273045]
本稿では,これらの異なる視覚言語タスクの協調学習に驚くほど有効であるマルチモーダルタスクのためのデコーダのみのモデルを提案する。
これらの多様な目的の合同学習は単純で効果的であり、これらのタスク間でのモデルの重量共有を最大化することを示した。
我々のモデルは,画像テキストとテキスト画像検索,ビデオ質問応答,オープン語彙検出タスクにおける技術の現状を達成し,より大きく,より広範囲に訓練された基礎モデルよりも優れている。
論文 参考訳(メタデータ) (2023-03-29T16:42:30Z) - Re-ViLM: Retrieval-Augmented Visual Language Model for Zero and Few-Shot
Image Captioning [153.98100182439165]
本稿では,Flamingo上に構築されたRetrieval-augmented Visual Language Model,Re-ViLMを紹介する。
外部データベースに特定の知識を明示的に格納することで、モデルパラメータの数を減らすことができる。
Re-ViLMは画像・テキスト生成タスクの性能を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2023-02-09T18:57:56Z) - Multimodal Few-Shot Learning with Frozen Language Models [36.75551859968596]
我々は視覚エンコーダを訓練し、各画像を連続的な埋め込みの列として表現し、この接頭辞で誘導される事前学習された凍結言語モデルが適切なキャプションを生成するようにした。
得られたシステムはマルチモーダルな数ショット学習者であり、実例で条件付けされた場合、驚くほど多くの新しいタスクを学習できる。
論文 参考訳(メタデータ) (2021-06-25T21:07:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。