論文の概要: Aligning MAGMA by Few-Shot Learning and Finetuning
- arxiv url: http://arxiv.org/abs/2210.14161v1
- Date: Tue, 18 Oct 2022 22:20:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-30 11:43:20.744513
- Title: Aligning MAGMA by Few-Shot Learning and Finetuning
- Title(参考訳): マイトショット学習と微調整によるマグマ調整
- Authors: Jean-Charles Layoun, Alexis Roger, and Irina Rish
- Abstract要約: 視覚言語モデリングの目標は、モデルが言語理解と視覚入力を結びつけることである。
本研究の目的は、生成モデルのマルチモーダル拡張と呼ばれる視覚言語モデル(VLM)を評価し、調整することである。
- 参考スコア(独自算出の注目度): 6.271890963617747
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The goal of vision-language modeling is to allow models to tie language
understanding with visual inputs. The aim of this paper is to evaluate and
align the Visual Language Model (VLM) called Multimodal Augmentation of
Generative Models through Adapter-based finetuning (MAGMA) with human values.
MAGMA is a VLM that is capable of image captioning and visual
question-answering. We will evaluate its alignment in three different
scenarios. To begin, we assess MAGMA's out-of-the-box alignment through the
checkpoint provided by Hugging Face. Then, we measure if few-shot learning
manages to improve the results. Finally, we finetune the model on aligned
examples and evaluate its behavior.
- Abstract(参考訳): 視覚言語モデリングの目標は、モデルが言語理解と視覚入力を結びつけることである。
本稿では,アダプタベースファインタニング(MAGMA)による生成モデルのマルチモーダル拡張(Multimodal Augmentation of Generative Models)と呼ばれる視覚言語モデル(VLM)の評価と整合性について述べる。
MAGMAは画像キャプションと視覚的質問応答が可能なVLMである。
3つの異なるシナリオでアライメントを評価します。
まず、Hugging Faceが提供するチェックポイントを通して、MAGMAのアウト・オブ・ボックスアライメントを評価する。
そして、少数ショット学習が結果を改善するかどうかを計測する。
最後に,モデルをアライメントした例で微調整し,その挙動を評価する。
関連論文リスト
- MI-VisionShot: Few-shot adaptation of vision-language models for slide-level classification of histopathological images [1.927195358774599]
MI-VisionShot(MI-VisionShot)は、スライドレベルのラベルを予測するための視覚言語モデル上のトレーニングフリー適応手法である。
我々のフレームワークは、VLMの優れた表現学習を利用してプロトタイプベースの分類器を作成する。
論文 参考訳(メタデータ) (2024-10-21T11:01:20Z) - A Vision Check-up for Language Models [61.852026871772914]
テキストのモデルを用いて、予備的な視覚表現学習システムをどのように訓練するかを示す。
自己教師付き視覚表現学習の実験は、自然画像のセマンティックアセスメントを行うことができる視覚モデルを訓練する可能性を強調している。
論文 参考訳(メタデータ) (2024-01-03T18:09:33Z) - Q-Align: Teaching LMMs for Visual Scoring via Discrete Text-Defined
Levels [95.44077384918725]
スコアの代わりにテキスト定義のレーティングレベルを持つ大規模マルチモーダリティモデル(LMM)を提案する。
提案したQ-Alignは、画像品質評価(IQA)、画像美学評価(IAA)、映像品質評価(VQA)タスクにおける最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-28T16:10:25Z) - APoLLo: Unified Adapter and Prompt Learning for Vision Language Models [58.9772868980283]
本稿では,視覚言語モデルに対する適応学習とプロンプト学習を組み合わせた統合マルチモーダルアプローチであるAPoLLoを提案する。
APoLLoは10種類の画像認識データセットに対して、MaPLe(SOTA)よりも6.03%向上している。
論文 参考訳(メタデータ) (2023-12-04T01:42:09Z) - Zero-shot Visual Question Answering with Language Model Feedback [83.65140324876536]
知識に基づく視覚的質問応答(VQA)のための言語モデル指導型キャプションアプローチ LAMOC を提案する。
提案手法では,予備学習言語モデル (PLM) である回答予測モデルの文脈として,キャプションモデルによって生成されたキャプションを用いる。
論文 参考訳(メタデータ) (2023-05-26T15:04:20Z) - What Makes for Good Visual Tokenizers for Large Language Models? [26.488269091290597]
優れた視覚的トークン化を実現するための適切な事前学習手法について検討し,LLM(Large Language Models)とMLLM(Multimodal Large Language Models)について検討した。
支配的手法(DeiT, CLIP, MAE, DINO)で事前訓練した視覚トークン化剤について検討する。
GVT(Good Visual Tokenizer)を備えたMLLMは,複数スケールで強力な視覚理解能力を示す。
論文 参考訳(メタデータ) (2023-05-20T16:11:26Z) - Evaluating how interactive visualizations can assist in finding samples where and how computer vision models make mistakes [1.76602679361245]
コンピュータビジョン(CV)モデルを作成するシステムであるSpriteのコンテキストにおいて、2つのインタラクティブな可視化を提示する。
これらの視覚化は、Spriteのユーザがモデルに苦労している画像を特定し(評価)、(計画的な)画像を選択するのにどのように役立つかを調べる。
論文 参考訳(メタデータ) (2023-05-19T14:43:00Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。