論文の概要: How (not) to ensemble LVLMs for VQA
- arxiv url: http://arxiv.org/abs/2310.06641v1
- Date: Tue, 10 Oct 2023 14:04:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-11 15:18:20.862214
- Title: How (not) to ensemble LVLMs for VQA
- Title(参考訳): VQAのためのLVLMのアンサンブル方法
- Authors: Lisa Alazraki, Lluis Castrejon, Mostafa Dehghani, Fantine Huot, Jasper
Uijlings, Thomas Mensink
- Abstract要約: 組み立ては、異なるモデルを組み合わせてパフォーマンスを向上させる古典的な方法である。
Encyclopedic-VQAに関する最近の研究で、著者らはそれらの課題を解決するための様々なモデルを検証した。
- 参考スコア(独自算出の注目度): 21.33377960107877
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies ensembling in the era of Large Vision-Language Models
(LVLMs). Ensembling is a classical method to combine different models to get
increased performance. In the recent work on Encyclopedic-VQA the authors
examine a wide variety of models to solve their task: from vanilla LVLMs, to
models including the caption as extra context, to models augmented with
Lens-based retrieval of Wikipedia pages. Intuitively these models are highly
complementary, which should make them ideal for ensembling. Indeed, an oracle
experiment shows potential gains from 48.8% accuracy (the best single model)
all the way up to 67% (best possible ensemble). So it is a trivial exercise to
create an ensemble with substantial real gains. Or is it?
- Abstract(参考訳): 本稿では,LVLM(Large Vision-Language Models)時代のエンハンブルについて述べる。
ensemblingは、さまざまなモデルを組み合わせてパフォーマンスを向上させる古典的な方法だ。
著者らは最近の百科事典-vqaの研究において、バニラlvlmsから追加の文脈としてキャプションを含むモデル、wikipediaページをレンズベースで検索するモデルまで、様々なモデルを調査した。
直感的にはこれらのモデルは極めて相補的であり、センシングに理想的である。
実際、oracleの実験では、48.8%の精度(最高のシングルモデル)から67%(最高のアンサンブル)までの潜在的な利益が示されている。
つまり、実質的な利益をもたらすアンサンブルを作るのは簡単な運動です。
それとも?
関連論文リスト
- The Larger the Better? Improved LLM Code-Generation via Budget Reallocation [32.0844209512788]
大型言語モデル(LLM)は小型言語よりも優れているという考え方が一般的である。
しかし、より大きなモデルでは推論の時間と計算時間もかなり必要になります。
両方のモデルが同じ予算の下で動作した場合、どうなるのか?
論文 参考訳(メタデータ) (2024-03-31T15:55:49Z) - Pushing Boundaries: Exploring Zero Shot Object Classification with Large
Multimodal Models [0.09264362806173355]
LLVA(Large Language and Vision Assistant Model)は、画像ベースのクエリと連動したリッチな会話体験をユーザに提供するモデルである。
本稿では,LMMについて一意に考察し,画像分類タスクの適応性について検討する。
我々の研究では、MNIST、Cats Vs. Dogs、Hymnoptera(Ants Vs. Bees)、Pox Vs. Non-Poxの皮膚画像からなる非伝統的なデータセットの4つの多様なデータセットのベンチマーク分析を含む。
論文 参考訳(メタデータ) (2023-12-30T03:19:54Z) - TeacherLM: Teaching to Fish Rather Than Giving the Fish, Language
Modeling Likewise [28.475836712813102]
我々は,ほとんどのNLPサンプルに対して,関連する基本,思考の連鎖,一般的な誤りを注釈できるTeachLM-7.1Bを提案する。
このモデルはMMLUで52.3のゼロショットスコアを獲得し、100B以上のパラメータを持つほとんどのモデルを上回った。
TeacherLMシリーズのモデルと拡張データセットをオープンソースとしてリリースします。
論文 参考訳(メタデータ) (2023-10-29T14:16:54Z) - UnIVAL: Unified Model for Image, Video, Audio and Language Tasks [105.77733287326308]
UnIVALモデルは2つのモードを超えて、テキスト、画像、ビデオ、オーディオを1つのモデルに統合する。
本モデルは,タスクバランスとマルチモーダルカリキュラム学習に基づいて,多くのタスクに対して効率的に事前学習を行う。
統一モデルにより、重み一般化によるマルチモーダルモデルの融合に関する新しい研究を提案する。
論文 参考訳(メタデータ) (2023-07-30T09:48:36Z) - VindLU: A Recipe for Effective Video-and-Language Pretraining [83.49216853881595]
本稿では,VidLモデル設計において最も重要な要素を解明する実証的研究を行う。
これらの経験的洞察を用いて、有効なVidL事前学習のためのステップバイステップレシピVindLUを開発した。
提案手法を用いてトレーニングしたモデルは,VidLタスクにおける最先端結果と同等かそれ以上の精度で達成できる。
論文 参考訳(メタデータ) (2022-12-09T18:54:05Z) - Composing Ensembles of Pre-trained Models via Iterative Consensus [95.10641301155232]
本稿では,異なる事前学習モデルのアンサンブルを構成するための統一的なフレームワークを提案する。
事前学習したモデルを「ジェネレータ」あるいは「スコーラ」として使用し、クローズドループ反復コンセンサス最適化により構成する。
スコアラーのアンサンブルによって達成されたコンセンサスは、シングルスコアラーのフィードバックよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-20T18:46:31Z) - Playing Lottery Tickets with Vision and Language [62.6420670250559]
大規模トランスフォーマーによる事前学習は視覚言語(V+L)研究に革命をもたらした。
並行して、宝くじチケット仮説の研究は、ディープニューラルネットワークには、分離訓練時に高密度ネットワークよりも同等またはさらに優れたパフォーマンスを達成できる小さなマッチングワークが含まれていることを示しています。
テストベッドとして最高の性能を持つV+Lモデルの1つであるUNITERを使用し、実験のために7つの代表的なV+Lタスクを統合する。
論文 参考訳(メタデータ) (2021-04-23T22:24:33Z) - When Ensembling Smaller Models is More Efficient than Single Large
Models [52.38997176317532]
アンサンブルは高い精度で単一モデルより優れており、計算に要する総FLOPは少ない。
これは、アンサンブルの出力の多様性がより大きなモデルを訓練するよりも効率的であることを示す興味深い観察結果である。
論文 参考訳(メタデータ) (2020-05-01T18:56:18Z) - Counterfactual Samples Synthesizing for Robust Visual Question Answering [104.72828511083519]
モデルに依存しない対実サンプル合成(CSS)トレーニングスキームを提案する。
CSSは、画像や質問の言葉で重要なオブジェクトをマスキングすることで、多数の偽物トレーニングサンプルを生成する。
VQA-CP v2では58.95%,6.5%向上した。
論文 参考訳(メタデータ) (2020-03-14T08:34:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。