論文の概要: What to do if language models disagree? Black-box model ensembling for textual and visual question answering
- arxiv url: http://arxiv.org/abs/2407.12841v1
- Date: Thu, 4 Jul 2024 12:59:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 08:37:51.457035
- Title: What to do if language models disagree? Black-box model ensembling for textual and visual question answering
- Title(参考訳): 言語モデルが一致しない場合、どうすればいいのか? テキストおよび視覚的質問応答のためのブラックボックスモデル
- Authors: Yuxi Xia, Kilm Zaporojets, Benjamin Roth,
- Abstract要約: 我々は、既存のブラックボックスモデルから勝者を選ぶことを学ぶデータ効率で軽量なアンサンブル手法であるInfoSelを紹介する。
我々は,F1スコアにおいて,スタンドアローンLLMと比較して,最大5.27%の絶対的な増加を実現していることを示す。
- 参考スコア(独自算出の注目度): 2.1439084103679273
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A diverse range of large language models (LLMs), e.g., ChatGPT, and visual question answering (VQA) models, e.g., BLIP, have been developed for solving textual and visual question answering tasks. However, both LLMs and VQA models encounter challenges when applied to task-specific datasets. Fine-tuning these models is either difficult, as it requires access via APIs, rendering them as black-boxes, or costly due to the need of tuning a large number of parameters. To address this, we introduce InfoSel, a data-efficient and lightweight ensemble method that learns to dynamically pick the winner from existing black-box models for predictions on both textual and multimodal visual question answering tasks. Unlike traditional ensemble models, InfoSel does not rely on prediction probabilities or confidences, which typically are not available in black-box models. Experimental results on four datasets demonstrate that our approach achieves an absolute increase of up to +5.27% in the F1-score compared to standalone LLMs. Remarkably, this improvement is achieved by utilizing only 1K training instances and 110M model parameters for training task-specific ensemble models.
- Abstract(参考訳): 大規模言語モデル(LLM)、例えば、ChatGPT(英語版)、VQA(英語版)モデル(例えば、BLIP)は、テキストおよび視覚的質問応答タスクを解決するために開発された。
しかしながら、LLMとVQAモデルの両方は、タスク固有のデータセットに適用する際の課題に直面する。
これらのモデルを微調整することは、API経由のアクセスを必要とするか、ブラックボックスとしてレンダリングする必要があるか、あるいは多数のパラメータをチューニングする必要があるため、コストがかかる。
そこで本稿では,既存のブラックボックスモデルから勝者を動的に選別し,テキストおよびマルチモーダルな視覚的質問応答タスクの予測を行うデータ効率・軽量アンサンブル手法であるInfoSelを紹介する。
従来のアンサンブルモデルとは異なり、InfoSelは予測確率や信頼性に依存しておらず、通常はブラックボックスモデルでは利用できない。
4つのデータセットによる実験結果から,F1スコアはスタンドアローンのLCMに比べて最大5.27%向上することがわかった。
注目すべきは、タスク固有のアンサンブルモデルをトレーニングするために、1Kトレーニングインスタンスと110Mモデルパラメータのみを活用することで、この改善が達成されることだ。
関連論文リスト
- Predicting the Performance of Black-box LLMs through Self-Queries [60.87193950962585]
大規模言語モデル(LLM)は、AIシステムにおいてますます頼りになってきている。
本稿では、フォローアッププロンプトを使用し、異なる応答の確率を表現として捉え、ブラックボックス方式でLCMの特徴を抽出する。
これらの低次元表現上で線形モデルをトレーニングすると、インスタンスレベルでのモデル性能の信頼性を予測できることを示す。
論文 参考訳(メタデータ) (2025-01-02T22:26:54Z) - DREAM: Domain-agnostic Reverse Engineering Attributes of Black-box Model [50.94236887900527]
対象モデルのトレーニングデータセットの可用性を必要とせずに,ブラックボックスリバースエンジニアリングの新たな問題を提案する。
対象のブラックボックスモデルの属性を未知のトレーニングデータで推測するために,ドメインに依存しないメタモデルを学ぶ。
論文 参考訳(メタデータ) (2024-12-08T07:37:05Z) - UnIVAL: Unified Model for Image, Video, Audio and Language Tasks [105.77733287326308]
UnIVALモデルは2つのモードを超えて、テキスト、画像、ビデオ、オーディオを1つのモデルに統合する。
本モデルは,タスクバランスとマルチモーダルカリキュラム学習に基づいて,多くのタスクに対して効率的に事前学習を行う。
統一モデルにより、重み一般化によるマルチモーダルモデルの融合に関する新しい研究を提案する。
論文 参考訳(メタデータ) (2023-07-30T09:48:36Z) - Retrieving-to-Answer: Zero-Shot Video Question Answering with Frozen
Large Language Models [69.59125732317972]
本稿では,ビデオQAのためのシンプルで効果的な検索・回答(R2A)フレームワークを提案する。
R2Aは、まず、事前訓練されたマルチモーダルモデルを用いて、ジェネリックテキストコーパスから意味論的に類似したテキストの集合を検索する。
質問と検索されたテキストの両方で、LSMを直接使用して、望ましい回答を得ることができる。
論文 参考訳(メタデータ) (2023-06-15T20:56:20Z) - Enhancing Black-Box Few-Shot Text Classification with Prompt-Based Data
Augmentation [42.05617728412819]
大規模言語モデルの勾配にアクセスすることなく、少数ショットのテキスト分類を最適化する方法を示す。
我々のアプローチはBT-Classifierと呼ばれ、最先端のブラックボックス学習者よりもはるかに優れています。
論文 参考訳(メタデータ) (2023-05-23T07:54:34Z) - Zero-Shot Video Question Answering via Frozen Bidirectional Language
Models [89.71617065426146]
ビデオ質問応答(Video QA)は、訓練に多様なマルチモーダルデータを必要とする複雑なタスクである。
近年の手法では,手動による視覚的質問応答を伴わないゼロショット設定が検討されている。
我々は,凍結自己回帰言語モデル (BiLM) 上に構築し,この手法がゼロショットビデオQAに対してより強力で安価な代替手段を提供することを示す。
論文 参考訳(メタデータ) (2022-06-16T13:18:20Z) - Visualising Deep Network's Time-Series Representations [93.73198973454944]
機械学習モデルの普及にもかかわらず、多くの場合、モデルの内部で起きていることに関する洞察のないブラックボックスとして運用される。
本稿では,多次元時系列データの可視化に着目し,この問題に対処する手法を提案する。
高周波在庫市場データセットの実験は、この方法が迅速かつ識別可能な可視化を提供することを示しています。
論文 参考訳(メタデータ) (2021-03-12T09:53:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。