論文の概要: Black-box Model Ensembling for Textual and Visual Question Answering via Information Fusion
- arxiv url: http://arxiv.org/abs/2407.12841v2
- Date: Tue, 17 Dec 2024 13:31:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:56:14.854763
- Title: Black-box Model Ensembling for Textual and Visual Question Answering via Information Fusion
- Title(参考訳): 情報融合によるテキストおよび視覚質問応答のためのブラックボックスモデル
- Authors: Yuxi Xia, Kilm Zaporojets, Benjamin Roth,
- Abstract要約: 予測のために既存のブラックボックスモデルから勝者を選ぶことを学ぶデータ効率のよいアンサンブル手法であるInfoSelを紹介する。
従来のアンサンブルモデルとは異なり、InfoSelは予測確率や信頼性に依存しておらず、通常はブラックボックスモデルでは利用できない。
- 参考スコア(独自算出の注目度): 2.1439084103679273
- License:
- Abstract: A diverse range of large language models (LLMs), e.g., ChatGPT, and visual question answering (VQA) models, e.g., BLIP, have been developed for solving textual and visual question answering tasks. However, fine-tuning these models is either difficult, as it requires access via APIs, rendering them as black-boxes, or costly due to the need of tuning a large number of parameters. To address this, we introduce InfoSel, a data-efficient ensemble method that learns to dynamically pick the winner from existing black-box models for predictions on both textual and multimodal visual question answering tasks. Unlike traditional ensemble models, InfoSel does not rely on prediction probabilities or confidences, which typically are not available in black-box models. Experimental results on four datasets demonstrate that our approach achieves an absolute increase of up to +5.19\% in the F1-score compared to standalone LLMs using only 1K training instances.
- Abstract(参考訳): 大規模言語モデル(LLM)、例えば、ChatGPT(英語版)、VQA(英語版)モデル(例えば、BLIP)は、テキストおよび視覚的質問応答タスクを解決するために開発された。
しかし、これらのモデルの微調整は、API経由のアクセスを必要とするか、ブラックボックスとしてレンダリングする必要があるか、あるいは多数のパラメータをチューニングする必要があるため、コストがかかるため、難しい。
そこで本稿では,既存のブラックボックスモデルから勝者を動的に選別し,テキストとマルチモーダルの視覚的質問応答タスクの予測を行うデータ効率向上手法であるInfoSelを紹介する。
従来のアンサンブルモデルとは異なり、InfoSelは予測確率や信頼性に依存しておらず、通常はブラックボックスモデルでは利用できない。
4つのデータセットによる実験結果から,F1スコアの最大5.19倍の絶対的な増加が得られた。
関連論文リスト
- Predicting the Performance of Black-box LLMs through Self-Queries [60.87193950962585]
大規模言語モデル(LLM)は、AIシステムにおいてますます頼りになってきている。
本稿では、フォローアッププロンプトを使用し、異なる応答の確率を表現として捉え、ブラックボックス方式でLCMの特徴を抽出する。
これらの低次元表現上で線形モデルをトレーニングすると、インスタンスレベルでのモデル性能の信頼性を予測できることを示す。
論文 参考訳(メタデータ) (2025-01-02T22:26:54Z) - DREAM: Domain-agnostic Reverse Engineering Attributes of Black-box Model [50.94236887900527]
対象モデルのトレーニングデータセットの可用性を必要とせずに,ブラックボックスリバースエンジニアリングの新たな問題を提案する。
対象のブラックボックスモデルの属性を未知のトレーニングデータで推測するために,ドメインに依存しないメタモデルを学ぶ。
論文 参考訳(メタデータ) (2024-12-08T07:37:05Z) - UnIVAL: Unified Model for Image, Video, Audio and Language Tasks [105.77733287326308]
UnIVALモデルは2つのモードを超えて、テキスト、画像、ビデオ、オーディオを1つのモデルに統合する。
本モデルは,タスクバランスとマルチモーダルカリキュラム学習に基づいて,多くのタスクに対して効率的に事前学習を行う。
統一モデルにより、重み一般化によるマルチモーダルモデルの融合に関する新しい研究を提案する。
論文 参考訳(メタデータ) (2023-07-30T09:48:36Z) - Retrieving-to-Answer: Zero-Shot Video Question Answering with Frozen
Large Language Models [69.59125732317972]
本稿では,ビデオQAのためのシンプルで効果的な検索・回答(R2A)フレームワークを提案する。
R2Aは、まず、事前訓練されたマルチモーダルモデルを用いて、ジェネリックテキストコーパスから意味論的に類似したテキストの集合を検索する。
質問と検索されたテキストの両方で、LSMを直接使用して、望ましい回答を得ることができる。
論文 参考訳(メタデータ) (2023-06-15T20:56:20Z) - Enhancing Black-Box Few-Shot Text Classification with Prompt-Based Data
Augmentation [42.05617728412819]
大規模言語モデルの勾配にアクセスすることなく、少数ショットのテキスト分類を最適化する方法を示す。
我々のアプローチはBT-Classifierと呼ばれ、最先端のブラックボックス学習者よりもはるかに優れています。
論文 参考訳(メタデータ) (2023-05-23T07:54:34Z) - Zero-Shot Video Question Answering via Frozen Bidirectional Language
Models [89.71617065426146]
ビデオ質問応答(Video QA)は、訓練に多様なマルチモーダルデータを必要とする複雑なタスクである。
近年の手法では,手動による視覚的質問応答を伴わないゼロショット設定が検討されている。
我々は,凍結自己回帰言語モデル (BiLM) 上に構築し,この手法がゼロショットビデオQAに対してより強力で安価な代替手段を提供することを示す。
論文 参考訳(メタデータ) (2022-06-16T13:18:20Z) - Visualising Deep Network's Time-Series Representations [93.73198973454944]
機械学習モデルの普及にもかかわらず、多くの場合、モデルの内部で起きていることに関する洞察のないブラックボックスとして運用される。
本稿では,多次元時系列データの可視化に着目し,この問題に対処する手法を提案する。
高周波在庫市場データセットの実験は、この方法が迅速かつ識別可能な可視化を提供することを示しています。
論文 参考訳(メタデータ) (2021-03-12T09:53:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。