論文の概要: Retrieving-to-Answer: Zero-Shot Video Question Answering with Frozen
Large Language Models
- arxiv url: http://arxiv.org/abs/2306.11732v1
- Date: Thu, 15 Jun 2023 20:56:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-26 01:20:27.534855
- Title: Retrieving-to-Answer: Zero-Shot Video Question Answering with Frozen
Large Language Models
- Title(参考訳): 検索から回答へ:凍結大言語モデルを用いたゼロショットビデオ質問応答
- Authors: Junting Pan, Ziyi Lin, Yuying Ge, Xiatian Zhu, Renrui Zhang, Yi Wang,
Yu Qiao, Hongsheng Li
- Abstract要約: 本稿では,ビデオQAのためのシンプルで効果的な検索・回答(R2A)フレームワークを提案する。
R2Aは、まず、事前訓練されたマルチモーダルモデルを用いて、ジェネリックテキストコーパスから意味論的に類似したテキストの集合を検索する。
質問と検索されたテキストの両方で、LSMを直接使用して、望ましい回答を得ることができる。
- 参考スコア(独自算出の注目度): 69.59125732317972
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video Question Answering (VideoQA) has been significantly advanced from the
scaling of recent Large Language Models (LLMs). The key idea is to convert the
visual information into the language feature space so that the capacity of LLMs
can be fully exploited. Existing VideoQA methods typically take two paradigms:
(1) learning cross-modal alignment, and (2) using an off-the-shelf captioning
model to describe the visual data. However, the first design needs costly
training on many extra multi-modal data, whilst the second is further limited
by limited domain generalization. To address these limitations, a simple yet
effective Retrieving-to-Answer (R2A) framework is proposed.Given an input
video, R2A first retrieves a set of semantically similar texts from a generic
text corpus using a pre-trained multi-modal model (e.g., CLIP). With both the
question and the retrieved texts, a LLM (e.g., DeBERTa) can be directly used to
yield a desired answer. Without the need for cross-modal fine-tuning, R2A
allows for all the key components (e.g., LLM, retrieval model, and text corpus)
to plug-and-play. Extensive experiments on several VideoQA benchmarks show that
despite with 1.3B parameters and no fine-tuning, our R2A can outperform the 61
times larger Flamingo-80B model even additionally trained on nearly 2.1B
multi-modal data.
- Abstract(参考訳): Video Question Answering (ビデオQA) は近年のLarge Language Models (LLM) のスケーリングから大きく進歩している。
鍵となるアイデアは、視覚情報を言語の特徴空間に変換することで、LLMの能力を完全に活用できるようにすることである。
既存のビデオqa手法では,(1)クロスモーダルアライメントの学習,(2)既定キャプションモデルによる視覚データ記述,の2つのパラダイムが採用されている。
しかしながら、最初の設計では、多くの余分なマルチモーダルデータに対するコストのかかるトレーニングが必要である。
これらの制限に対処するため、R2Aフレームワークが提案され、R2Aはまず、事前訓練されたマルチモーダルモデル(例えば、CLIP)を使用して、ジェネリックテキストコーパスから意味的に類似したテキストの集合を検索する。
質問と検索されたテキストの両方で、LSM(例:DeBERTa)を直接使用して、望ましい回答を得ることができる。
クロスモーダルな微調整を必要としないため、R2Aはすべてのキーコンポーネント(LLM、検索モデル、テキストコーパスなど)をプラグイン&プレイできる。
いくつかのvideoqaベンチマークでの広範な実験では、1.3bのパラメータと微調整がないにもかかわらず、我々のr2aは2.1bのマルチモーダルデータでさらに訓練されたフラミンゴ80bモデルよりも61倍大きい。
関連論文リスト
- MuRAG: Multimodal Retrieval-Augmented Generator for Open Question
Answering over Images and Text [58.655375327681774]
我々は,Multimodal Retrieval-Augmented Transformer (MuRAG)を提案する。
MuRAGは外部の非パラメトリックマルチモーダルメモリにアクセスして言語生成を増強する。
以上の結果から, MuRAGは最先端の精度を達成し, 既存のモデルよりも10~20%精度が高いことがわかった。
論文 参考訳(メタデータ) (2022-10-06T13:58:03Z) - Zero-Shot Video Question Answering via Frozen Bidirectional Language
Models [89.71617065426146]
ビデオ質問応答(Video QA)は、訓練に多様なマルチモーダルデータを必要とする複雑なタスクである。
近年の手法では,手動による視覚的質問応答を伴わないゼロショット設定が検討されている。
我々は,凍結自己回帰言語モデル (BiLM) 上に構築し,この手法がゼロショットビデオQAに対してより強力で安価な代替手段を提供することを示す。
論文 参考訳(メタデータ) (2022-06-16T13:18:20Z) - Towards Fast Adaptation of Pretrained Contrastive Models for
Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。
対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。
これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文 参考訳(メタデータ) (2022-06-05T01:43:52Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z) - HERO: Hierarchical Encoder for Video+Language Omni-representation
Pre-training [75.55823420847759]
本稿では,大規模ビデオ+言語オムニ表現学習のための新しいフレームワークHEROを提案する。
HEROは階層構造でマルチモーダル入力を符号化し、ビデオフレームのローカルコンテキストをクロスモーダル変換器でキャプチャする。
HEROはHowTo100Mと大規模TVデータセットを共同でトレーニングし、マルチキャラクタインタラクションによる複雑な社会的ダイナミクスの理解を深める。
論文 参考訳(メタデータ) (2020-05-01T03:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。