論文の概要: Trying Bilinear Pooling in Video-QA
- arxiv url: http://arxiv.org/abs/2012.10285v1
- Date: Fri, 18 Dec 2020 15:01:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-01 18:25:52.823791
- Title: Trying Bilinear Pooling in Video-QA
- Title(参考訳): ビデオQAにおけるバイリニアプールの試み
- Authors: Thomas Winterbottom, Sarah Xiao, Alistair McLean, Noura Al Moubayed
- Abstract要約: バイリニアプール(BLP)は、主にビデオ質問応答(ビデオQA)モデル用に開発された異なるモダリティの機能を融合するために最近開発された一連の操作を指します。
TVQA、TGIF-QA、Ego-VQA、MSVDQAなど、さまざまなビデオQAベンチマークにBLP技術を適用します。
比較的単純なBLPの統合は増加せず、主にビデオQAベンチマークのパフォーマンスに悪影響を及ぼす。
- 参考スコア(独自算出の注目度): 5.907086527706799
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Bilinear pooling (BLP) refers to a family of operations recently developed
for fusing features from different modalities predominantly developed for VQA
models. A bilinear (outer-product) expansion is thought to encourage models to
learn interactions between two feature spaces and has experimentally
outperformed `simpler' vector operations (concatenation and
element-wise-addition/multiplication) on VQA benchmarks. Successive BLP
techniques have yielded higher performance with lower computational expense and
are often implemented alongside attention mechanisms. However, despite
significant progress in VQA, BLP methods have not been widely applied to more
recently explored video question answering (video-QA) tasks. In this paper, we
begin to bridge this research gap by applying BLP techniques to various
video-QA benchmarks, namely: TVQA, TGIF-QA, Ego-VQA and MSVD-QA. We share our
results on the TVQA baseline model, and the recently proposed
heterogeneous-memory-enchanced multimodal attention (HME) model. Our
experiments include both simply replacing feature concatenation in the existing
models with BLP, and a modified version of the TVQA baseline to accommodate BLP
we name the `dual-stream' model. We find that our relatively simple integration
of BLP does not increase, and mostly harms, performance on these video-QA
benchmarks. Using recently proposed theoretical multimodal fusion taxonomies,
we offer insight into why BLP-driven performance gain for video-QA benchmarks
may be more difficult to achieve than in earlier VQA models. We suggest a few
additional `best-practices' to consider when applying BLP to video-QA. We
stress that video-QA models should carefully consider where the complex
representational potential from BLP is actually needed to avoid computational
expense on `redundant' fusion.
- Abstract(参考訳): BLP(Bilinear pooling)は、VQAモデルのために開発された様々なモードから特徴を融合させるために最近開発された演算系である。
双線型(外部積)拡張は、モデルが2つの特徴空間間の相互作用を学習することを奨励し、VQAベンチマーク上での'simpler'ベクトル演算(結合と要素ワイド付加/乗法)を実験的に上回ったと考えられている。
逐次的BLP技術は計算コストを下げて高い性能をもたらし、しばしば注意機構と共に実装されている。
しかしながら、VQAの大幅な進歩にもかかわらず、BLP法はより最近のビデオ質問応答(ビデオQA)タスクには広く適用されていない。
本稿では,この研究ギャップをTVQA, TGIF-QA, Ego-VQA, MSVD-QAといった様々なビデオQAベンチマークに適用することによって埋める。
我々は,tvqaベースラインモデルと,最近提案されているヘテロジニアスメモリ型マルチモーダルアテンション(hme)モデルについて結果を共有する。
我々の実験は、既存のモデルにおける特徴連結をBLPに置き換えることと、BLPに対応するためのTVQAベースラインの修正版「Dual-stream」モデルの両方を含む。
比較的単純なBLP統合では、これらのビデオQAベンチマークのパフォーマンスは向上せず、ほとんど損なわれない。
最近提案された理論的マルチモーダル融合分類法を用いて、ビデオQAベンチマークにおけるBLP駆動のパフォーマンス向上が、以前のVQAモデルよりも困難であることを示す。
ビデオQAにBLPを適用する際に考慮すべき「ベストプラクティス」をいくつか提案する。
我々は,ビデオQAモデルにおいて,「冗長」融合の計算コストを回避するために,BLPからの複雑な表現ポテンシャルが実際に必要となる場所を慎重に検討する必要があることを強調する。
関連論文リスト
- ReasVQA: Advancing VideoQA with Imperfect Reasoning Process [38.4638171723351]
textbfReasVQA (Reasoning-enhanced Video Question Answering) は、MLLM(Multimodal Large Language Models)が生成する推論プロセスを活用して、ビデオQAモデルの性能を向上させる新しい手法である。
NExT-QAでは+2.9、STARでは+7.3、IntentQAでは+5.9が大幅に改善された。
論文 参考訳(メタデータ) (2025-01-23T10:35:22Z) - An Empirical Comparison of LM-based Question and Answer Generation
Methods [79.31199020420827]
質問と回答の生成(QAG)は、コンテキストが与えられた質問と回答のペアのセットを生成することで構成される。
本稿では,シーケンス・ツー・シーケンス言語モデル(LM)を微調整する3つの異なるQAG手法を用いて,ベースラインを確立する。
実験により、学習時間と推論時間の両方で計算的に軽量なエンドツーエンドQAGモデルが一般に堅牢であり、他のより複雑なアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-26T14:59:53Z) - Toward Unsupervised Realistic Visual Question Answering [70.67698100148414]
現実的なVQA(RVQA)の問題について検討し、モデルが答えられない質問(UQ)を拒絶し、答えられる質問(AQ)に答えなければならない。
1)データセットには不整合UQが多すぎること,(2)多数の注釈付きUQがトレーニングに必要とされること,の2つの欠点を最初に指摘した。
我々は、既存のVQAデータセットのAQと約29万の人間の注釈付きUQを組み合わせた新しいテストデータセットRGQAを提案する。
これは、画像と質問をランダムにペアリングして得られる擬似UQと、それを結合する。
論文 参考訳(メタデータ) (2023-03-09T06:58:29Z) - PAQ: 65 Million Probably-Asked Questions and What You Can Do With Them [70.09741980324912]
問合せ(QA)ペアを直接活用するオープンドメイン問合せ解答モデルは、スピードとメモリの点で有望である。
PAQを補完する新しいQAペアレトリバー、RePAQを紹介します。
PAQはテスト質問をプリエンプションし、キャッシュするので、RePAQは最近の検索・読み取りモデルの精度と一致させることができる。
論文 参考訳(メタデータ) (2021-02-13T23:43:45Z) - UGC-VQA: Benchmarking Blind Video Quality Assessment for User Generated
Content [59.13821614689478]
コンテンツの品質劣化は予測不能で、複雑で、しばしば開始されるため、Wild動画のブラインド品質の予測は非常に難しい。
ここでは、主要なVQAモデルの包括的評価を行うことにより、この問題の進展に寄与する。
先行するVQAモデルの特徴の上に特徴選択戦略を適用することで,先行するモデルが使用する統計的特徴のうち60点を抽出することができる。
我々の実験結果から,VIDEVALは,他の先行モデルよりも計算コストがかなり低く,最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2020-05-29T00:39:20Z) - Harvesting and Refining Question-Answer Pairs for Unsupervised QA [95.9105154311491]
教師なし質問回答(QA)を改善するための2つのアプローチを提案する。
まず、ウィキペディアから語彙的・構文的に異なる質問を抽出し、質問応答対のコーパスを自動的に構築する(RefQAと名づけられる)。
第2に、より適切な回答を抽出するためにQAモデルを活用し、RefQA上でデータを反復的に洗練する。
論文 参考訳(メタデータ) (2020-05-06T15:56:06Z) - Template-Based Question Generation from Retrieved Sentences for Improved
Unsupervised Question Answering [98.48363619128108]
擬似学習データを用いてQAモデルを訓練するための教師なしアプローチを提案する。
関連した検索文に簡単なテンプレートを適用してQA学習のための質問を生成すると、元の文脈文よりも、下流QAのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2020-04-24T17:57:45Z) - Accuracy vs. Complexity: A Trade-off in Visual Question Answering Models [39.338304913058685]
本稿では,視覚質問応答タスクにおけるモデル複雑性と性能のトレードオフについて検討する。
VQAパイプラインの最も高価なステップであるVQAモデルにおける「マルチモーダル融合」の効果に焦点を当てる。
論文 参考訳(メタデータ) (2020-01-20T11:27:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。