論文の概要: Data augmentation techniques for the Video Question Answering task
- arxiv url: http://arxiv.org/abs/2008.09849v1
- Date: Sat, 22 Aug 2020 14:34:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 08:14:27.702304
- Title: Data augmentation techniques for the Video Question Answering task
- Title(参考訳): ビデオ質問応答タスクのためのデータ拡張技術
- Authors: Alex Falcon, Oswald Lanz, Giuseppe Serra
- Abstract要約: われわれは、Egocentric VideoQAタスクに重点を置いている。
サイズが小さいため、モデルはすぐにオーバーフィットする傾向にある。
提案手法は,検討されたベースラインに対して,最終的な精度を+5.5%向上させるものである。
- 参考スコア(独自算出の注目度): 16.548016892117083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Question Answering (VideoQA) is a task that requires a model to analyze
and understand both the visual content given by the input video and the textual
part given by the question, and the interaction between them in order to
produce a meaningful answer. In our work we focus on the Egocentric VideoQA
task, which exploits first-person videos, because of the importance of such
task which can have impact on many different fields, such as those pertaining
the social assistance and the industrial training. Recently, an Egocentric
VideoQA dataset, called EgoVQA, has been released. Given its small size, models
tend to overfit quickly. To alleviate this problem, we propose several
augmentation techniques which give us a +5.5% improvement on the final accuracy
over the considered baseline.
- Abstract(参考訳): ビデオ質問応答 (video question answering, videoqa) は、入力されたビデオが与える視覚コンテンツと、質問が与えるテキスト的部分の両方を分析し理解し、それらの間の対話によって意味のある回答を生成するためのモデルを必要とするタスクである。
本研究は,社会支援や産業訓練など,様々な分野に影響を及ぼす可能性のある課題の重要性から,一対一の映像を活用するエゴセントリックビデオQAタスクに焦点をあてる。
最近、EgoVQAと呼ばれるEgocentric VideoQAデータセットがリリースされた。
サイズが小さいため、モデルはすぐにオーバーフィットする傾向にある。
この問題を軽減するために,検討されたベースラインに対する最終的な精度を5.5%向上させる拡張手法を提案する。
関連論文リスト
- VQA$^2$: Visual Question Answering for Video Quality Assessment [76.81110038738699]
ビデオ品質アセスメント(VQA)は、低レベルの視覚知覚において古典的な分野である。
画像領域における最近の研究は、視覚質問応答(VQA)が視覚的品質を著しく低レベルに評価できることを示した。
VQA2インストラクションデータセットは,ビデオ品質評価に焦点をあてた最初の視覚的質問応答インストラクションデータセットである。
VQA2シリーズは、ビデオにおける空間的時間的品質の詳細の知覚を高めるために、視覚的および運動的トークンをインターリーブする。
論文 参考訳(メタデータ) (2024-11-06T09:39:52Z) - MM-Ego: Towards Building Egocentric Multimodal LLMs [72.47344411599322]
本研究の目的は,エゴセントリックな映像理解のためのマルチモーダル基盤モデルの構築である。
我々は,人間による注釈付きデータに基づいて,30秒から1時間に及ぶエゴセントリックビデオの高品質なQAサンプルを効率よく生成するデータエンジンを開発した。
我々は、629の動画と7,026の質問でエゴセントリックなQAベンチマークを作成し、様々な長さのビデオで視覚的詳細を認識・記憶するモデルの能力を評価する。
論文 参考訳(メタデータ) (2024-10-09T17:59:59Z) - Grounded Question-Answering in Long Egocentric Videos [39.281013854331285]
長い、エゴセントリックなビデオで、個人やロボットが自分の過去の視覚的体験について尋ねることができる。
このタスクは、広範囲なビデオコンテンツ内での時間的グラウンドクエリの複雑さを含む、ユニークな課題を提示する。
提案手法は,クエリグラウンディングと応答を統一モデルに統合することにより,誤りの伝播を低減することで,これらの課題に対処する。
論文 参考訳(メタデータ) (2023-12-11T16:31:55Z) - TG-VQA: Ternary Game of Video Question Answering [33.180788803602084]
ビデオ質問応答は、その中のアライメントセマンティクスを推論することで、ビデオコンテンツに関する質問に答えることを目的としている。
本研究では,特定のインタラクション戦略を持つ複数のプレイヤー間の複雑な関係をシミュレートするゲーム理論を革新的に活用する。
具体的には,ビデオQA固有のインタラクション戦略を慎重に設計し,ラベルに重きを置くことなく,微粒な視覚言語アライメントラベルを数学的に生成することができる。
論文 参考訳(メタデータ) (2023-05-17T08:42:53Z) - Contrastive Video Question Answering via Video Graph Transformer [184.3679515511028]
本稿では,ビデオグラフ変換モデル(CoVGT)を提案する。
CoVGTの特異性と優越性は3倍である。
我々は,CoVGTが従来のビデオ推論タスクよりもはるかに優れたパフォーマンスが得られることを示す。
論文 参考訳(メタデータ) (2023-02-27T11:09:13Z) - EgoTaskQA: Understanding Human Tasks in Egocentric Videos [89.9573084127155]
EgoTaskQAベンチマークは、現実世界のエゴセントリックなビデオに対する質問回答を通じて、タスク理解の重要な次元を提供する。
我々は,(1)行動依存と効果,(2)意図と目標,(3)エージェントの他者に対する信念の理解を念頭に設計する。
我々は、我々のベンチマークで最先端のビデオ推論モデルを評価し、複雑なゴール指向のエゴセントリックなビデオを理解する上で、人間の間に大きなギャップがあることを示します。
論文 参考訳(メタデータ) (2022-10-08T05:49:05Z) - Video Question Answering with Iterative Video-Text Co-Tokenization [77.66445727743508]
本稿では,ビデオ質問応答のための新しいマルチストリームビデオエンコーダを提案する。
実験により,MSRVTT-QA,MSVD-QA,IVQAなどの複数のデータセットでモデルを評価する。
本稿では,必要なGFLOPを150-360から67に削減し,高効率なビデオ質問応答モデルを構築した。
論文 参考訳(メタデータ) (2022-08-01T15:35:38Z) - Video Question Answering: Datasets, Algorithms and Challenges [99.9179674610955]
Video Question Answering (VideoQA) は、与えられたビデオに応じて自然言語の質問に答えることを目的としている。
本稿では、データセット、アルゴリズム、ユニークな課題に焦点を当てた、ビデオQAの明確な分類と包括的分析を提供する。
論文 参考訳(メタデータ) (2022-03-02T16:34:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。