論文の概要: AssistSR: Affordance-centric Question-driven Video Segment Retrieval
- arxiv url: http://arxiv.org/abs/2111.15050v1
- Date: Tue, 30 Nov 2021 01:14:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-01 15:12:14.402384
- Title: AssistSR: Affordance-centric Question-driven Video Segment Retrieval
- Title(参考訳): AssistSR: Affordance中心の質問駆動ビデオセグメント検索
- Authors: Stan Weixian Lei, Yuxuan Wang, Dongxing Mao, Difei Gao, Mike Zheng
Shou
- Abstract要約: AQVSR(Affordance-centric Question-driven Video Segment Retrieval)
AQVSR(Affordance-centric Question-driven Video Segment Retrieval)と呼ばれる新しいタスクを提案する。
- 参考スコア(独自算出の注目度): 4.047098915826058
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: It is still a pipe dream that AI assistants on phone and AR glasses can
assist our daily life in addressing our questions like "how to adjust the date
for this watch?" and "how to set its heating duration? (while pointing at an
oven)". The queries used in conventional tasks (i.e. Video Question Answering,
Video Retrieval, Moment Localization) are often factoid and based on pure text.
In contrast, we present a new task called Affordance-centric Question-driven
Video Segment Retrieval (AQVSR). Each of our questions is an image-box-text
query that focuses on affordance of items in our daily life and expects
relevant answer segments to be retrieved from a corpus of instructional
video-transcript segments. To support the study of this AQVSR task, we
construct a new dataset called AssistSR. We design novel guidelines to create
high-quality samples. This dataset contains 1.4k multimodal questions on 1k
video segments from instructional videos on diverse daily-used items. To
address AQVSR, we develop a straightforward yet effective model called Dual
Multimodal Encoders (DME) that significantly outperforms several baseline
methods while still having large room for improvement in the future. Moreover,
we present detailed ablation analyses. Our codes and data are available at
https://github.com/StanLei52/AQVSR.
- Abstract(参考訳): スマートフォンやARメガネのAIアシスタントが,“この時計の日付を調整する方法?”や“加熱期間を設定する方法?(オーブンを指さしながら)”といった質問に対して,私たちの日常生活を支援することは,依然としてパイプの夢なのです。
従来のタスク(ビデオ質問回答、ビデオ検索、モーメントローカライゼーション)で使用されるクエリは、しばしばファクトイドであり、純粋なテキストに基づいている。
対照的に、AQVSR(Affordance-centric Question-driven Video Segment Retrieval)と呼ばれる新しいタスクを提案する。
それぞれの質問はイメージボックス・テキスト・クエリであり、日々の生活におけるアイテムの余裕に焦点を合わせ、関連する回答セグメントを教育ビデオ転写セグメントのコーパスから検索することを期待している。
このAQVSRタスクの研究を支援するために、AssistSRと呼ばれる新しいデータセットを構築した。
高品質なサンプルを作成するための新しいガイドラインを設計する。
このデータセットは、1kビデオセグメントの1.4kのマルチモーダル質問を含む。
aqvsrに対処するために、我々はdme(dual multimodal encoder)と呼ばれる単純で効果的なモデルを開発しました。
さらに, 詳細なアブレーション解析を行った。
私たちのコードとデータはhttps://github.com/stanlei52/aqvsrで入手できます。
関連論文リスト
- Towards Video Anomaly Retrieval from Video Anomaly Detection: New
Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。
Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。
一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文 参考訳(メタデータ) (2023-07-24T06:22:37Z) - Locate before Answering: Answer Guided Question Localization for Video
Question Answering [70.38700123685143]
LocAnsは質問ロケータと回答予測器をエンドツーエンドモデルに統合する。
最新の2つのビデオQAデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-05T08:19:16Z) - QVHighlights: Detecting Moments and Highlights in Videos via Natural
Language Queries [89.24431389933703]
Query-based Video Highlights (QVHighlights) データセットを提示する。
これは1万本以上のYouTubeビデオで構成され、幅広いトピックをカバーしている。
データセット内の各ビデオには、(1)人書き自由形式のNLクエリ、(2)クエリに関するビデオw.r.t.の関連モーメント、(3)クエリに関連するすべてのクリップに対する5ポイントスケールのサリエンシスコアが注釈付けされている。
論文 参考訳(メタデータ) (2021-07-20T16:42:58Z) - VALUE: A Multi-Task Benchmark for Video-and-Language Understanding
Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。
大規模なVidL事前学習による各種ベースライン法の評価を行った。
我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文 参考訳(メタデータ) (2021-06-08T18:34:21Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z) - TVR: A Large-Scale Dataset for Video-Subtitle Moment Retrieval [111.93601253692165]
テレビ番組 Retrieval (TVR) は、新しいマルチモーダル検索データセットである。
TVRはビデオとそれに関連するサブタイトル(対話)のテキストの両方を理解する必要がある。
データセットには、さまざまなジャンルの6つのテレビ番組から21.8Kビデオで収集された109Kクエリが含まれている。
論文 参考訳(メタデータ) (2020-01-24T17:09:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。