論文の概要: NaQ: Leveraging Narrations as Queries to Supervise Episodic Memory
- arxiv url: http://arxiv.org/abs/2301.00746v1
- Date: Mon, 2 Jan 2023 16:40:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 15:20:02.275087
- Title: NaQ: Leveraging Narrations as Queries to Supervise Episodic Memory
- Title(参考訳): NaQ: エピソード記憶を監督するためのクエリとしてナレーションを活用する
- Authors: Santhosh Kumar Ramakrishnan, Ziad Al-Halah, Kristen Grauman
- Abstract要約: Narrations-as-Queries (NaQ)は、標準的なビデオテキストナレーションをビデオクエリのローカライゼーションモデルのためのトレーニングデータに変換するデータ拡張戦略である。
NaQが複数のトップモデルを大幅に改善(精度を2倍に)
また、ロングテールオブジェクトクエリのゲインや、ゼロショットおよび少数ショットNLQを実行する機能など、このアプローチのユニークな特性も示す。
- 参考スコア(独自算出の注目度): 92.98552727430483
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Searching long egocentric videos with natural language queries (NLQ) has
compelling applications in augmented reality and robotics, where a fluid index
into everything that a person (agent) has seen before could augment human
memory and surface relevant information on demand. However, the structured
nature of the learning problem (free-form text query inputs, localized video
temporal window outputs) and its needle-in-a-haystack nature makes it both
technically challenging and expensive to supervise. We introduce
Narrations-as-Queries (NaQ), a data augmentation strategy that transforms
standard video-text narrations into training data for a video query
localization model. Validating our idea on the Ego4D benchmark, we find it has
tremendous impact in practice. NaQ improves multiple top models by substantial
margins (even doubling their accuracy), and yields the very best results to
date on the Ego4D NLQ challenge, soundly outperforming all challenge winners in
the CVPR and ECCV 2022 competitions and topping the current public leaderboard.
Beyond achieving the state-of-the-art for NLQ, we also demonstrate unique
properties of our approach such as gains on long-tail object queries, and the
ability to perform zero-shot and few-shot NLQ.
- Abstract(参考訳): 自然言語クエリ(nlq: natural language query)で長いエゴセントリックなビデオを探すことは、拡張現実とロボティクスにおいて魅力的な応用だ。
しかし、学習問題(自由形式のテキストクエリ入力、ローカライズされたビデオ時間窓出力)の構造的性質と、そのニードル・イン・ア・ヘイスタックの性質は、技術的に困難かつ高価である。
ビデオクエリローカライズモデルのための標準ビデオテキストナレーションをトレーニングデータに変換するデータ拡張戦略であるnaq(narrations-as-queries)を提案する。
Ego4Dベンチマークで私たちのアイデアを検証すると、実際に非常に大きな影響を与えます。
NaQは複数のトップモデルを実質的なマージン(精度を倍増させる)で改善し、Ego4D NLQチャレンジでこれまでで最高の結果を得る。
NLQの最先端化に加えて、ロングテールオブジェクトクエリのゲインやゼロショットおよび少数ショットNLQの実行機能など、我々のアプローチのユニークな特性も示す。
関連論文リスト
- Grounded Question-Answering in Long Egocentric Videos [46.405314250324]
長い、エゴセントリックなビデオで、個人やロボットが自分の過去の視覚的体験について尋ねることができる。
このタスクは、広範囲なビデオコンテンツ内での時間的グラウンドクエリの複雑さを含む、ユニークな課題を提示する。
提案手法は, (i) クエリグラウンドディングと応答を統一モデルに統合し, エラー伝搬を低減すること, (ii) 大規模言語モデルを用いて効率的でスケーラブルなデータ合成を行うこと, (iii) 評価のためのクローズドなQAタスクを導入することにより, これらの課題に対処する。
論文 参考訳(メタデータ) (2023-12-11T16:31:55Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for
Vision-Language Models [66.37493420911979]
視覚言語モデル(LVLM)に入力がどのように提示されるかは、ゼロショットモデルの性能に大きな影響を与える可能性がある。
本稿では,LVLMをキャプタと推論器として用い,画像の健全な詳細を抽出するフレームワークであるRephrase, Augment and Reason(RepARe)を紹介する。
VQAv2ではRepAReが3.85%(絶対)増加し,A-OKVQAでは6.41%向上することを示した。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z) - QVHighlights: Detecting Moments and Highlights in Videos via Natural
Language Queries [89.24431389933703]
Query-based Video Highlights (QVHighlights) データセットを提示する。
これは1万本以上のYouTubeビデオで構成され、幅広いトピックをカバーしている。
データセット内の各ビデオには、(1)人書き自由形式のNLクエリ、(2)クエリに関するビデオw.r.t.の関連モーメント、(3)クエリに関連するすべてのクリップに対する5ポイントスケールのサリエンシスコアが注釈付けされている。
論文 参考訳(メタデータ) (2021-07-20T16:42:58Z) - HySTER: A Hybrid Spatio-Temporal Event Reasoner [75.41988728376081]
HySTER: ビデオ内の物理イベントを推論するためのハイブリッド時空間イベント推論器を紹介します。
タスク間を移動可能な一般的な時間的・因果的・物理的ルールに基づく手法を定義する。
この研究は、VideoQAの分野でのインダクティブロジックプログラミングの組み込みの基礎を設定します。
論文 参考訳(メタデータ) (2021-01-17T11:07:17Z) - Look Before you Speak: Visually Contextualized Utterances [88.58909442073858]
ビデオ中の発話を視覚的フレームと書き起こされた音声の両方を文脈として予測するタスクを作成する。
オンラインで多数の指導ビデオを活用することで、手動のアノテーションを必要とせずに、このタスクを大規模に解決するためのモデルを訓練する。
本モデルは,多数のダウンストリームビデオQAベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-12-10T14:47:02Z) - Co-attentional Transformers for Story-Based Video Understanding [24.211255523490692]
本稿では,ドラマなどの視覚的物語に見られる長期的依存関係をよりよく捉えるための,新しいコアテンショナルトランスフォーマーモデルを提案する。
我々は、最近導入されたDramaQAデータセットに、文字中心のビデオストーリー理解質問を特徴付けるアプローチを評価した。
論文 参考訳(メタデータ) (2020-10-27T07:17:09Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。