論文の概要: Characterizing Video Question Answering with Sparsified Inputs
- arxiv url: http://arxiv.org/abs/2311.16311v1
- Date: Mon, 27 Nov 2023 21:00:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 21:03:05.472701
- Title: Characterizing Video Question Answering with Sparsified Inputs
- Title(参考訳): スパシファイド入力によるビデオ質問応答の特性評価
- Authors: Shiyuan Huang, Robinson Piramuthu, Vicente Ordonez, Shih-Fu Chang,
Gunnar A. Sigurdsson
- Abstract要約: 我々は、異なる入力間隔のタスクを特徴付け、それを行うためのツールを提供する。
具体的には、Gumbelベースの学習可能な選択モジュールを使用して、最終タスクに最適な入力を適応的に選択する。
実験の結果,5.2%~5.8%のパフォーマンス低下がみられ,ビデオの長さは10%に過ぎなかった。
- 参考スコア(独自算出の注目度): 55.7455981156755
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In Video Question Answering, videos are often processed as a full-length
sequence of frames to ensure minimal loss of information. Recent works have
demonstrated evidence that sparse video inputs are sufficient to maintain high
performance. However, they usually discuss the case of single frame selection.
In our work, we extend the setting to multiple number of inputs and other
modalities. We characterize the task with different input sparsity and provide
a tool for doing that. Specifically, we use a Gumbel-based learnable selection
module to adaptively select the best inputs for the final task. In this way, we
experiment over public VideoQA benchmarks and provide analysis on how
sparsified inputs affect the performance. From our experiments, we have
observed only 5.2%-5.8% loss of performance with only 10% of video lengths,
which corresponds to 2-4 frames selected from each video. Meanwhile, we also
observed the complimentary behaviour between visual and textual inputs, even
under highly sparsified settings, suggesting the potential of improving data
efficiency for video-and-language tasks.
- Abstract(参考訳): Video Question Answeringでは、ビデオはしばしば、情報の損失を最小限に抑えるために、フル長のフレームシーケンスとして処理される。
近年の研究では、疎ビデオ入力がハイパフォーマンスを維持するのに十分であることを示す。
しかし、通常は単一のフレーム選択の場合を議論する。
私たちの仕事では、設定を複数の入力や他のモダリティに拡張しています。
我々は、異なる入力空間でタスクを特徴付け、それを行うためのツールを提供する。
具体的には、gumbelベースの学習可能な選択モジュールを使用して、最終タスクの最適な入力を適応的に選択する。
このようにして、パブリックなVideoQAベンチマーク上で実験を行い、スペーサー化された入力がパフォーマンスに与える影響について分析する。
実験の結果,ビデオ長の10%で5.2%~5.8%のパフォーマンスが低下し,各ビデオから選択した2-4フレームに対応することがわかった。
また,視覚的入力とテキスト入力の相補的動作を高度に分散した設定でも観察し,映像・音声タスクにおけるデータ効率向上の可能性を示した。
関連論文リスト
- HAVANA: Hierarchical stochastic neighbor embedding for Accelerated Video ANnotAtions [59.71751978599567]
本稿では,時間的ビデオアノテーションプロセスの高速化のために,事前抽出した特徴量と次元減少量を用いた新しいアノテーションパイプラインを提案する。
従来のリニア手法と比較して,アノテーションの取り組みが大幅に改善され,12時間以上のビデオのアノテートに要するクリック数が10倍以上に短縮された。
論文 参考訳(メタデータ) (2024-09-16T18:15:38Z) - Causal Video Summarizer for Video Exploration [74.27487067877047]
Causal Video Summarizer (CVS) はビデオとクエリ間の対話的な情報をキャプチャするために提案されている。
既存のマルチモーダル映像要約データセットの評価から,提案手法が有効であることを示す実験結果が得られた。
論文 参考訳(メタデータ) (2023-07-04T22:52:16Z) - Deep Unsupervised Key Frame Extraction for Efficient Video
Classification [63.25852915237032]
本研究は、畳み込みニューラルネットワーク(CNN)と時間セグメント密度ピーククラスタリング(TSDPC)を組み合わせたキーフレームの検索方法を提案する。
提案した TSDPC は汎用的で強力なフレームワークであり,従来の研究に比べて2つの利点がある。
さらに、CNNの上部にLong Short-Term Memory Network (LSTM)を追加し、分類性能をさらに高める。
論文 参考訳(メタデータ) (2022-11-12T20:45:35Z) - Text-Driven Video Acceleration: A Weakly-Supervised Reinforcement
Learning Method [6.172652648945223]
本稿では,テキストを用いた指導ビデオの高速化を目的とした,弱教師付き手法を提案する。
新たな共同報酬関数がエージェントを誘導し、どのフレームから入力ビデオを取り除き、ターゲット長に減らすかを選択する。
また,高度に識別可能な埋め込み空間を生成可能な拡張視覚誘導型文書注意ネットワーク(VDAN+)を提案する。
論文 参考訳(メタデータ) (2022-03-29T17:43:01Z) - BridgeFormer: Bridging Video-text Retrieval with Multiple Choice
Questions [38.843518809230524]
我々は、Multiple Choice Questions (MCQ) と呼ばれる新しいプレテキストタスクを導入する。
BridgeFormerモジュールは、ビデオ機能に頼ってテキスト機能によって構築された"クエスト"に答えるように訓練されている。
質問や回答の形式では、ローカルなビデオテキストの特徴間の意味的関連を適切に確立することができる。
提案手法は,5つのデータセットにおいて,人気テキスト・ビデオ検索タスクにおける最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2022-01-13T09:33:54Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Beyond Short Clips: End-to-End Video-Level Learning with Collaborative
Memories [56.91664227337115]
本稿では,ビデオの複数のサンプルクリップにまたがる情報を,トレーニングイテレーション毎にエンコードするコラボレーティブメモリ機構を提案する。
これにより、単一のクリップ以上の長距離依存関係の学習が可能になる。
提案するフレームワークはエンドツーエンドでトレーニング可能で,計算オーバーヘッドが無視できないビデオ分類精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-02T18:59:09Z) - Self-supervised Video Representation Learning by Context and Motion
Decoupling [45.510042484456854]
自己教師付き映像表現学習における課題は、文脈バイアス以外に効果的な動き情報を捉える方法である。
注意深い前文タスクを通じて,文脈バイアスから動きの監督を明示的に分離する手法を開発した。
実験により,本手法は従来よりも学習ビデオの表現精度の向上を図っている。
論文 参考訳(メタデータ) (2021-04-02T02:47:34Z) - Straight to the Point: Fast-forwarding Videos via Reinforcement Learning
Using Textual Data [1.004766879203303]
本稿では,指導ビデオの高速化を目的とした強化学習の定式化に基づく新しい手法を提案する。
本手法では,最終映像のギャップを生じさせることなく,情報伝達に関係のないフレームを適応的に選択できる。
本稿では,VDAN(Visually-Guided Document Attention Network)と呼ばれる新しいネットワークを提案する。
論文 参考訳(メタデータ) (2020-03-31T14:07:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。