論文の概要: Video in 10 Bits: Few-Bit VideoQA for Efficiency and Privacy
- arxiv url: http://arxiv.org/abs/2210.08391v2
- Date: Tue, 18 Oct 2022 00:52:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 10:45:25.407609
- Title: Video in 10 Bits: Few-Bit VideoQA for Efficiency and Privacy
- Title(参考訳): 10ビットのビデオ: 効率とプライバシーのためのビデオQA
- Authors: Shiyuan Huang, Robinson Piramuthu, Shih-Fu Chang, Gunnar A. Sigurdsson
- Abstract要約: Video Question Answering (VideoQA)では、ビデオに関する一般的な質問に答えるには、その視覚的情報が必要である。
本稿では,ビデオQAを行うために必要なビット数について検討する。
本稿では,この問題を解決するために,単純かつ効果的なタスク固有特徴圧縮手法を提案する。
- 参考スコア(独自算出の注目度): 35.61457256431635
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In Video Question Answering (VideoQA), answering general questions about a
video requires its visual information. Yet, video often contains redundant
information irrelevant to the VideoQA task. For example, if the task is only to
answer questions similar to "Is someone laughing in the video?", then all other
information can be discarded. This paper investigates how many bits are really
needed from the video in order to do VideoQA by introducing a novel Few-Bit
VideoQA problem, where the goal is to accomplish VideoQA with few bits of video
information (e.g., 10 bits). We propose a simple yet effective task-specific
feature compression approach to solve this problem. Specifically, we insert a
lightweight Feature Compression Module (FeatComp) into a VideoQA model which
learns to extract task-specific tiny features as little as 10 bits, which are
optimal for answering certain types of questions. We demonstrate more than
100,000-fold storage efficiency over MPEG4-encoded videos and 1,000-fold over
regular floating point features, with just 2.0-6.6% absolute loss in accuracy,
which is a surprising and novel finding. Finally, we analyze what the learned
tiny features capture and demonstrate that they have eliminated most of the
non-task-specific information, and introduce a Bit Activation Map to visualize
what information is being stored. This decreases the privacy risk of data by
providing k-anonymity and robustness to feature-inversion techniques, which can
influence the machine learning community, allowing us to store data with
privacy guarantees while still performing the task effectively.
- Abstract(参考訳): Video Question Answering (VideoQA)では、ビデオに関する一般的な質問に答えるには、その視覚的情報が必要である。
しかし、ビデオQAタスクとは関係なく、ビデオには冗長な情報が含まれることが多い。
例えば、タスクが"ビデオの中で誰かが笑っているか"のような質問に答えるだけなら、他のすべての情報は破棄できる。
本稿では,ビデオ情報の少ないビット(例えば10ビット)でビデオqaを実現することを目的とした,新たな数ビットビデオqa問題を導入することで,ビデオqaを行うために必要なビット数について検討する。
この問題を解決するために,タスク固有の特徴圧縮手法を提案する。
具体的には、タスク固有の小さな機能を10ビット以内で抽出することを学ぶビデオQAモデルにFeatComp(FeatComp)を挿入し、ある種の疑問に答えるのに最適である。
我々はMPEG4エンコードされたビデオよりも10,000倍以上のストレージ効率と,通常の浮動小数点関数よりも1,000倍のストレージ効率を実証した。
最後に、学習した小さな特徴を解析し、タスク固有の情報の大半を排除できることを実証し、どのような情報が保存されているかを視覚化するビットアクティベーションマップを導入する。
これにより、マシンラーニングコミュニティに影響を与える可能性のある機能インバージョン技術に対して、k匿名性と堅牢性を提供することによって、データのプライバシリスクが低減される。
関連論文リスト
- Vript: A Video Is Worth Thousands of Words [54.815686588378156]
Vriptは12Kの高解像度ビデオの注釈付きコーパスで、420Kのクリップで詳細な、密度の高い、スクリプトのようなキャプションを提供する。
各クリップには145ワードのキャプションがあり、ほとんどのビデオテキストデータセットの10倍以上の長さである。
Vriptは、長いビデオのための高密度で詳細なキャプションをエンドツーエンドに生成できる強力なモデルである。
論文 参考訳(メタデータ) (2024-06-10T06:17:55Z) - Spatio-temporal Prompting Network for Robust Video Feature Extraction [74.54597668310707]
フレームテンポラリ(Frametemporal)は、ビデオ理解の分野における大きな課題の1つだ。
最近のアプローチでは、トランスフォーマーベースの統合モジュールを活用して、時間的品質情報を得る。
N-Temporal Prompting Network (NNSTP) という,クリーンで統一されたフレームワークを提案する。
ネットワークバックボーン内の入力特徴を調整することで,映像特徴の抽出を効率的に行うことができる。
論文 参考訳(メタデータ) (2024-02-04T17:52:04Z) - Video Infringement Detection via Feature Disentanglement and Mutual
Information Maximization [51.206398602941405]
本稿では,元の高次元特徴を複数のサブ機能に分解することを提案する。
歪んだサブ機能の上に,サブ機能を強化する補助的特徴を学習する。
提案手法は,大規模SVDデータセット上で90.1%のTOP-100 mAPを達成し,VCSLベンチマークデータセット上で新たな最先端を設定できる。
論文 参考訳(メタデータ) (2023-09-13T10:53:12Z) - Video Question Answering with Iterative Video-Text Co-Tokenization [77.66445727743508]
本稿では,ビデオ質問応答のための新しいマルチストリームビデオエンコーダを提案する。
実験により,MSRVTT-QA,MSVD-QA,IVQAなどの複数のデータセットでモデルを評価する。
本稿では,必要なGFLOPを150-360から67に削減し,高効率なビデオ質問応答モデルを構築した。
論文 参考訳(メタデータ) (2022-08-01T15:35:38Z) - Few-Shot Learning for Video Object Detection in a Transfer-Learning
Scheme [70.45901040613015]
ビデオ物体検出のための数発学習の新たな課題について検討する。
我々は,多数のベースクラスオブジェクトに対して映像物体検出を効果的に訓練するトランスファー学習フレームワークと,ノベルクラスオブジェクトのいくつかのビデオクリップを用いる。
論文 参考訳(メタデータ) (2021-03-26T20:37:55Z) - Encode the Unseen: Predictive Video Hashing for Scalable Mid-Stream
Retrieval [12.17757623963458]
本稿では,コンピュータビジョンの新たな課題である中流動画検索に挑戦する。
本稿では、現在再生されているビデオの、目に見えない未来のコンテンツを推測する最初のハッシュフレームワークを提案する。
また本手法では,本手法の文献に適合したベースラインと比較して,mAP@20の性能が著しく向上する。
論文 参考訳(メタデータ) (2020-09-30T13:25:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。