論文の概要: Commonsense for Zero-Shot Natural Language Video Localization
- arxiv url: http://arxiv.org/abs/2312.17429v2
- Date: Thu, 1 Feb 2024 01:39:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-02 18:53:32.025347
- Title: Commonsense for Zero-Shot Natural Language Video Localization
- Title(参考訳): ゼロショット自然言語ビデオローカライズのためのコモンセンス
- Authors: Meghana Holla, Ismini Lourentzou
- Abstract要約: ビデオと生成された擬似クエリ間のギャップを埋めるためにコモンセンスを利用するゼロショットNLVLフレームワークであるCORONETを提案する。
CORONETはゼロショットと弱教師付きベースラインを越え、様々なリコール閾値で最大32.13%、mIoUで最大6.33%の改善を実現している。
- 参考スコア(独自算出の注目度): 3.465433014164678
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot Natural Language-Video Localization (NLVL) methods have exhibited
promising results in training NLVL models exclusively with raw video data by
dynamically generating video segments and pseudo-query annotations. However,
existing pseudo-queries often lack grounding in the source video, resulting in
unstructured and disjointed content. In this paper, we investigate the
effectiveness of commonsense reasoning in zero-shot NLVL. Specifically, we
present CORONET, a zero-shot NLVL framework that leverages commonsense to
bridge the gap between videos and generated pseudo-queries via a commonsense
enhancement module. CORONET employs Graph Convolution Networks (GCN) to encode
commonsense information extracted from a knowledge graph, conditioned on the
video, and cross-attention mechanisms to enhance the encoded video and
pseudo-query representations prior to localization. Through empirical
evaluations on two benchmark datasets, we demonstrate that CORONET surpasses
both zero-shot and weakly supervised baselines, achieving improvements up to
32.13% across various recall thresholds and up to 6.33% in mIoU. These results
underscore the significance of leveraging commonsense reasoning for zero-shot
NLVL.
- Abstract(参考訳): Zero-shot Natural Language-Video Localization (NLVL)法は,ビデオセグメントと擬似クエリアノテーションを動的に生成することにより,生のビデオデータのみを用いたNLVLモデルのトレーニングにおいて有望な結果を示した。
しかし、既存の擬似クエリーはソースビデオの基盤を欠くことが多く、構造化されていないコンテンツと解離したコンテンツをもたらす。
本稿では,ゼロショットNLVLにおけるコモンセンス推論の有効性について検討する。
具体的には、コモンセンスを利用したゼロショットNLVLフレームワークであるCORONETを紹介し、コモンセンス拡張モジュールを介してビデオと生成された擬似クエリ間のギャップを埋める。
CORONETは、知識グラフから抽出されたコモンセンス情報を符号化するグラフ畳み込みネットワーク(GCN)と、ローカライゼーションの前にエンコードされたビデオと擬似クエリ表現を強化するクロスアテンション機構を利用する。
2つのベンチマークデータセットに対する実証的な評価を通じて、CORONETがゼロショットと弱教師付きベースラインを越え、様々なリコールしきい値で最大32.13%、mIoUで最大6.33%の改善を達成したことを示す。
これらの結果は, ゼロショットNLVLにおけるコモンセンス推論の活用の重要性を裏付けるものである。
関連論文リスト
- CaRDiff: Video Salient Object Ranking Chain of Thought Reasoning for Saliency Prediction with Diffusion [35.26835471419003]
ビデオのサリエンシ予測は、ビデオのボトムアップ機能や、記憶や認知などのトップダウンプロセスによって、人間の注意を引き、視線を惹きつけるビデオ内の領域を特定することを目的としている。
既存の手法は主に知覚情報のモデリングに重点を置いているが、言語による推論プロセスは無視されている。
本稿では,マルチモーダル大言語モデル(MLLM),グラウンドモジュール,拡散モデルを統合することで,そのプロセスを模倣するフレームワークであるCaRDiffを提案する。
論文 参考訳(メタデータ) (2024-08-21T21:40:30Z) - Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Grounding [108.79026216923984]
ビデオグラウンドイングは、入力テキストクエリに対応するビデオ内の時間セクションをローカライズすることを目的としている。
本稿では,現在のビデオグラウンドリング手法において,オープン語彙時空間ビデオグラウンドニングタスクを導入することにより,限界に対処する。
論文 参考訳(メタデータ) (2023-12-31T13:53:37Z) - Towards Scalable Neural Representation for Diverse Videos [68.73612099741956]
Inlicit Neural representations (INR)は、3Dシーンや画像の表現において注目を集めている。
既存のINRベースの手法は、冗長な視覚コンテンツを持つ短いビデオの符号化に限られている。
本稿では,多種多様な視覚コンテンツを持つ長編・多作ビデオの符号化のためのニューラル表現の開発に焦点をあてる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z) - Group Contextualization for Video Recognition [80.3842253625557]
グループ文脈化(GC)は、2D-CNN(TSN)とTSMの性能を高める。
GCは4つの異なるコンテキストを並列に埋め込む。
グループコンテキスト化は、2D-CNN(例えばTSN)のパフォーマンスを最先端のビデオネットワークに匹敵するレベルまで向上させる。
論文 参考訳(メタデータ) (2022-03-18T01:49:40Z) - A Coding Framework and Benchmark towards Low-Bitrate Video Understanding [63.05385140193666]
我々は,従来のコーデックとニューラルネットワーク(NN)の両方を活用する,従来型ニューラル混合符号化フレームワークを提案する。
このフレームワークは、動画の移動効率の良いセマンティック表現を確実に保持することで最適化される。
8つのデータセットに3つのダウンストリームタスクを備えた低ビットレートビデオ理解ベンチマークを構築し、このアプローチの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2022-02-06T16:29:15Z) - GNN-LM: Language Modeling based on Global Contexts via GNN [32.52117529283929]
GNN-LMは、トレーニングコーパス全体において、同様のコンテキストを参照できるようにすることで、バニラニューラル言語モデル(LM)を拡張します。
GNN-LMはWikiText-103で14.8の最先端のパープレクシリティを実現している。
論文 参考訳(メタデータ) (2021-10-17T07:18:21Z) - Zero-shot Natural Language Video Localization [11.522385805128001]
我々は、ゼロショット方式で自然言語ビデオローカライズモデルを訓練する試みを行っている。
教師なし画像キャプションのセットアップにインスパイアされて、ランダムテキストコーパス、ラベルなしビデオコレクション、および既製のオブジェクト検出器をモデルに組み込むだけでよい。
論文 参考訳(メタデータ) (2021-08-29T13:21:50Z) - Reconstructive Sequence-Graph Network for Video Summarization [107.0328985865372]
キーショットベースのビデオ要約には,インナーショットとインショット間の依存関係の活用が不可欠だ。
フレームとショットをシーケンスおよびグラフ階層としてエンコードする再構成シーケンスグラフネットワーク(RSGN)を提案する。
リコンストラクタを開発し、サマリージェネレータに報奨を与えることにより、ジェネレータを教師なしの方法で最適化することができる。
論文 参考訳(メタデータ) (2021-05-10T01:47:55Z) - Self-supervised Video Representation Learning Using Inter-intra
Contrastive Framework [43.002621928500425]
ビデオから特徴表現を学習するための自己教師付き手法を提案する。
映像表現が重要であるので、負のサンプルを非負のサンプルによって拡張する。
学習した映像表現を用いて,映像検索と映像認識タスクの実験を行う。
論文 参考訳(メタデータ) (2020-08-06T09:08:14Z) - Unsupervised Learning of Video Representations via Dense Trajectory
Clustering [86.45054867170795]
本稿では,ビデオにおける行動認識のための表現の教師なし学習の課題に対処する。
まず、このクラスの2つのトップパフォーマンス目標(インスタンス認識と局所集約)を適用することを提案する。
有望な性能を観察するが、定性的解析により、学習した表現が動きのパターンを捉えないことを示す。
論文 参考訳(メタデータ) (2020-06-28T22:23:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。