論文の概要: SHINE: Saliency-aware HIerarchical NEgative Ranking for Compositional Temporal Grounding
- arxiv url: http://arxiv.org/abs/2407.05118v2
- Date: Mon, 15 Jul 2024 16:53:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 21:47:52.841851
- Title: SHINE: Saliency-aware HIerarchical NEgative Ranking for Compositional Temporal Grounding
- Title(参考訳): しね(しね):構成的時間的接地のための主観的階層的負格付け
- Authors: Zixu Cheng, Yujiang Pu, Shaogang Gong, Parisa Kordjamshidi, Yu Kong,
- Abstract要約: 時間的グラウンドディング(英: Temporal grounding、ビデオモーメント検索(英語版))は、所定のクエリ文に対応するビデオセグメントを特定することを目的としている。
本稿では, GPT-3.5-Turbo を用いた負のクエリ構築のための大規模言語モデル駆動手法を提案する。
本稿では,ビデオと階層的負のクエリ間の多粒度意味的関係を学習するモデルを提案する。
- 参考スコア(独自算出の注目度): 52.98133831401225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal grounding, also known as video moment retrieval, aims at locating video segments corresponding to a given query sentence. The compositional nature of natural language enables the localization beyond predefined events, posing a certain challenge to the compositional generalizability of existing methods. Recent studies establish the correspondence between videos and queries through a decompose-reconstruct manner to achieve compositional generalization. However, they only consider dominant primitives and build negative queries through random sampling and recombination, resulting in semantically implausible negatives that hinder the models from learning rational compositions. In addition, recent DETR-based methods still underperform in compositional temporal grounding, showing irrational saliency responses when given negative queries that have subtle differences from positive queries. To address these limitations, we first propose a large language model-driven method for negative query construction, utilizing GPT-3.5-Turbo to generate semantically plausible hard negative queries. Subsequently, we introduce a coarse-to-fine saliency ranking strategy, which encourages the model to learn the multi-granularity semantic relationships between videos and hierarchical negative queries to boost compositional generalization. Extensive experiments on two challenging benchmarks validate the effectiveness and generalizability of our proposed method. Our code is available at https://github.com/zxccade/SHINE.
- Abstract(参考訳): 時間的グラウンドディング(英: Temporal grounding、ビデオモーメント検索(英語版))は、所定のクエリ文に対応するビデオセグメントを特定することを目的としている。
自然言語の構成的性質は、事前定義された事象を超越した局所化を可能にし、既存の方法の構成的一般化可能性に一定の課題を提起する。
近年の研究では、合成一般化を実現するために、分解・再構成方式でビデオとクエリの対応性を確立する。
しかし、彼らは支配的なプリミティブを考慮し、ランダムサンプリングと再結合を通じて負のクエリを構築するだけで、結果として意味的に不可解な負がモデルが合理的な構成を学習することを妨げる。
さらに、最近のDETRに基づく手法は、構成的時間的グラウンドリングにおいてまだ不十分であり、正のクエリと微妙に異なる負のクエリを与えられたとき、不合理なサリエンシ応答を示す。
これらの制約に対処するために、まず、GPT-3.5-Turboを用いて、意味論的に妥当なハード負のクエリを生成する、大きな言語モデルによる負のクエリ構築手法を提案する。
続いて,ビデオと階層的負のクエリ間のマルチグラニュラリティ意味関係を学習し,合成の一般化を促進させる,粗大なサラレンシランキング戦略を導入する。
提案手法の有効性と一般化性を検証した。
私たちのコードはhttps://github.com/zxccade/SHINE.comから入手可能です。
関連論文リスト
- Counterfactual Cross-modality Reasoning for Weakly Supervised Video
Moment Localization [67.88493779080882]
ビデオモーメントのローカライゼーションは、自然言語クエリに従って、未トリミングされたビデオのターゲットセグメントを取得することを目的としている。
最近の研究は、マスキングクエリの再構築によって引き起こされるモダリティの類似性とは対照的である。
提案手法は, 対実的相互モダリティ推論法である。
論文 参考訳(メタデータ) (2023-08-10T15:45:45Z) - Regularized Contrastive Learning of Semantic Search [0.0]
トランスフォーマーベースのモデルは、セマンティック表現を学習する能力に優れたため、検索モデルとして広く利用されている。
本稿では,正規化コントラスト学習という新たな正規化手法を提案する。
文ごとに異なるセマンティック表現を増補し、レギュレータとして対照的な目的に含める。
論文 参考訳(メタデータ) (2022-09-27T08:25:19Z) - SeqZero: Few-shot Compositional Semantic Parsing with Sequential Prompts
and Zero-shot Models [57.29358388475983]
近年の研究では、事前訓練された言語モデルと標準発話を併用する有望な結果が示されている。
本稿では,SeqZeroという構文解析手法を提案する。
特に、SeqZeroは、提案した制約付き再スケーリングを備えたアンサンブルによって、両方のモデルのメリットを明らかにします。
論文 参考訳(メタデータ) (2022-05-15T21:13:15Z) - Compositional Temporal Grounding with Structured Variational Cross-Graph
Correspondence Learning [92.07643510310766]
ビデオの時間的接地は、あるクエリ文に意味的に対応する1つのターゲットビデオセグメントをローカライズすることを目的としている。
新たに構成時間グラウンドタスクを導入し,2つの新しいデータセット分割を構築した。
出現した単語の新たな組み合わせによるクエリの一般化に失敗したことを実証的に見出した。
本稿では,ビデオと言語を複数の階層構造に明示的に分解する多変分グラフ推論フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-24T12:55:23Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Grounded Graph Decoding Improves Compositional Generalization in
Question Answering [68.72605660152101]
質問応答モデルは、長いシーケンスやより複雑なテスト構造のようなトレーニングパターンの新しい構成に一般化するのに苦労する。
構造化された予測をアテンション機構でグラウンド化することで,言語表現の合成一般化を改善する手法であるグラウンドドグラフデコーディングを提案する。
本モデルは,質問応答における合成一般化の挑戦的ベンチマークである構成自由ベース質問(CFQ)データセットにおいて,最先端のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2021-11-05T17:50:14Z) - End-to-End Dense Video Grounding via Parallel Regression [30.984657885692553]
ビデオグラウンドイングは、言語クエリが与えられた未トリミングビデオに対応するビデオモーメントをローカライズすることを目的としている。
本稿では,Transformer-alike Architecture (PRVG) を再構成することで,エンドツーエンドの並列デコーディングパラダイムを提案する。
設計の単純さのおかげで、私たちのPRVGフレームワークは異なるテストスキームに適用できます。
論文 参考訳(メタデータ) (2021-09-23T10:03:32Z) - Compositional Generalization and Natural Language Variation: Can a
Semantic Parsing Approach Handle Both? [27.590858384414567]
私たちは、自然言語のバリエーションと合成の一般化の両方を扱う意味解析アプローチを開発できますか?
我々は、この能力をよりよく評価するために、非合成データセットの新しいトレインとテスト分割を提案する。
また、NQG-T5は、高精度文法に基づくアプローチと事前学習されたシーケンス・ツー・シーケンスモデルを組み合わせたハイブリッドモデルである。
論文 参考訳(メタデータ) (2020-10-24T00:38:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。