論文の概要: G2L: Semantically Aligned and Uniform Video Grounding via Geodesic and
Game Theory
- arxiv url: http://arxiv.org/abs/2307.14277v2
- Date: Fri, 18 Aug 2023 12:54:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 22:34:30.255231
- Title: G2L: Semantically Aligned and Uniform Video Grounding via Geodesic and
Game Theory
- Title(参考訳): G2L:ジオデシックとゲーム理論によるセマンティックアライメントと一様グラウンド
- Authors: Hongxiang Li, Meng Cao, Xuxin Cheng, Yaowei Li, Zhihong Zhu, Yuexian
Zou
- Abstract要約: ジオデシック・ゲーム・ローカライゼーション(Geodesic and Game Localization, G2L)は,ジオデシック・ゲーム理論によるセマンティック・アライメントと均一なビデオグラウンドティング・フレームワークである。
本研究は,モデルが正しいクロスモーダル表現を学習するための測地距離を利用したモーメント間の相関関係を定量化する。
- 参考スコア(独自算出の注目度): 70.75605157754771
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent video grounding works attempt to introduce vanilla contrastive
learning into video grounding. However, we claim that this naive solution is
suboptimal. Contrastive learning requires two key properties: (1)
\emph{alignment} of features of similar samples, and (2) \emph{uniformity} of
the induced distribution of the normalized features on the hypersphere. Due to
two annoying issues in video grounding: (1) the co-existence of some visual
entities in both ground truth and other moments, \ie semantic overlapping; (2)
only a few moments in the video are annotated, \ie sparse annotation dilemma,
vanilla contrastive learning is unable to model the correlations between
temporally distant moments and learned inconsistent video representations. Both
characteristics lead to vanilla contrastive learning being unsuitable for video
grounding. In this paper, we introduce Geodesic and Game Localization (G2L), a
semantically aligned and uniform video grounding framework via geodesic and
game theory. We quantify the correlations among moments leveraging the geodesic
distance that guides the model to learn the correct cross-modal
representations. Furthermore, from the novel perspective of game theory, we
propose semantic Shapley interaction based on geodesic distance sampling to
learn fine-grained semantic alignment in similar moments. Experiments on three
benchmarks demonstrate the effectiveness of our method.
- Abstract(参考訳): 最近のビデオグラウンディングは、バニラコントラスト学習をビデオグラウンディングに導入しようと試みている。
しかし、このナイーブ解は準最適であると主張する。
対照的な学習には、(1)類似したサンプルの特徴のemph{alignment}と(2)超球上の正規化特徴の誘導分布のemph{uniformity}という2つの重要な特性が必要である。
ビデオグラウンディングにおける2つの厄介な問題として,(1) 真実と他の瞬間の両方に視覚的実体が存在すること,(2) ビデオ中のいくつかの瞬間だけが注釈付けされていること,(2) バニラ・コントラスト学習は時間的に離れたモーメントと非一貫性なビデオ表現の相関をモデル化できないこと,などがあげられる。
どちらの特徴も、バニラのコントラスト学習はビデオの接地には適さない。
本稿では,ジオデシックとゲーム理論を通した,意味的に整列した一様ビデオグラウンドフレームワークであるgeodesic and game localization (g2l)を提案する。
我々は、モデルが正しいクロスモーダル表現を学ぶのを導く測地距離を利用したモーメント間の相関を定量化する。
さらに,ゲーム理論の新たな視点から,測地線距離サンプリングに基づくセマンティック・シェープリー相互作用を提案し,類似した瞬間における微粒なセマンティックアライメントを学習する。
3つのベンチマーク実験により,本手法の有効性が示された。
関連論文リスト
- TimeBalance: Temporally-Invariant and Temporally-Distinctive Video
Representations for Semi-Supervised Action Recognition [68.53072549422775]
学生教師による半教師付き学習フレームワークTimeBalanceを提案する。
時間的に不変であり,時間的に異なる教師から知識を抽出する。
提案手法は,3つの動作認識ベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-28T19:28:54Z) - Can Shuffling Video Benefit Temporal Bias Problem: A Novel Training
Framework for Temporal Grounding [20.185272219985787]
テンポラルグラウンドディングは、意図しないビデオにおいて、与えられた文クエリに意味的に対応する対象のビデオモーメントを見つけることを目的としている。
従来の方法は、視覚的・テクスチャ的セマンティックアライメントに基づいて、ターゲットのモーメント位置を推論するのではなく、トレーニングセットにおけるクエリの時間的バイアスに過度に依存する。
本稿では,シャッフルビデオを用いて時間的バイアス問題に対処し,グラウンド化精度を損なうことなく,グラウンド化モデルを構築するための新しいトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-29T14:11:48Z) - End-to-End Dense Video Grounding via Parallel Regression [30.984657885692553]
ビデオグラウンドイングは、言語クエリが与えられた未トリミングビデオに対応するビデオモーメントをローカライズすることを目的としている。
本稿では,Transformer-alike Architecture (PRVG) を再構成することで,エンドツーエンドの並列デコーディングパラダイムを提案する。
設計の単純さのおかげで、私たちのPRVGフレームワークは異なるテストスキームに適用できます。
論文 参考訳(メタデータ) (2021-09-23T10:03:32Z) - Negative Sample Matters: A Renaissance of Metric Learning for Temporal
Grounding [31.95817463923758]
時間的グラウンディングは、ある自然言語クエリに関連するセマンティクスを持つビデオ内のビデオモーメントを時間的にローカライズすることを目的としている。
共同埋め込み空間における言語クエリとビデオモーメントの関係をモデル化する2つのマッチングネットワーク(DMN)を提案する。
論文 参考訳(メタデータ) (2021-09-10T13:38:54Z) - Adaptive Hierarchical Graph Reasoning with Semantic Coherence for
Video-and-Language Inference [81.50675020698662]
Video-and-Language Inferenceは、最近提案された共同ビデオ・言語理解のタスクである。
本稿では,複雑な相互作用に関する映像の深い理解を実現する適応階層型グラフネットワークを提案する。
3つの階層から適応階層型グラフネットワークのセマンティックコヒーレンスを明示的に促進するためにセマンティックコヒーレンス学習を導入する。
論文 参考訳(メタデータ) (2021-07-26T15:23:19Z) - Decoupled Spatial Temporal Graphs for Generic Visual Grounding [120.66884671951237]
この研究は、与えられた表現を満たすすべてのオブジェクトをマイニングすることを目的とした、より一般的な設定、一般的な視覚接地を調査します。
我々は,(1)空間表現と時間表現を分解し,すべての側面の手がかりを収集し,正確な接地を行う,単純かつ効果的なアプローチであるdstgを提案する。
さらに、遠距離ビデオによる参照ケースに挑戦する、新しいビデオデータセットであるGVGについて詳しく述べる。
論文 参考訳(メタデータ) (2021-03-18T11:56:29Z) - A Simple Yet Effective Method for Video Temporal Grounding with
Cross-Modality Attention [31.218804432716702]
言語誘導ビデオの時間的グラウンド化の課題は、検索文に対応する特定のビデオクリップを、未トリミングビデオでローカライズすることである。
直感的な構造設計が可能な単純な2分岐クロスモダリティアテンション(CMA)モジュールを提案する。
さらに,アノテーションバイアスの影響を緩和し,時間的接地精度を向上させるタスク固有回帰損失関数を導入する。
論文 参考訳(メタデータ) (2020-09-23T16:03:00Z) - Adversarial Bipartite Graph Learning for Video Domain Adaptation [50.68420708387015]
ドメイン適応技術は,異なる領域間のモデルを適応させることに重点を置いているが,ビデオ認識領域ではめったに研究されていない。
近年,映像のソースと対象映像の表現を統一するために,対角学習を活用する視覚領域適応はビデオにはあまり効果がない。
本稿では,ソースとターゲットの相互作用を直接モデル化するAdversarial Bipartite Graph (ABG)学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-31T03:48:41Z) - Visual Relation Grounding in Videos [86.06874453626347]
映像における視覚的リレーショナルグラウンドディング(RGV)という小説を探索する。
この課題は、他のビデオ言語タスク(例えば、ビデオグラウンドとビデオ質問応答)に対して支援的な視覚的事実を提供することを目的としている。
構築された階層時間領域上の2つの領域列を協調的に最適化することで、課題に対処する。
実験により,本モデルがベースラインアプローチを著しく上回るだけでなく,視覚的に意味のある事実を生成できることが示された。
論文 参考訳(メタデータ) (2020-07-17T08:20:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。