論文の概要: Towards Debiasing Temporal Sentence Grounding in Video
- arxiv url: http://arxiv.org/abs/2111.04321v1
- Date: Mon, 8 Nov 2021 08:18:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-09 14:09:45.421080
- Title: Towards Debiasing Temporal Sentence Grounding in Video
- Title(参考訳): ビデオにおける時間文接地の曖昧化に向けて
- Authors: Hao Zhang and Aixin Sun and Wei Jing and Joey Tianyi Zhou
- Abstract要約: ビデオ(TSGV)タスクの時間文グラウンドングは、未編集のビデオから時間モーメントを見つけ、言語クエリにマッチさせることである。
モーメントアノテーションのバイアスを考慮せずに、多くのモデルはモーメントアノテーションの統計的規則性を捉える傾向がある。
本稿では,データデバイアスとモデルデバイアスという2つのデバイアス戦略を提案する。
- 参考スコア(独自算出の注目度): 59.42702544312366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The temporal sentence grounding in video (TSGV) task is to locate a temporal
moment from an untrimmed video, to match a language query, i.e., a sentence.
Without considering bias in moment annotations (e.g., start and end positions
in a video), many models tend to capture statistical regularities of the moment
annotations, and do not well learn cross-modal reasoning between video and
language query. In this paper, we propose two debiasing strategies, data
debiasing and model debiasing, to "force" a TSGV model to capture cross-modal
interactions. Data debiasing performs data oversampling through video
truncation to balance moment temporal distribution in train set. Model
debiasing leverages video-only and query-only models to capture the
distribution bias, and forces the model to learn cross-modal interactions.
Using VSLNet as the base model, we evaluate impact of the two strategies on two
datasets that contain out-of-distribution test instances. Results show that
both strategies are effective in improving model generalization capability.
Equipped with both debiasing strategies, VSLNet achieves best results on both
datasets.
- Abstract(参考訳): ビデオ(TSGV)タスクにおける時間的文の接地は、未編集のビデオから時間的モーメントを見つけ出し、言語クエリ、すなわち文にマッチさせることである。
モーメントアノテーションのバイアス(例えば、ビデオの開始位置と終了位置)を考慮せずに、多くのモデルはモーメントアノテーションの統計的規則性を捉える傾向にあり、ビデオと言語クエリ間のクロスモーダル推論を十分に学ばない。
本稿では,データデバイアスとモデルデバイアスの2つのデバイアス戦略を提案し,tsgvモデルを用いてクロスモーダル相互作用を捉える。
データデバイアスは、ビデオトランケーションを通じてデータオーバーサンプリングを行い、列車の時間分布のバランスをとる。
モデルのデバイアスは、ビデオのみとクエリのみのモデルを利用して分散バイアスを捉え、モデルにクロスモーダルなインタラクションを学ばせます。
ベースモデルとしてVSLNetを用いて,配布外テストインスタンスを含む2つのデータセットに対する2つの戦略の影響を評価する。
その結果,両戦略がモデル一般化能力の向上に有効であることが示唆された。
両方のデバイアス戦略を備えたVSLNetは、両方のデータセットで最高の結果を得る。
関連論文リスト
- Bias-Conflict Sample Synthesis and Adversarial Removal Debias Strategy
for Temporal Sentence Grounding in Video [67.24316233946381]
TSGV(Temporal Sentence Grounding in Video)は、データセットバイアスの問題に悩まされている。
偏りを伴うサンプル合成と逆行性除去脱バイアス戦略(BSSARD)を提案する。
論文 参考訳(メタデータ) (2024-01-15T09:59:43Z) - Mitigating Representation Bias in Action Recognition: Algorithms and
Benchmarks [76.35271072704384]
ディープラーニングモデルは、稀なシーンやオブジェクトを持つビデオに適用すると、パフォーマンスが悪くなります。
この問題にはアルゴリズムとデータセットの2つの異なる角度から対処する。
偏りのある表現は、他のデータセットやタスクに転送するとより一般化できることを示す。
論文 参考訳(メタデータ) (2022-09-20T00:30:35Z) - Meta Spatio-Temporal Debiasing for Video Scene Graph Generation [22.216881800098726]
本稿では,バイアス問題に対処する新しいMeta Video Scene Generation(MVSGG)フレームワークを提案する。
我々のフレームワークはまず、トレーニングデータからサポートセットとグループクエリセットを構築します。
そして、モデル最適化のためのメタトレーニングとテストプロセスを実行することで、私たちのフレームワークは、モデルがバイアスに対してうまく学習するように効果的にガイドすることができます。
論文 参考訳(メタデータ) (2022-07-23T07:06:06Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Learning Sample Importance for Cross-Scenario Video Temporal Grounding [30.82619216537177]
本稿では,時間的接地作業に特有の表面バイアスについて検討する。
そこで本研究では,Debiased Temporal Language Localizer (DebiasTLL) と呼ばれる新しい手法を提案する。
我々は、列車/テストデータが均一にソースされるクロスセサリオ時間的グラウンドリングにおいて、提案モデルを評価する。
論文 参考訳(メタデータ) (2022-01-08T15:41:38Z) - Greedy Gradient Ensemble for Robust Visual Question Answering [163.65789778416172]
VQA(Visual Question Answering)では、分布バイアスとショートカットバイアスという2つの側面から生じる言語バイアスを強調している。
本稿では,非バイアスベースモデル学習に複数のバイアスモデルを組み合わせた新しいデバイアスフレームワークGreedy Gradient Ensemble(GGE)を提案する。
GGEはバイアス付きモデルを優先的にバイアス付きデータ分布に過度に適合させ、バイアス付きモデルでは解決が難しい例にベースモデルがより注意を払う。
論文 参考訳(メタデータ) (2021-07-27T08:02:49Z) - Interventional Video Grounding with Dual Contrastive Learning [16.0734337895897]
ビデオグラウンドティングは、与えられたテキストクエリのために、未編集のビデオから瞬間をローカライズすることを目的としている。
本稿では、因果推論の観点から新しいパラダイムを提案し、モデルとデータの背後にある因果関係を明らかにする。
また、テキストとビデオの整合性を改善するために、二重のコントラスト学習アプローチを導入しています。
論文 参考訳(メタデータ) (2021-06-21T12:11:28Z) - Towards Robustifying NLI Models Against Lexical Dataset Biases [94.79704960296108]
本稿では、語彙的データセットバイアスに対するモデル強化のための、データレベルとモデルレベルのデバイアス法の両方について検討する。
まず、データ拡張と拡張によってデータセットをデバイアスするが、この方法でモデルバイアスを完全に除去することはできないことを示す。
第2のアプローチでは、バーオブワードのサブモデルを使用して、バイアスを悪用する可能性のある機能をキャプチャし、元のモデルがこれらのバイアス付き機能を学ぶのを防ぐ。
論文 参考訳(メタデータ) (2020-05-10T17:56:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。