論文の概要: Learning Sample Importance for Cross-Scenario Video Temporal Grounding
- arxiv url: http://arxiv.org/abs/2201.02848v1
- Date: Sat, 8 Jan 2022 15:41:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-12 06:31:11.256116
- Title: Learning Sample Importance for Cross-Scenario Video Temporal Grounding
- Title(参考訳): クロスシナリオビデオ時間グラウンドにおける学習サンプルの重要性
- Authors: Peijun Bao, Yadong Mu
- Abstract要約: 本稿では,時間的接地作業に特有の表面バイアスについて検討する。
そこで本研究では,Debiased Temporal Language Localizer (DebiasTLL) と呼ばれる新しい手法を提案する。
我々は、列車/テストデータが均一にソースされるクロスセサリオ時間的グラウンドリングにおいて、提案モデルを評価する。
- 参考スコア(独自算出の注目度): 30.82619216537177
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The task of temporal grounding aims to locate video moment in an untrimmed
video, with a given sentence query. This paper for the first time investigates
some superficial biases that are specific to the temporal grounding task, and
proposes a novel targeted solution. Most alarmingly, we observe that existing
temporal ground models heavily rely on some biases (e.g., high preference on
frequent concepts or certain temporal intervals) in the visual modal. This
leads to inferior performance when generalizing the model in cross-scenario
test setting. To this end, we propose a novel method called Debiased Temporal
Language Localizer (DebiasTLL) to prevent the model from naively memorizing the
biases and enforce it to ground the query sentence based on true inter-modal
relationship. Debias-TLL simultaneously trains two models. By our design, a
large discrepancy of these two models' predictions when judging a sample
reveals higher probability of being a biased sample. Harnessing the informative
discrepancy, we devise a data re-weighing scheme for mitigating the data
biases. We evaluate the proposed model in cross-scenario temporal grounding,
where the train / test data are heterogeneously sourced. Experiments show
large-margin superiority of the proposed method in comparison with
state-of-the-art competitors.
- Abstract(参考訳): 時間的グラウンド化の課題は、与えられた文問合せを用いて、未編集のビデオ中の映像モーメントを見つけることである。
本稿では,時間的接地作業に特有の表面バイアスを初めて検討し,新たな対象解を提案する。
注意すべきことに、既存の時間的基底モデルは、視覚的モーダルにおけるいくつかのバイアス(例えば、頻繁な概念や特定の時間的間隔に対する高い嗜好)に大きく依存している。
これにより、クロススセナリオテスト設定でモデルを一般化した場合のパフォーマンスが低下する。
そこで本研究では,モデルが偏りを暗記することを防止し,真のモーダル間関係に基づく問合せ文の接地を強制する,debiased temporal language localizer (debiastll) という新しい手法を提案する。
debias-tllは同時に2つのモデルを訓練する。
私たちの設計では、サンプルを判断する際の2つのモデルの予測の差が大きいため、バイアスのあるサンプルとなる確率が高いことが判明した。
情報格差を生かして,データのバイアスを軽減するためのデータ再構成方式を考案する。
列車/試験データを不均質にソースするクロススセナリオ時空間接地において,提案モデルを評価する。
実験により,提案手法が最先端の競合相手と比較して大きな優位性を示した。
関連論文リスト
- Looking at Model Debiasing through the Lens of Anomaly Detection [11.113718994341733]
ディープニューラルネットワークはデータのバイアスに敏感である。
本稿では,異常検出に基づく新しいバイアス同定手法を提案する。
合成および実際のベンチマークデータセット上で、最先端のパフォーマンスに到達する。
論文 参考訳(メタデータ) (2024-07-24T17:30:21Z) - Debiased Model-based Interactive Recommendation [22.007617148466807]
textbfidentible textbfDebiased textbfModel-based textbfInteractive textbfRecommendation(略してtextbfiDMIR)と呼ばれるモデルを開発する。
最初の欠点として、識別保証を伴う時間変化レコメンデーション生成プロセスの因果メカニズムに基づいて、偏見付き因果世界モデルを考案する。
第2の欠点として、偏りのある対照的な学習と一致し、サンプリングバイアスを避ける、偏りのある対照的な政策を考案する。
論文 参考訳(メタデータ) (2024-02-24T14:10:04Z) - Bias-Conflict Sample Synthesis and Adversarial Removal Debias Strategy
for Temporal Sentence Grounding in Video [67.24316233946381]
TSGV(Temporal Sentence Grounding in Video)は、データセットバイアスの問題に悩まされている。
偏りを伴うサンプル合成と逆行性除去脱バイアス戦略(BSSARD)を提案する。
論文 参考訳(メタデータ) (2024-01-15T09:59:43Z) - Towards Debiasing Frame Length Bias in Text-Video Retrieval via Causal
Intervention [72.12974259966592]
トリミングビデオクリップのトレーニングセットとテストセットのフレーム長差による時間偏差について,一意かつ体系的に検討した。
Epic-Kitchens-100, YouCook2, MSR-VTTデータセットについて, 因果脱バイアス法を提案し, 広範な実験およびアブレーション研究を行った。
論文 参考訳(メタデータ) (2023-09-17T15:58:27Z) - MomentDiff: Generative Video Moment Retrieval from Random to Real [71.40038773943638]
私たちは、MomentDiffという拡散に基づく生成フレームワークを提供しています。
MomentDiffは、ランダムなブラウジングから段階的なローカライゼーションまで、典型的な人間の検索プロセスをシミュレートする。
MomentDiffは3つの公開ベンチマークで最先端の手法を一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2023-07-06T09:12:13Z) - Echoes: Unsupervised Debiasing via Pseudo-bias Labeling in an Echo
Chamber [17.034228910493056]
本稿では,既存のバイアスモデルがトレーニングデータにおけるバイアス強調サンプルに過度に適合していることを明らかにする実験的検討を行った。
本研究では、バイアスモデルとターゲットモデルを異なる戦略で訓練するEchoesという、単純で効果的な手法を提案する。
提案手法は,既存の合成データセットと実世界のデータセットのベースラインと比較して,優れたデバイアス化結果が得られる。
論文 参考訳(メタデータ) (2023-05-06T13:13:18Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Towards Debiasing Temporal Sentence Grounding in Video [59.42702544312366]
ビデオ(TSGV)タスクの時間文グラウンドングは、未編集のビデオから時間モーメントを見つけ、言語クエリにマッチさせることである。
モーメントアノテーションのバイアスを考慮せずに、多くのモデルはモーメントアノテーションの統計的規則性を捉える傾向がある。
本稿では,データデバイアスとモデルデバイアスという2つのデバイアス戦略を提案する。
論文 参考訳(メタデータ) (2021-11-08T08:18:25Z) - Deconfounded Video Moment Retrieval with Causal Intervention [80.90604360072831]
本研究は,ビデオ中の特定のモーメントをテキストクエリに従ってローカライズすることを目的とした,ビデオモーメント検索(VMR)の課題に取り組む。
既存の手法は主に複雑な相互モーダル相互作用によるクエリとモーメントのマッチング関係をモデル化する。
本稿では,クエリとビデオコンテンツが予測に与える影響を捉えるために,構造因果モデルを構築する因果性に着想を得たVMRフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-03T01:33:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。