論文の概要: Unbiasing through Textual Descriptions: Mitigating Representation Bias in Video Benchmarks
- arxiv url: http://arxiv.org/abs/2503.18637v1
- Date: Mon, 24 Mar 2025 13:00:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:35:43.719139
- Title: Unbiasing through Textual Descriptions: Mitigating Representation Bias in Video Benchmarks
- Title(参考訳): テキスト記述による曖昧化 - ビデオベンチマークにおける表現バイアスの軽減
- Authors: Nina Shvetsova, Arsha Nagrani, Bernt Schiele, Hilde Kuehne, Christian Rupprecht,
- Abstract要約: 既存のビデオ分類と検索データセットの偏りのないサブセットに基づくビデオベンチマーク「unbiased through Textual Description (UTD)」。
我々は、VLMとLLMを利用して、表現バイアスからベンチマークを分析し、デビアスする。
一般的な12の動画分類と検索データセットを体系的に分析する。
我々は、オリジナルおよびデバイアスド分割に関する30の最先端ビデオモデルをベンチマークし、モデル内のバイアスを分析する。
- 参考スコア(独自算出の注目度): 85.54792243128695
- License:
- Abstract: We propose a new "Unbiased through Textual Description (UTD)" video benchmark based on unbiased subsets of existing video classification and retrieval datasets to enable a more robust assessment of video understanding capabilities. Namely, we tackle the problem that current video benchmarks may suffer from different representation biases, e.g., object bias or single-frame bias, where mere recognition of objects or utilization of only a single frame is sufficient for correct prediction. We leverage VLMs and LLMs to analyze and debias benchmarks from such representation biases. Specifically, we generate frame-wise textual descriptions of videos, filter them for specific information (e.g. only objects) and leverage them to examine representation biases across three dimensions: 1) concept bias - determining if a specific concept (e.g., objects) alone suffice for prediction; 2) temporal bias - assessing if temporal information contributes to prediction; and 3) common sense vs. dataset bias - evaluating whether zero-shot reasoning or dataset correlations contribute to prediction. We conduct a systematic analysis of 12 popular video classification and retrieval datasets and create new object-debiased test splits for these datasets. Moreover, we benchmark 30 state-of-the-art video models on original and debiased splits and analyze biases in the models. To facilitate the future development of more robust video understanding benchmarks and models, we release: "UTD-descriptions", a dataset with our rich structured descriptions for each dataset, and "UTD-splits", a dataset of object-debiased test splits.
- Abstract(参考訳): 既存のビデオ分類と検索データセットの偏りのないサブセットに基づいて、ビデオ理解能力のより堅牢な評価を可能にする新しい"Unbiased through Textual Description (UTD)"ビデオベンチマークを提案する。
すなわち、現在のビデオベンチマークでは、オブジェクトの認識や単一のフレームのみの利用が正しい予測に十分である場合、オブジェクトのバイアスや単一フレームのバイアスなど、さまざまな表現バイアスに悩まされる可能性がある。
我々は、VLMとLLMを利用して、そのような表現バイアスからベンチマークを分析し、デビアスする。
具体的には、ビデオのフレームワイドなテキスト記述を生成し、特定の情報(例えばオブジェクトのみ)にフィルタリングし、3次元にわたる表現バイアスを調べる。
1) 概念バイアス - ある特定の概念(例えば、オブジェクト)だけが予測に十分かどうかを決定する。
2)時間的バイアス -時間的情報が予測に寄与するかどうかを評価する。
3) 共通感覚とデータセットバイアス - ゼロショット推論とデータセット相関が予測に寄与するかどうかを評価する。
我々は、12の人気のビデオ分類と検索データセットを体系的に分析し、これらのデータセットに対して、新しいオブジェクト指向テスト分割を作成する。
さらに、オリジナルおよびデバイアスド分割に関する30の最先端ビデオモデルをベンチマークし、モデル内のバイアスを分析する。
より堅牢なビデオ理解ベンチマークとモデルの開発を促進するために、私たちは、各データセットに関する豊富な構造化された記述を持つデータセットである"UTD-descriptions"と、オブジェクト指向のテストスプリットのデータセットである"UTD-splits"をリリースしました。
関連論文リスト
- Towards Debiasing Frame Length Bias in Text-Video Retrieval via Causal
Intervention [72.12974259966592]
トリミングビデオクリップのトレーニングセットとテストセットのフレーム長差による時間偏差について,一意かつ体系的に検討した。
Epic-Kitchens-100, YouCook2, MSR-VTTデータセットについて, 因果脱バイアス法を提案し, 広範な実験およびアブレーション研究を行った。
論文 参考訳(メタデータ) (2023-09-17T15:58:27Z) - Mitigating Representation Bias in Action Recognition: Algorithms and
Benchmarks [76.35271072704384]
ディープラーニングモデルは、稀なシーンやオブジェクトを持つビデオに適用すると、パフォーマンスが悪くなります。
この問題にはアルゴリズムとデータセットの2つの異なる角度から対処する。
偏りのある表現は、他のデータセットやタスクに転送するとより一般化できることを示す。
論文 参考訳(メタデータ) (2022-09-20T00:30:35Z) - Meta Spatio-Temporal Debiasing for Video Scene Graph Generation [22.216881800098726]
本稿では,バイアス問題に対処する新しいMeta Video Scene Generation(MVSGG)フレームワークを提案する。
我々のフレームワークはまず、トレーニングデータからサポートセットとグループクエリセットを構築します。
そして、モデル最適化のためのメタトレーニングとテストプロセスを実行することで、私たちのフレームワークは、モデルがバイアスに対してうまく学習するように効果的にガイドすることができます。
論文 参考訳(メタデータ) (2022-07-23T07:06:06Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Towards Debiasing Temporal Sentence Grounding in Video [59.42702544312366]
ビデオ(TSGV)タスクの時間文グラウンドングは、未編集のビデオから時間モーメントを見つけ、言語クエリにマッチさせることである。
モーメントアノテーションのバイアスを考慮せずに、多くのモデルはモーメントアノテーションの統計的規則性を捉える傾向がある。
本稿では,データデバイアスとモデルデバイアスという2つのデバイアス戦略を提案する。
論文 参考訳(メタデータ) (2021-11-08T08:18:25Z) - Greedy Gradient Ensemble for Robust Visual Question Answering [163.65789778416172]
VQA(Visual Question Answering)では、分布バイアスとショートカットバイアスという2つの側面から生じる言語バイアスを強調している。
本稿では,非バイアスベースモデル学習に複数のバイアスモデルを組み合わせた新しいデバイアスフレームワークGreedy Gradient Ensemble(GGE)を提案する。
GGEはバイアス付きモデルを優先的にバイアス付きデータ分布に過度に適合させ、バイアス付きモデルでは解決が難しい例にベースモデルがより注意を払う。
論文 参考訳(メタデータ) (2021-07-27T08:02:49Z) - Interventional Video Grounding with Dual Contrastive Learning [16.0734337895897]
ビデオグラウンドティングは、与えられたテキストクエリのために、未編集のビデオから瞬間をローカライズすることを目的としている。
本稿では、因果推論の観点から新しいパラダイムを提案し、モデルとデータの背後にある因果関係を明らかにする。
また、テキストとビデオの整合性を改善するために、二重のコントラスト学習アプローチを導入しています。
論文 参考訳(メタデータ) (2021-06-21T12:11:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。