論文の概要: Causal Debiasing for Visual Commonsense Reasoning
- arxiv url: http://arxiv.org/abs/2510.20281v1
- Date: Thu, 23 Oct 2025 07:10:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:17.518164
- Title: Causal Debiasing for Visual Commonsense Reasoning
- Title(参考訳): 視覚的コモンセンス推論のための因果的デバイアス
- Authors: Jiayi Zou, Gengyun Jia, Bing-Kun Bao,
- Abstract要約: 2つのモードにわたるモデルの一般化能力を評価するために設計されたVCR-OODデータセットを紹介する。
VCRの因果グラフと予測ショートカットを分析し、バイアスを取り除くためにバックドア調整法を採用する。
実験は、異なるデータセット間でのデバイアス法の有効性を実証する。
- 参考スコア(独自算出の注目度): 25.04845013043308
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual Commonsense Reasoning (VCR) refers to answering questions and providing explanations based on images. While existing methods achieve high prediction accuracy, they often overlook bias in datasets and lack debiasing strategies. In this paper, our analysis reveals co-occurrence and statistical biases in both textual and visual data. We introduce the VCR-OOD datasets, comprising VCR-OOD-QA and VCR-OOD-VA subsets, which are designed to evaluate the generalization capabilities of models across two modalities. Furthermore, we analyze the causal graphs and prediction shortcuts in VCR and adopt a backdoor adjustment method to remove bias. Specifically, we create a dictionary based on the set of correct answers to eliminate prediction shortcuts. Experiments demonstrate the effectiveness of our debiasing method across different datasets.
- Abstract(参考訳): Visual Commonsense Reasoning (VCR)は、質問に答え、画像に基づいて説明を提供する。
既存の手法は高い予測精度を達成するが、データセットのバイアスを見落とし、デバイアス戦略を欠いていることが多い。
本稿では,テキストデータと視覚データの両方における共起と統計的バイアスを明らかにする。
VCR-OOD-QAおよびVCR-OOD-VAサブセットからなるVCR-OODデータセットを導入する。
さらに、VCRの因果グラフと予測ショートカットを分析し、バイアスを取り除くためにバックドア調整手法を採用する。
具体的には、予測ショートカットを排除するために、正しい回答の集合に基づいて辞書を作成する。
実験は、異なるデータセット間でのデバイアス法の有効性を実証する。
関連論文リスト
- Unbiasing through Textual Descriptions: Mitigating Representation Bias in Video Benchmarks [85.54792243128695]
既存のビデオ分類と検索データセットの偏りのないサブセットに基づくビデオベンチマーク「unbiased through Textual Description (UTD)」。
我々は、VLMとLLMを利用して、表現バイアスからベンチマークを分析し、デビアスする。
一般的な12の動画分類と検索データセットを体系的に分析する。
我々は、オリジナルおよびデバイアスド分割に関する30の最先端ビデオモデルをベンチマークし、モデル内のバイアスを分析する。
論文 参考訳(メタデータ) (2025-03-24T13:00:25Z) - debiaSAE: Benchmarking and Mitigating Vision-Language Model Bias [1.3995965887921709]
5つのモデルと6つのデータセットの人口統計バイアスを分析します。
UTKFaceやCelebAといったポートレートデータセットは、バイアス検出に最適なツールです。
我々のデバイアス法は公平さを向上し,ベースラインよりも5~15ポイントの性能向上を実現した。
論文 参考訳(メタデータ) (2024-10-17T02:03:27Z) - Towards Debiasing Frame Length Bias in Text-Video Retrieval via Causal
Intervention [72.12974259966592]
トリミングビデオクリップのトレーニングセットとテストセットのフレーム長差による時間偏差について,一意かつ体系的に検討した。
Epic-Kitchens-100, YouCook2, MSR-VTTデータセットについて, 因果脱バイアス法を提案し, 広範な実験およびアブレーション研究を行った。
論文 参考訳(メタデータ) (2023-09-17T15:58:27Z) - Mitigating Representation Bias in Action Recognition: Algorithms and
Benchmarks [76.35271072704384]
ディープラーニングモデルは、稀なシーンやオブジェクトを持つビデオに適用すると、パフォーマンスが悪くなります。
この問題にはアルゴリズムとデータセットの2つの異なる角度から対処する。
偏りのある表現は、他のデータセットやタスクに転送するとより一般化できることを示す。
論文 参考訳(メタデータ) (2022-09-20T00:30:35Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z) - Towards Debiasing Temporal Sentence Grounding in Video [59.42702544312366]
ビデオ(TSGV)タスクの時間文グラウンドングは、未編集のビデオから時間モーメントを見つけ、言語クエリにマッチさせることである。
モーメントアノテーションのバイアスを考慮せずに、多くのモデルはモーメントアノテーションの統計的規則性を捉える傾向がある。
本稿では,データデバイアスとモデルデバイアスという2つのデバイアス戦略を提案する。
論文 参考訳(メタデータ) (2021-11-08T08:18:25Z) - Greedy Gradient Ensemble for Robust Visual Question Answering [163.65789778416172]
VQA(Visual Question Answering)では、分布バイアスとショートカットバイアスという2つの側面から生じる言語バイアスを強調している。
本稿では,非バイアスベースモデル学習に複数のバイアスモデルを組み合わせた新しいデバイアスフレームワークGreedy Gradient Ensemble(GGE)を提案する。
GGEはバイアス付きモデルを優先的にバイアス付きデータ分布に過度に適合させ、バイアス付きモデルでは解決が難しい例にベースモデルがより注意を払う。
論文 参考訳(メタデータ) (2021-07-27T08:02:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。