論文の概要: Visual Data Diagnosis and Debiasing with Concept Graphs
- arxiv url: http://arxiv.org/abs/2409.18055v2
- Date: Mon, 11 Nov 2024 12:56:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:05:43.486427
- Title: Visual Data Diagnosis and Debiasing with Concept Graphs
- Title(参考訳): 概念グラフによる視覚的データ診断とデバイアス
- Authors: Rwiddhi Chakraborty, Yinong Wang, Jialu Gao, Runkai Zheng, Cheng Zhang, Fernando De la Torre,
- Abstract要約: 視覚データセットにおける概念共起バイアスの診断と緩和のためのフレームワークであるConBiasを提案する。
このような不均衡を緩和し,下流タスクの性能向上につながることを示す。
- 参考スコア(独自算出の注目度): 50.84781894621378
- License:
- Abstract: The widespread success of deep learning models today is owed to the curation of extensive datasets significant in size and complexity. However, such models frequently pick up inherent biases in the data during the training process, leading to unreliable predictions. Diagnosing and debiasing datasets is thus a necessity to ensure reliable model performance. In this paper, we present ConBias, a novel framework for diagnosing and mitigating Concept co-occurrence Biases in visual datasets. ConBias represents visual datasets as knowledge graphs of concepts, enabling meticulous analysis of spurious concept co-occurrences to uncover concept imbalances across the whole dataset. Moreover, we show that by employing a novel clique-based concept balancing strategy, we can mitigate these imbalances, leading to enhanced performance on downstream tasks. Extensive experiments show that data augmentation based on a balanced concept distribution augmented by Conbias improves generalization performance across multiple datasets compared to state-of-the-art methods.
- Abstract(参考訳): 今日のディープラーニングモデルの成功は、サイズと複雑さにおいて重要な広範なデータセットのキュレーションに起因している。
しかしながら、そのようなモデルはトレーニングプロセス中にデータ固有のバイアスを拾い上げることが多く、信頼性の低い予測につながります。
したがって、データセットの診断とデバイアスは、信頼性の高いモデルパフォーマンスを保証するために必要である。
本稿では,視覚データセットにおける概念共起バイアスの診断と緩和のための新しいフレームワークであるConBiasを提案する。
ConBiasは、視覚データセットを概念の知識グラフとして表現し、突発的な概念の綿密な分析を可能にし、データセット全体にわたる概念の不均衡を明らかにする。
さらに,これらの不均衡を緩和し,下流タスクの性能向上につながることを示す。
大規模な実験により、Conbiasが拡張したバランスの取れた概念分布に基づくデータ拡張は、最先端の手法と比較して、複数のデータセットにわたる一般化性能を向上させることが示された。
関連論文リスト
- Multi-OCT-SelfNet: Integrating Self-Supervised Learning with Multi-Source Data Fusion for Enhanced Multi-Class Retinal Disease Classification [2.5091334993691206]
網膜疾患診断のための堅牢なディープラーニングモデルの開発には、トレーニングのためのかなりのデータセットが必要である。
より小さなデータセットで効果的に一般化する能力は、依然として永続的な課題である。
さまざまなデータソースを組み合わせて、パフォーマンスを改善し、新しいデータに一般化しています。
論文 参考訳(メタデータ) (2024-09-17T17:22:35Z) - Relational Learning in Pre-Trained Models: A Theory from Hypergraph Recovery Perspective [60.64922606733441]
我々は,関係学習をハイパーグラフリカバリとして形式化する数学的モデルを導入し,基礎モデル(FM)の事前学習について検討する。
我々のフレームワークでは、世界はハイパーグラフとして表現され、データはハイパーエッジからランダムなサンプルとして抽象化される。我々は、このハイパーグラフを復元するための事前学習モデル(PTM)の有効性を理論的に検証し、ミニマックスに近い最適スタイルでデータ効率を解析する。
論文 参考訳(メタデータ) (2024-06-17T06:20:39Z) - Long-Tailed Recognition on Binary Networks by Calibrating A Pre-trained Model [18.58663937035378]
高リソース効率のバイナリニューラルネットワークをバックボーンとして使用することで、長い尾の分布を学習するという課題に対処する。
そこで本研究では,バランスの取れたデータセットでトレーニングされた既訓練完全精度モデルを用いて,蒸留の教師として使用するキャリブレート・アンド・ディスティルフレームワークを提案する。
種々のデータセットをより一般化するために,目的関数の項間の新たな対角バランスと,効率的な多分解能学習手法を提案する。
論文 参考訳(メタデータ) (2024-03-30T08:37:19Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Data-Centric Long-Tailed Image Recognition [49.90107582624604]
ロングテールモデルは高品質なデータに対する強い需要を示している。
データ中心のアプローチは、モデルパフォーマンスを改善するために、データの量と品質の両方を強化することを目的としています。
現在、情報強化の有効性を説明するメカニズムに関する研究が不足している。
論文 参考訳(メタデータ) (2023-11-03T06:34:37Z) - Quality Not Quantity: On the Interaction between Dataset Design and
Robustness of CLIP [43.7219097444333]
ここでは,CLIPにおける事前学習分布がロバスト性をいかに引き起こすかを調べるために,公開されている6つのデータソースのテストベッドを紹介する。
その結果,事前学習データの性能は分布変化によって大きく異なることがわかった。
複数のソースを組み合わせることで、必ずしもより良いモデルが得られるのではなく、最高の個々のデータソースのロバスト性を希薄にする。
論文 参考訳(メタデータ) (2022-08-10T18:24:23Z) - Deep Co-Attention Network for Multi-View Subspace Learning [73.3450258002607]
マルチビューサブスペース学習のための深層コアテンションネットワークを提案する。
共通情報と相補情報の両方を敵意で抽出することを目的としている。
特に、新しいクロス再構成損失を使用し、ラベル情報を利用して潜在表現の構築を誘導する。
論文 参考訳(メタデータ) (2021-02-15T18:46:44Z) - On the Composition and Limitations of Publicly Available COVID-19 X-Ray
Imaging Datasets [0.0]
データ不足、トレーニングとターゲット人口のミスマッチ、グループ不均衡、ドキュメントの欠如は、バイアスの重要な原因である。
本稿では,現在公開されている新型コロナウイルス胸部X線データセットの概要を紹介する。
論文 参考訳(メタデータ) (2020-08-26T14:16:01Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。