論文の概要: Automatic Generation of Contrast Sets from Scene Graphs: Probing the
Compositional Consistency of GQA
- arxiv url: http://arxiv.org/abs/2103.09591v1
- Date: Wed, 17 Mar 2021 12:19:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-18 13:10:21.934041
- Title: Automatic Generation of Contrast Sets from Scene Graphs: Probing the
Compositional Consistency of GQA
- Title(参考訳): シーングラフからのコントラスト集合の自動生成:GQAの構成整合性について
- Authors: Yonatan Bitton, Gabriel Stanovsky, Roy Schwartz, Michael Elhadad
- Abstract要約: 教師付きモデルは、しばしばデータアーティファクトを利用して良好なテストスコアを達成し、そのパフォーマンスはトレーニング分布外のサンプルで著しく低下します。
本稿では,リッチなセマンティック入力表現を利用して,視覚的質問応答タスクのコントラストセットを自動的に生成する新しい手法を提案する。
GQAの組成とラベルのバランスの取れた分布にもかかわらず、2つのハイパフォーマンスモデルが元のテストセットと比較して13-17%の精度で低下することがわかった。
- 参考スコア(独自算出の注目度): 16.95631509102115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works have shown that supervised models often exploit data artifacts
to achieve good test scores while their performance severely degrades on
samples outside their training distribution. Contrast sets (Gardneret al.,
2020) quantify this phenomenon by perturbing test samples in a minimal way such
that the output label is modified. While most contrast sets were created
manually, requiring intensive annotation effort, we present a novel method
which leverages rich semantic input representation to automatically generate
contrast sets for the visual question answering task. Our method computes the
answer of perturbed questions, thus vastly reducing annotation cost and
enabling thorough evaluation of models' performance on various semantic aspects
(e.g., spatial or relational reasoning). We demonstrate the effectiveness of
our approach on the GQA dataset and its semantic scene graph image
representation. We find that, despite GQA's compositionality and carefully
balanced label distribution, two high-performing models drop 13-17% in accuracy
compared to the original test set. Finally, we show that our automatic
perturbation can be applied to the training set to mitigate the degradation in
performance, opening the door to more robust models.
- Abstract(参考訳): 近年の研究では、教師付きモデルはしばしばデータアーティファクトを利用して優れたテストスコアを達成し、そのパフォーマンスはトレーニングディストリビューション外のサンプルで著しく低下することが示された。
コントラストセット(Gardneret al., 2020)は、出力ラベルが修正される最小の方法で試験サンプルを摂動することで、この現象を定量化する。
殆どのコントラストセットは手動で作成され、集中的なアノテーションを必要とするが、視覚的質問応答タスクのためのコントラストセットを自動的に生成するために、リッチなセマンティック入力表現を活用する新しい手法を提案する。
提案手法は摂動質問の回答を計算し,アノテーションのコストを大幅に削減し,様々な意味的側面(空間的あるいは関係的推論など)でモデルの性能を徹底的に評価する。
本稿では,GQAデータセットとその意味的なシーングラフ画像表現に対するアプローチの有効性を示す。
GQAの組成とラベルのバランスの取れた分布にもかかわらず、2つのハイパフォーマンスモデルは元のテストセットと比較して13-17%の精度で低下することがわかった。
最後に,我々の自動摂動をトレーニングセットに適用することで,パフォーマンスの低下を緩和し,より堅牢なモデルへの扉を開くことができることを示す。
関連論文リスト
- Vision-Language Models are Strong Noisy Label Detectors [76.07846780815794]
本稿では、視覚言語モデルに適応するためのDeFTと呼ばれるDenoising Fine-Tuningフレームワークを提案する。
DeFTは、何百万もの補助的な画像テキストペアで事前訓練されたテキストと視覚的特徴のロバストなアライメントを利用して、ノイズの多いラベルを抽出する。
7つの合成および実世界のノイズデータセットの実験結果から,ノイズラベル検出と画像分類の両方においてDeFTの有効性が検証された。
論文 参考訳(メタデータ) (2024-09-29T12:55:17Z) - Unsupervised Contrastive Analysis for Salient Pattern Detection using Conditional Diffusion Models [13.970483987621135]
コントラスト分析(CA)は、背景(BG)データセットとターゲット(TG)データセット(不健康な被験者)を区別できる画像内のパターンを識別することを目的としている。
この話題に関する最近の研究は、BGサンプルからTGサンプルを分離するパターンを教師付きで学習するために、変分オートエンコーダ(VAE)や対照的な学習戦略に依存している。
自己教師付きコントラストエンコーダを用いて、入力画像から共通パターンのみを符号化する潜時表現を学習し、トレーニング中にBGデータセットからのみサンプルを用いて学習し、データ拡張技術を用いて対象パターンの分布を近似する。
論文 参考訳(メタデータ) (2024-06-02T15:19:07Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Mitigating Exposure Bias in Discriminator Guided Diffusion Models [4.5349436061325425]
本稿では,識別器誘導とエプシロンスケーリングを組み合わせたSEDM-G++を提案する。
提案手法は,非条件CIFAR-10データセット上でFIDスコア1.73を達成し,現状よりも優れている。
論文 参考訳(メタデータ) (2023-11-18T20:49:50Z) - Counterfactual Image Generation for adversarially robust and
interpretable Classifiers [1.3859669037499769]
本稿では,GAN(Generative Adrial Networks)を基盤として,画像から画像への変換を利用した統合フレームワークを提案する。
これは、分類器と識別器を1つのモデルに組み合わせて、実際の画像をそれぞれのクラスに属性付け、生成されたイメージを「フェイク」として生成することで達成される。
モデルが敵攻撃に対するロバスト性の向上を示すことを示すとともに,判別器の「フェイクネス」値が予測の不確かさの指標となることを示す。
論文 参考訳(メタデータ) (2023-10-01T18:50:29Z) - Semi-Supervised Learning for hyperspectral images by non parametrically
predicting view assignment [25.198550162904713]
ハイパースペクトル画像(HSI)分類は、画像中のスペクトル情報が高いため、現在、多くの勢いを増している。
近年,ラベル付きサンプルを最小限に抑えたディープラーニングモデルを効果的に訓練するために,ラベル付きサンプルも自己教師付きおよび半教師付き設定で活用されている。
本研究では,半教師付き学習の概念を利用して,モデルの識別的自己教師型事前学習を支援する。
論文 参考訳(メタデータ) (2023-06-19T14:13:56Z) - Masked Images Are Counterfactual Samples for Robust Fine-tuning [77.82348472169335]
微調整の深層学習モデルは、分布内(ID)性能と分布外(OOD)堅牢性の間のトレードオフにつながる可能性がある。
そこで本研究では,マスク付き画像を対物サンプルとして用いて,ファインチューニングモデルのロバスト性を向上させる新しいファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-03-06T11:51:28Z) - Test-time Adaptation with Slot-Centric Models [63.981055778098444]
Slot-TTAは、半教師付きシーン分解モデルであり、シーンごとのテスト時間は、再構成やクロスビュー合成の目的に対する勾配降下を通じて適用される。
我々は、最先端の監視フィードフォワード検出器と代替テスト時間適応法に対して、配電性能が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2022-03-21T17:59:50Z) - Active Learning by Feature Mixing [52.16150629234465]
本稿では,ALFA-Mixと呼ばれるバッチ能動学習手法を提案する。
予測の不整合を求めることにより,不整合な特徴を持つインスタンスを同定する。
これらの予測の不整合は、モデルが未認識のインスタンスで認識できない特徴を発見するのに役立ちます。
論文 参考訳(メタデータ) (2022-03-14T12:20:54Z) - Evaluating Models' Local Decision Boundaries via Contrast Sets [119.38387782979474]
テストデータの体系的なギャップを埋めるのに役立つNLPのための新しいアノテーションパラダイムを提案する。
10種類のNLPデータセットに対してコントラストセットを作成することで,コントラストセットの有効性を示す。
我々のコントラストセットは明示的には逆ではないが、モデルの性能は元のテストセットよりも大幅に低い。
論文 参考訳(メタデータ) (2020-04-06T14:47:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。