論文の概要: Does the dataset meet your expectations? Explaining sample
representation in image data
- arxiv url: http://arxiv.org/abs/2012.08642v1
- Date: Sun, 6 Dec 2020 18:16:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-21 14:01:48.239950
- Title: Does the dataset meet your expectations? Explaining sample
representation in image data
- Title(参考訳): データセットはあなたの期待に応えますか?
画像データにおけるサンプル表現の説明
- Authors: Dhasarathy Parthasarathy, Anton Johansson
- Abstract要約: ニューラルネットワークモデルは、トレーニングデータの多様性の欠如によって影響を受けます。
このような欠陥を特定し説明する手法を提案する。
次に,幾何学的形状のデータセットを解析するために本手法を適用した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Since the behavior of a neural network model is adversely affected by a lack
of diversity in training data, we present a method that identifies and explains
such deficiencies. When a dataset is labeled, we note that annotations alone
are capable of providing a human interpretable summary of sample diversity.
This allows explaining any lack of diversity as the mismatch found when
comparing the \textit{actual} distribution of annotations in the dataset with
an \textit{expected} distribution of annotations, specified manually to capture
essential label diversity. While, in many practical cases, labeling (samples
$\rightarrow$ annotations) is expensive, its inverse, simulation (annotations
$\rightarrow$ samples) can be cheaper. By mapping the expected distribution of
annotations into test samples using parametric simulation, we present a method
that explains sample representation using the mismatch in diversity between
simulated and collected data. We then apply the method to examine a dataset of
geometric shapes to qualitatively and quantitatively explain sample
representation in terms of comprehensible aspects such as size, position, and
pixel brightness.
- Abstract(参考訳): ニューラルネットワークモデルの振る舞いは、トレーニングデータの多様性の欠如によって悪影響を受けるため、そのような欠陥を特定し説明する手法を提案する。
データセットにラベルを付けると、アノテーションだけでサンプルの多様性の人間の解釈可能な要約を提供することができることに注意します。
これにより、データセット内のアノテーションの \textit{actual} 分布と、必須ラベルの多様性をキャプチャするために手動で指定された、アノテーションの \textit{expected} 分布を比較する際に見出される、多様性の欠如を説明することができる。
多くの実用的なケースでは、ラベル付け($\rightarrow$アノテーションの例)は高価であるが、その逆のシミュレーション($\rightarrow$サンプルの注釈)はより安価である。
パラメトリックシミュレーションを用いて,アノテーションの期待される分布をテストサンプルにマッピングし,シミュレーションデータと収集データの多様性のミスマッチを用いたサンプル表現を説明する手法を提案する。
次に, 幾何学的形状のデータセットを用いて, 大きさ, 位置, ピクセルの明るさといった可視性の観点から, 定性的かつ定量的にサンプル表現を説明する。
関連論文リスト
- Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。
DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。
10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-20T01:34:13Z) - Stylist: Style-Driven Feature Ranking for Robust Novelty Detection [8.402607231390606]
本稿では,タスクに関連する意味的・内容的変化と,無関係なスタイル的変化に分離する形式化を提案する。
この形式化の中で、ロバストな新規性検出を、スタイルの分布シフトに頑健でありながら意味的変化を見つけるタスクとして定義する。
提案手法は, 相関関係に係わる特徴を除去し, 新規検出性能を向上することを示す。
論文 参考訳(メタデータ) (2023-10-05T17:58:32Z) - Sample-Specific Debiasing for Better Image-Text Models [6.301766237907306]
画像テキストデータに基づく自己教師付き表現学習は、画像分類、視覚的接地、相互モーダル検索などの重要な医学的応用を促進する。
1つの一般的なアプローチは、意味論的に類似した(肯定的な)および異種(否定的な)データポイントの対を対比することである。
トレーニングデータセットから一様に負のサンプルを描画すると、偽の負、すなわち、異種として扱われるが同一のクラスに属するサンプルが導入される。
医療データでは、基礎となるクラス分布は不均一であり、偽陰性は高い変動率で起こることを意味する。
論文 参考訳(メタデータ) (2023-04-25T22:23:41Z) - Learning to Imagine: Diversify Memory for Incremental Learning using
Unlabeled Data [69.30452751012568]
本研究では,多様な特徴を適応的に生成することで,経験を多様化する学習可能な特徴生成装置を開発する。
生成したサンプルを前例とセマンティックに整合させるために,意味的コントラスト学習を導入する。
提案手法は, 余分な推論コストを伴わず, 2つのベンチマークで最先端の手法より優れている。
論文 参考訳(メタデータ) (2022-04-19T15:15:18Z) - Saliency Grafting: Innocuous Attribution-Guided Mixup with Calibrated
Label Mixing [104.630875328668]
ミックスアップスキームは、強化されたトレーニングサンプルを作成するために、サンプルのペアを混ぜることを提案する。
両世界のベストを捉えた、斬新だがシンプルなミックスアップ版を提示する。
論文 参考訳(メタデータ) (2021-12-16T11:27:48Z) - Information Symmetry Matters: A Modal-Alternating Propagation Network
for Few-Shot Learning [118.45388912229494]
未ラベルサンプルの欠落した意味情報を補うために,モーダル代替伝搬ネットワーク (MAP-Net) を提案する。
我々は,情報伝達がより有益になるように,セマンティクスを介して視覚的関係ベクトルを誘導するリレーガイダンス(RG)戦略を設計する。
提案手法は有望な性能を達成し,最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2021-09-03T03:43:53Z) - Support-set bottlenecks for video-text representation learning [131.4161071785107]
ビデオテキスト表現(ノイズコントラスト学習)を学ぶための支配的なパラダイムは厳しすぎる。
本稿では,これらのサンプルを自然に押下する生成モデルを活用することによって,これを緩和する手法を提案する。
提案手法は,MSR-VTT,VATEX,ActivityNet,MSVDにおいて,ビデオ・テキスト・テキスト・ビデオ検索やテキスト・トゥ・ビデオ検索において,他よりも優れていた。
論文 参考訳(メタデータ) (2020-10-06T15:38:54Z) - Null-sampling for Interpretable and Fair Representations [8.654168514863649]
データ領域における不変表現を学習し、アルゴリズム的公正性における解釈可能性を実現する。
データドメインに表現を配置することで、モデルによってなされた変更は、人間の監査官によって容易に検査可能である。
論文 参考訳(メタデータ) (2020-08-12T11:49:01Z) - The Bures Metric for Generative Adversarial Networks [10.69910379275607]
GAN(Generative Adversarial Networks)は、高品質なサンプルを生成する高性能な生成手法である。
実バッチの多様性と偽バッチの多様性を一致させることを提案する。
多様性マッチングはモード崩壊を著しく低減し, サンプル品質に肯定的な影響を及ぼす。
論文 参考訳(メタデータ) (2020-06-16T12:04:41Z) - On conditional versus marginal bias in multi-armed bandits [105.07190334523304]
多腕バンディットにおける腕のサンプル平均のバイアスは、適応データ解析において重要な問題である。
サンプル平均を含む報酬の単調関数の条件バイアスの兆候を特徴付ける。
我々の結果は任意の条件付けイベントを保ち、データ収集ポリシーの自然な単調性特性を活用する。
論文 参考訳(メタデータ) (2020-02-19T20:16:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。