論文の概要: What is different between these datasets?
- arxiv url: http://arxiv.org/abs/2403.05652v1
- Date: Fri, 8 Mar 2024 19:52:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 13:02:53.225415
- Title: What is different between these datasets?
- Title(参考訳): これらのデータセットの違いは何か?
- Authors: Varun Babbar, Zhicheng Guo, Cynthia Rudin
- Abstract要約: 同じドメイン内の2つの同等のデータセットは、異なる分布を持つ可能性がある。
本稿では,2つのデータセットを比較するための解釈可能な手法(ツールボックス)を提案する。
我々の手法は、説明品質と正確性の観点から比較および関連するアプローチよりも優れているだけでなく、データセットの違いを効果的に理解し軽減するための実用的な補完的な洞察を提供する。
- 参考スコア(独自算出の注目度): 23.271594219577185
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The performance of machine learning models heavily depends on the quality of
input data, yet real-world applications often encounter various data-related
challenges. One such challenge could arise when curating training data or
deploying the model in the real world - two comparable datasets in the same
domain may have different distributions. While numerous techniques exist for
detecting distribution shifts, the literature lacks comprehensive approaches
for explaining dataset differences in a human-understandable manner. To address
this gap, we propose a suite of interpretable methods (toolbox) for comparing
two datasets. We demonstrate the versatility of our approach across diverse
data modalities, including tabular data, language, images, and signals in both
low and high-dimensional settings. Our methods not only outperform comparable
and related approaches in terms of explanation quality and correctness, but
also provide actionable, complementary insights to understand and mitigate
dataset differences effectively.
- Abstract(参考訳): 機械学習モデルの性能は入力データの品質に大きく依存するが、現実のアプリケーションは様々なデータ関連の課題に直面することが多い。
そのような課題の1つは、トレーニングデータをキュレートしたり、実世界でモデルをデプロイする場合に起こり得る - 同じドメイン内の2つの同等のデータセットが異なる分布を持つ可能性がある。
分散シフトを検出するための多くの技術があるが、この文献は人間の理解可能な方法でデータセットの違いを説明するための包括的なアプローチを欠いている。
このギャップに対処するため、2つのデータセットを比較するための解釈可能な方法(ツールボックス)を提案する。
グラフデータや言語,画像,信号など,さまざまなデータモダリティに対するアプローチの汎用性を,低次元と高次元の両方で示す。
我々の手法は、説明品質と正確性の観点から比較および関連するアプローチよりも優れているだけでなく、データセットの違いを効果的に理解し軽減するための実用的な補完的な洞察を提供する。
関連論文リスト
- Flexible inference in heterogeneous and attributed multilayer networks [21.349513661012498]
我々は任意の種類の情報を持つ多層ネットワークで推論を行う確率的生成モデルを開発した。
インド農村部における社会支援ネットワークにおける様々なパターンを明らかにする能力を示す。
論文 参考訳(メタデータ) (2024-05-31T15:21:59Z) - A Comprehensive Survey on Data Augmentation [55.355273602421384]
データ拡張(Data augmentation)は、既存のデータサンプルを操作することによって高品質な人工データを生成する技術である。
既存の文献調査では、特定のモダリティデータにのみ焦点が当てられている。
本稿では,異なる共通データモダリティのためのデータ拡張技術を含む,より啓蒙的な分類法を提案する。
論文 参考訳(メタデータ) (2024-05-15T11:58:08Z) - MixUp-MIL: A Study on Linear & Multilinear Interpolation-Based Data
Augmentation for Whole Slide Image Classification [1.5810132476010594]
本稿では,デジタルスライド画像の分類のためのデータ拡張手法について検討する。
その結果,本手法の効果は極めて高い変動性を示した。
我々は暗黒に光をもたらすいくつかの興味深い側面を特定し、新しい研究分野を同定した。
論文 参考訳(メタデータ) (2023-11-06T12:00:53Z) - SALUDA: Surface-based Automotive Lidar Unsupervised Domain Adaptation [62.889835139583965]
我々は、ソースデータとターゲットデータに基づいて、暗黙の基盤となる表面表現を同時に学習する教師なし補助タスクを導入する。
両方のドメインが同じ遅延表現を共有しているため、モデルは2つのデータソース間の不一致を許容せざるを得ない。
実験の結果,本手法は実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-
論文 参考訳(メタデータ) (2023-04-06T17:36:23Z) - Automatic Data Augmentation via Invariance-Constrained Learning [94.27081585149836]
下位のデータ構造は、しばしば学習タスクのソリューションを改善するために利用される。
データ拡張は、入力データに複数の変換を適用することで、トレーニング中にこれらの対称性を誘導する。
この作業は、学習タスクを解決しながらデータ拡張を自動的に適応することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2022-09-29T18:11:01Z) - Metadata Archaeology: Unearthing Data Subsets by Leveraging Training
Dynamics [3.9627732117855414]
メタデータ考古学のための統一的で効率的なフレームワークを提供することに注力する。
データセットに存在する可能性のあるデータのさまざまなサブセットをキュレートします。
これらのプローブスイート間の学習力学の相違を利用して、関心のメタデータを推測する。
論文 参考訳(メタデータ) (2022-09-20T21:52:39Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - Enhancing ensemble learning and transfer learning in multimodal data
analysis by adaptive dimensionality reduction [10.646114896709717]
マルチモーダルデータ分析では、すべての観測が同じレベルの信頼性や情報品質を示すわけではない。
この問題を克服するために,次元削減のための適応的アプローチを提案する。
多様な研究分野で得られたマルチモーダルデータセットのアプローチをテストします。
論文 参考訳(メタデータ) (2021-05-08T11:53:12Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z) - Learning while Respecting Privacy and Robustness to Distributional
Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。
目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。
提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文 参考訳(メタデータ) (2020-07-07T18:25:25Z) - Meta Learning for Causal Direction [29.00522306460408]
小型データ設定における原因と効果の区別を可能にする新しい生成モデルを提案する。
提案手法は, 各種合成データと実世界のデータを用いて実証し, 種々のデータセットサイズにおける方向検出の精度を高い精度で維持可能であることを示す。
論文 参考訳(メタデータ) (2020-07-06T15:12:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。