論文の概要: What is different between these datasets?
- arxiv url: http://arxiv.org/abs/2403.05652v2
- Date: Wed, 29 Jan 2025 17:10:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-30 15:52:17.499933
- Title: What is different between these datasets?
- Title(参考訳): これらのデータセットの違いは何か?
- Authors: Varun Babbar, Zhicheng Guo, Cynthia Rudin,
- Abstract要約: 同じ領域の2つのデータセットは異なる分布を示す可能性がある。
本稿では,データセットの比較を行うための解釈可能な手法の汎用的ツールボックスを提案する。
これらの手法は、動作可能で解釈可能な洞察を提供することによって既存の手法を補完する。
- 参考スコア(独自算出の注目度): 20.706111458944502
- License:
- Abstract: The performance of machine learning models relies heavily on the quality of input data, yet real-world applications often face significant data-related challenges. A common issue arises when curating training data or deploying models: two datasets from the same domain may exhibit differing distributions. While many techniques exist for detecting such distribution shifts, there is a lack of comprehensive methods to explain these differences in a human-understandable way beyond opaque quantitative metrics. To bridge this gap, we propose a versatile toolbox of interpretable methods for comparing datasets. Using a variety of case studies, we demonstrate the effectiveness of our approach across diverse data modalities -- including tabular data, text data, images, time series signals -- in both low and high-dimensional settings. These methods complement existing techniques by providing actionable and interpretable insights to better understand and address distribution shifts.
- Abstract(参考訳): 機械学習モデルの性能は入力データの品質に大きく依存するが、現実のアプリケーションは多くの場合、重要なデータ関連の課題に直面している。
トレーニングデータのキュレーションやモデルをデプロイする際の一般的な問題は、同じドメインの2つのデータセットが異なる分布を示す可能性があることだ。
このような分布シフトを検出する技術は数多く存在するが、不透明な量的指標を超えた、人間の理解不能な方法でこれらの違いを説明する包括的な方法が欠如している。
このギャップを埋めるために、データセットを比較するための解釈可能な手法の汎用的なツールボックスを提案する。
さまざまなケーススタディを用いて、低次元と高次元の両方で、表データ、テキストデータ、画像、時系列信号など、さまざまなデータモダリティにまたがるアプローチの有効性を実証する。
これらの手法は、分散シフトをよりよく理解し、対処するために、実用的な、解釈可能な洞察を提供することによって、既存のテクニックを補完する。
関連論文リスト
- Flexible inference in heterogeneous and attributed multilayer networks [21.349513661012498]
我々は任意の種類の情報を持つ多層ネットワークで推論を行う確率的生成モデルを開発した。
インド農村部における社会支援ネットワークにおける様々なパターンを明らかにする能力を示す。
論文 参考訳(メタデータ) (2024-05-31T15:21:59Z) - Interpretable Tensor Fusion [26.314148163750257]
InTense(Interpretable tensor fusion)は,マルチモーダルデータ表現を同時に学習するためのニューラルネットワークのトレーニング手法である。
InTenseは、関連スコアをモダリティとその関連に割り当てることで、ボックスから解釈可能性を提供する。
6つの実世界のデータセットの実験により、InTenseは精度と解釈可能性の観点から、既存の最先端のマルチモーダル解釈アプローチより優れていることが示された。
論文 参考訳(メタデータ) (2024-05-07T21:05:50Z) - UniTraj: A Unified Framework for Scalable Vehicle Trajectory Prediction [93.77809355002591]
さまざまなデータセット、モデル、評価基準を統一する包括的なフレームワークであるUniTrajを紹介する。
我々は広範な実験を行い、他のデータセットに転送するとモデルの性能が大幅に低下することがわかった。
これらの知見を説明するために,データセットの特徴に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-03-22T10:36:50Z) - SALUDA: Surface-based Automotive Lidar Unsupervised Domain Adaptation [62.889835139583965]
我々は、ソースデータとターゲットデータに基づいて、暗黙の基盤となる表面表現を同時に学習する教師なし補助タスクを導入する。
両方のドメインが同じ遅延表現を共有しているため、モデルは2つのデータソース間の不一致を許容せざるを得ない。
実験の結果,本手法は実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-
論文 参考訳(メタデータ) (2023-04-06T17:36:23Z) - Metadata Archaeology: Unearthing Data Subsets by Leveraging Training
Dynamics [3.9627732117855414]
メタデータ考古学のための統一的で効率的なフレームワークを提供することに注力する。
データセットに存在する可能性のあるデータのさまざまなサブセットをキュレートします。
これらのプローブスイート間の学習力学の相違を利用して、関心のメタデータを推測する。
論文 参考訳(メタデータ) (2022-09-20T21:52:39Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - Enhancing ensemble learning and transfer learning in multimodal data
analysis by adaptive dimensionality reduction [10.646114896709717]
マルチモーダルデータ分析では、すべての観測が同じレベルの信頼性や情報品質を示すわけではない。
この問題を克服するために,次元削減のための適応的アプローチを提案する。
多様な研究分野で得られたマルチモーダルデータセットのアプローチをテストします。
論文 参考訳(メタデータ) (2021-05-08T11:53:12Z) - DAIL: Dataset-Aware and Invariant Learning for Face Recognition [67.4903809903022]
顔認識の性能向上のためには、通常大規模なトレーニングデータセットが必要である。
2つの大きな問題のために異なるデータセットを自然に組み合わせるのは問題で面倒です。
トレーニング中に異なるデータセットの異なるクラスと同じ人を扱うことは、バックプロパゲーションに影響します。
手動でラベルをクリーニングするには 人的努力が要る 特に何百万もの画像と何千ものIDがある時は
論文 参考訳(メタデータ) (2021-01-14T01:59:52Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z) - Learning while Respecting Privacy and Robustness to Distributional
Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。
目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。
提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文 参考訳(メタデータ) (2020-07-07T18:25:25Z) - Meta Learning for Causal Direction [29.00522306460408]
小型データ設定における原因と効果の区別を可能にする新しい生成モデルを提案する。
提案手法は, 各種合成データと実世界のデータを用いて実証し, 種々のデータセットサイズにおける方向検出の精度を高い精度で維持可能であることを示す。
論文 参考訳(メタデータ) (2020-07-06T15:12:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。