論文の概要: Understanding collections of related datasets using dependent MMD
coresets
- arxiv url: http://arxiv.org/abs/2006.14621v2
- Date: Wed, 4 Aug 2021 21:17:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 10:06:38.154767
- Title: Understanding collections of related datasets using dependent MMD
coresets
- Title(参考訳): 依存MDコアセットを用いた関連データセットの集合理解
- Authors: Sinead A. Williamson and Jette Henderson
- Abstract要約: 最大平均遅延(MMD)コアセットで選択された代表点は、単一のデータセットの解釈可能な要約を提供することができるが、データセット間で簡単に比較することはできない。
本稿では,分布の比較を容易にするデータセットの集合に対するデータ要約手法である依存MDDコアセットを提案する。
- 参考スコア(独自算出の注目度): 3.6882136969540844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding how two datasets differ can help us determine whether one
dataset under-represents certain sub-populations, and provides insights into
how well models will generalize across datasets. Representative points selected
by a maximum mean discrepency (MMD) coreset can provide interpretable summaries
of a single dataset, but are not easily compared across datasets. In this paper
we introduce dependent MMD coresets, a data summarization method for
collections of datasets that facilitates comparison of distributions. We show
that dependent MMD coresets are useful for understanding multiple related
datasets and understanding model generalization between such datasets.
- Abstract(参考訳): 2つのデータセットがどう異なるかを理解することは、1つのデータセットが特定のサブ人口しか表現していないかどうかを判断するのに役立ちます。
最大平均遅延(MMD)コアセットで選択された代表点は、単一のデータセットの解釈可能な要約を提供することができるが、データセット間で簡単に比較することはできない。
本稿では,分布の比較を容易にするデータセットの集合データ要約手法である依存MDDコアセットを提案する。
依存mmdコアセットは,複数の関連データセットの理解や,それらのデータセット間のモデル一般化の理解に有用であることを示す。
関連論文リスト
- Diffusion Models as Data Mining Tools [87.77999285241219]
本稿では、画像合成のために訓練された生成モデルを視覚データマイニングのツールとして利用する方法について述べる。
特定のデータセットから画像を合成するために条件拡散モデルを微調整した後、これらのモデルを用いて典型性尺度を定義することができることを示す。
この尺度は、地理的位置、タイムスタンプ、セマンティックラベル、さらには病気の存在など、異なるデータラベルに対する典型的な視覚的要素がどのように存在するかを評価する。
論文 参考訳(メタデータ) (2024-07-20T17:14:31Z) - MergeOcc: Bridge the Domain Gap between Different LiDARs for Robust Occupancy Prediction [8.993992124170624]
MergeOccは、複数のデータセットを活用することで、異なるLiDARを同時に扱うように開発されている。
MergeOccの有効性は、自動運転車のための2つの顕著なデータセットの実験を通じて検証される。
論文 参考訳(メタデータ) (2024-03-13T13:23:05Z) - DAMEX: Dataset-aware Mixture-of-Experts for visual understanding of
mixture-of-datasets [34.780870585656395]
本稿では,データセット・アウェア・ミックス・オブ・エクササイズ,DAMEXを提案する。
データセットトークンをマップされた専門家にルーティングすることを学ぶことで、データセットのエキスパートになるように専門家を訓練します。
Universal Object-Detection Benchmarkの実験では、既存の最先端技術よりも優れています。
論文 参考訳(メタデータ) (2023-11-08T18:55:24Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - Scene-centric vs. Object-centric Image-Text Cross-modal Retrieval: A
Reproducibility Study [55.964387734180114]
クロスモーダル検索(CMR)アプローチは通常、オブジェクト中心のデータセットに焦点を当てる。
本稿では、データセットの種類によって異なる結果とそれらの一般化性に焦点を当てる。
アーキテクチャの異なる2つの最先端CMRモデルを選択する。
これらのデータセットから選択したモデルの相対的性能を決定する。
論文 参考訳(メタデータ) (2023-01-12T18:00:00Z) - MSeg: A Composite Dataset for Multi-domain Semantic Segmentation [100.17755160696939]
セマンティックセグメンテーションデータセットを異なるドメインから統合する合成データセットであるMSegを提案する。
一般化と画素レベルのアノテーションのアライメントを調整し,2万枚以上のオブジェクトマスクを8万枚以上の画像で再現する。
MSegでトレーニングされたモデルは、WildDash-v1のリーダーボードで、トレーニング中にWildDashのデータに触れることなく、堅牢なセマンティックセグメンテーションのためにランク付けされている。
論文 参考訳(メタデータ) (2021-12-27T16:16:35Z) - Single-dataset Experts for Multi-dataset Question Answering [6.092171111087768]
複数のデータセットにネットワークをトレーニングして、新たなデータセットを一般化し、転送します。
我々のアプローチは、単一データセットの専門家の集合を用いて、マルチデータセットの質問応答をモデル化することである。
パラメータ警告に基づく単純な手法は、ゼロショットの一般化と少数ショットの転送性能の向上につながる。
論文 参考訳(メタデータ) (2021-09-28T17:08:22Z) - On Generalization in Coreference Resolution [66.05112218880907]
モデルの市販性能を評価するため、異なるドメインを対象とした8つのコア参照解決データセットを統合する。
次に、それらのドメイン、アノテーションガイドライン、メタデータが異なるにもかかわらず、トレーニングのために3つのデータセットを混ぜて、単一のモデルを共同でトレーニングする方法を提案する。
ゼロショット環境では、単一のデータセット転送でトレーニングされたモデルが不十分であるのに対して、共同トレーニングの成果によって全体的なパフォーマンスが改善されていることが分かりました。
論文 参考訳(メタデータ) (2021-09-20T16:33:22Z) - Cross-Dataset Collaborative Learning for Semantic Segmentation [17.55660581677053]
我々は、Cross-Dataset Collaborative Learning (CDCL) と呼ばれる、単純で柔軟で汎用的なセマンティックセグメンテーション手法を提案する。
複数のラベル付きデータセットを付与することで、各データセット上の特徴表現の一般化と識別を改善することを目指しています。
単一データセットとクロスデータセットの設定で,Cityscapes,BDD100K,CamVid,COCO Stuffという4つの多様なデータセットに対して,広範な評価を行う。
論文 参考訳(メタデータ) (2021-03-21T09:59:47Z) - Data Augmentation for Abstractive Query-Focused Multi-Document
Summarization [129.96147867496205]
2つのQMDSトレーニングデータセットを提示し,2つのデータ拡張手法を用いて構築する。
これらの2つのデータセットは相補的な性質を持ち、すなわちQMDSCNNは実際のサマリを持つが、クエリはシミュレートされる。
組み合わせたデータセット上にエンドツーエンドのニューラルネットワークモデルを構築し、DUCデータセットに最新の転送結果をもたらします。
論文 参考訳(メタデータ) (2021-03-02T16:57:01Z) - Measures of Complexity for Large Scale Image Datasets [0.3655021726150368]
本研究では,データセットの複雑さを計測する比較的単純な手法のシリーズを構築する。
我々は,自動運転研究コミュニティであるCityscapes,IDD,BDD,Vistaの4つのデータセットを用いて分析を行った。
エントロピーに基づくメトリクスを用いて、これらのデータセットのランク順の複雑さを示し、ディープラーニングに関して確立されたランク順と比較する。
論文 参考訳(メタデータ) (2020-08-10T21:54:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。