論文の概要: RepMatch: Quantifying Cross-Instance Similarities in Representation Space
- arxiv url: http://arxiv.org/abs/2410.09642v1
- Date: Sat, 12 Oct 2024 20:42:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 09:06:07.701196
- Title: RepMatch: Quantifying Cross-Instance Similarities in Representation Space
- Title(参考訳): RepMatch: 表現空間におけるクロスインスタンスの類似性を定量化する
- Authors: Mohammad Reza Modarres, Sina Abbasi, Mohammad Taher Pilehvar,
- Abstract要約: 類似性のレンズを通してデータを特徴付ける新しい手法であるRepMatchを紹介する。
RepMatchは、トレーニングインスタンスのサブセット間の類似性を、トレーニングされたモデルにエンコードされた知識と比較することによって定量化する。
複数のNLPタスク、データセット、モデルにまたがるRepMatchの有効性を検証する。
- 参考スコア(独自算出の注目度): 15.215985417763472
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Advances in dataset analysis techniques have enabled more sophisticated approaches to analyzing and characterizing training data instances, often categorizing data based on attributes such as ``difficulty''. In this work, we introduce RepMatch, a novel method that characterizes data through the lens of similarity. RepMatch quantifies the similarity between subsets of training instances by comparing the knowledge encoded in models trained on them, overcoming the limitations of existing analysis methods that focus solely on individual instances and are restricted to within-dataset analysis. Our framework allows for a broader evaluation, enabling similarity comparisons across arbitrary subsets of instances, supporting both dataset-to-dataset and instance-to-dataset analyses. We validate the effectiveness of RepMatch across multiple NLP tasks, datasets, and models. Through extensive experimentation, we demonstrate that RepMatch can effectively compare datasets, identify more representative subsets of a dataset (that lead to better performance than randomly selected subsets of equivalent size), and uncover heuristics underlying the construction of some challenge datasets.
- Abstract(参考訳): データセット分析技術の進歩により、トレーニングデータインスタンスを分析して特徴付けるためのより洗練されたアプローチが実現された。
本稿では、類似したレンズを通してデータを特徴付ける新しい手法であるRepMatchを紹介する。
RepMatchは、トレーニングインスタンスのサブセット間の類似性を、トレーニングされたモデルに符号化された知識を比較して定量化し、個々のインスタンスにのみフォーカスし、データセット内分析に制限される既存の分析メソッドの制限を克服する。
我々のフレームワークはより広範な評価を可能にし、任意のインスタンスサブセット間の類似性比較を可能にし、データセットからデータセットへの分析とインスタンスからデータセットへの分析の両方をサポートする。
複数のNLPタスク、データセット、モデルにまたがるRepMatchの有効性を検証する。
大規模な実験を通じて、RepMatchはデータセットを効果的に比較し、データセットのより代表的なサブセット(等価サイズのランダムに選択されたサブセットよりも優れたパフォーマンスをもたらす)を特定し、いくつかの課題データセットの構築の基盤となるヒューリスティックスを明らかにする。
関連論文リスト
- A Similarity-Based Oversampling Method for Multi-label Imbalanced Text Data [1.799933345199395]
本研究では,マルチラベルテキスト分類のための新しいオーバーサンプリング手法を紹介し,検討する。
提案手法は,インスタンス間の類似度を利用してラベル付けされていないデータから潜在的に新しいサンプルを同定する。
ラベルなしのデータセットを反復検索することで、未表現のクラスに類似したインスタンスを探索する。
パフォーマンス改善を示すインスタンスがラベル付きデータセットに追加される。
論文 参考訳(メタデータ) (2024-11-01T20:33:49Z) - A structured regression approach for evaluating model performance across intersectional subgroups [53.91682617836498]
分散評価(disaggregated evaluation)は、AIフェアネスアセスメントにおける中心的なタスクであり、AIシステムのさまざまなサブグループ間でのパフォーマンスを測定することを目的としている。
非常に小さなサブグループであっても,信頼性の高いシステム性能推定値が得られることを示す。
論文 参考訳(メタデータ) (2024-01-26T14:21:45Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - Adaptive Sampling Strategies to Construct Equitable Training Datasets [0.7036032466145111]
コンピュータビジョンから自然言語処理までの領域では、機械学習モデルがスタークの相違を示すことが示されている。
これらのパフォーマンスギャップに寄与する要因の1つは、モデルがトレーニングしたデータに表現力の欠如である。
公平なトレーニングデータセットを作成する際の問題を形式化し、この問題に対処するための統計的枠組みを提案する。
論文 参考訳(メタデータ) (2022-01-31T19:19:30Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Interactive Dimensionality Reduction for Comparative Analysis [28.52130400665133]
我々は,新しいDR手法であるULCAをインタラクティブなビジュアルインターフェースと統合する,インタラクティブなDRフレームワークを導入する。
ULCAは差別分析とコントラスト学習という2つのDRスキームを統合し、様々な比較分析タスクをサポートする。
我々は,ULCA結果を対話的に洗練する最適化アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-06-29T15:05:36Z) - Capturing patterns of variation unique to a specific dataset [68.8204255655161]
対象データセットの1つ以上の比較データセットに対する低次元表現を同定するチューニングフリー手法を提案する。
複数の実験で、単一のバックグラウンドデータセットを持つUCAが、様々なチューニングパラメータを持つcPCAと同じような結果を達成することを示しました。
論文 参考訳(メタデータ) (2021-04-16T15:07:32Z) - Comparative analysis of word embeddings in assessing semantic similarity
of complex sentences [8.873705500708196]
既存のベンチマークデータセットの文を解析し,文の複雑さに関する各種単語埋め込みの感度を解析する。
その結果, 文の複雑さの増大は, 埋め込みモデルの性能に重大な影響を及ぼすことがわかった。
論文 参考訳(メタデータ) (2020-10-23T19:55:11Z) - CDEvalSumm: An Empirical Study of Cross-Dataset Evaluation for Neural
Summarization Systems [121.78477833009671]
データセット間設定下での様々な要約モデルの性能について検討する。
異なるドメインの5つのデータセットに対する11の代表的な要約システムに関する包括的な研究は、モデルアーキテクチャと生成方法の影響を明らかにしている。
論文 参考訳(メタデータ) (2020-10-11T02:19:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。