Fugu-MT 論文翻訳(概要): Capturing patterns of variation unique to a specific dataset

論文の概要: Capturing patterns of variation unique to a specific dataset

arxiv url: http://arxiv.org/abs/2104.08157v1
Date: Fri, 16 Apr 2021 15:07:32 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-19 18:47:39.438094
Title: Capturing patterns of variation unique to a specific dataset
Title（参考訳）: 特定のデータセット特有の変動パターンをキャプチャする
Authors: Robin Tu, Alexander H. Foss, Sihai D. Zhao
Abstract要約: 対象データセットの1つ以上の比較データセットに対する低次元表現を同定するチューニングフリー手法を提案する。複数の実験で、単一のバックグラウンドデータセットを持つUCAが、様々なチューニングパラメータを持つcPCAと同じような結果を達成することを示しました。
参考スコア（独自算出の注目度）: 68.8204255655161
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Capturing patterns of variation present in a dataset is important in exploratory data analysis and unsupervised learning. Contrastive dimension reduction methods, such as contrastive principal component analysis (cPCA), find patterns unique to a target dataset of interest by contrasting with a carefully chosen background dataset representing unwanted or uninteresting variation. However, such methods typically require a tuning parameter that governs the level of contrast, and it is unclear how to choose this parameter objectively. Furthermore, it is frequently of interest to contrast against multiple backgrounds, which is difficult to accomplish with existing methods. We propose unique component analysis (UCA), a tuning-free method that identifies low-dimensional representations of a target dataset relative to one or more comparison datasets. It is computationally efficient even with large numbers of features. We show in several experiments that UCA with a single background dataset achieves similar results compared to cPCA with various tuning parameters, and that UCA with multiple individual background datasets is superior to both cPCA with any single background data and cPCA with a pooled background dataset.
Abstract（参考訳）: 探索的データ分析と教師なし学習では,データセットに存在する変動パターンを捉えることが重要である。対照的な主成分分析(cPCA)のような対照的な次元削減手法は、意図しない、あるいは興味のない変動を表す慎重に選択された背景データセットと対比することにより、対象とする関心のデータセットに固有のパターンを見つける。しかし、そのような方法は通常、コントラストのレベルを規定するチューニングパラメータを必要とし、このパラメータを客観的に選択する方法は不明である。さらに、既存の手法では達成が難しい複数の背景と対比することは、しばしば関心がある。本研究では,1つ以上の比較データセットに対して,対象データセットの低次元表現を識別する一意成分分析(UCA)を提案する。多数の特徴があっても計算効率が良い。いくつかの実験において、単一のバックグラウンドデータセットを持つUCAは、様々なチューニングパラメータを持つcPCAと比較して同様の結果が得られることを示し、複数のバックグラウンドデータセットを持つUCAは、単一のバックグラウンドデータを持つcPCAと、プールされたバックグラウンドデータセットを持つcPCAの両方よりも優れていることを示した。

関連論文リスト

ClusterUCB: Efficient Gradient-Based Data Selection for Targeted Fine-Tuning of LLMs [22.68421108740517]
本稿では、クラスタリングと修正されたアッパー信頼境界(UCB)アルゴリズムを用いた効率的な勾配に基づくデータ選択フレームワークを提案する。各種ベンチマーク実験の結果,提案フレームワークであるClusterUCBは,従来の勾配に基づくデータ選択法と同等の結果が得られることがわかった。
論文参考訳（メタデータ） (2025-06-12T01:53:01Z)
Swift Cross-Dataset Pruning: Enhancing Fine-Tuning Efficiency in Natural Language Understanding [2.379669478864599]
現在の微調整のためのクロスデータセットプルーニング技術は、しばしば計算に高価なサンプルランキングプロセスに依存している。我々は,TF-IDF埋め込みと幾何中央値を用いたSwift Cross-Dataset Pruning (SCDP)を提案する。 6つの多様なデータセットに対する実験結果から,様々なタスクやスケールにまたがる手法の有効性が示された。
論文参考訳（メタデータ） (2025-01-05T03:52:04Z)
TAROT: Targeted Data Selection via Optimal Transport [64.56083922130269]
TAROTは最適な輸送理論に基づくデータ選択フレームワークである。従来のターゲットデータ選択手法は、ドメイン固有のパフォーマンスを高めるために影響に基づく欲求に依存していた。我々は,意味的セグメンテーション,動作予測,命令チューニングなど,複数のタスクにわたるTAROTを評価する。
論文参考訳（メタデータ） (2024-11-30T10:19:51Z)
Preference Optimization with Multi-Sample Comparisons [53.02717574375549]
本稿では,マルチサンプル比較を含むポストトレーニングの拡張手法を提案する。これらのアプローチは、生成的多様性やバイアスといった重要な特徴を捉えられない。マルチサンプル比較はシングルサンプル比較よりも集団特性の最適化に有効であることを示す。
論文参考訳（メタデータ） (2024-10-16T00:59:19Z)
RepMatch: Quantifying Cross-Instance Similarities in Representation Space [15.215985417763472]
類似性のレンズを通してデータを特徴付ける新しい手法であるRepMatchを紹介する。 RepMatchは、トレーニングインスタンスのサブセット間の類似性を、トレーニングされたモデルにエンコードされた知識と比較することによって定量化する。複数のNLPタスク、データセット、モデルにまたがるRepMatchの有効性を検証する。
論文参考訳（メタデータ） (2024-10-12T20:42:28Z)
Quantifying Spuriousness of Biased Datasets Using Partial Information Decomposition [14.82261635235695]
純粋パターン(spurious pattern)とは、因果関係のないデータセットにおける2つ以上の変数間の数学的関連である。本研究は,PID(Partial Information Decomposition)と呼ばれる数学的枠組みを用いて,データセット(スプリアス特徴とコア特徴の分割を含む)におけるスプリアス性の最初の情報理論的な定式化を提示する。我々は、刺激的特徴と中核的特徴が他の対象変数について共有する結合情報内容、すなわちユニーク、冗長、シナジスティックな情報を分離する。
論文参考訳（メタデータ） (2024-06-29T16:05:47Z)
Diversity Measurement and Subset Selection for Instruction Tuning Datasets [40.930387018872786]
決定点プロセスを用いて、サブセット選択のための命令チューニングデータセットの多様性と品質をキャプチャする。興味のあるデータセットと最も多様な参照データセットとの距離であるログ決定距離でデータセットの多様性を測定することを提案する。
論文参考訳（メタデータ） (2024-02-04T02:09:43Z)
SepVAE: a contrastive VAE to separate pathological patterns from healthy ones [2.619659560375341]
コントラスト分析VAE(Contrastive Analysis VAE)は、背景データセット(BG)と対象データセット(TG)の共通要因を分離することを目的とした変分自動エンコーダ(VAE)のファミリーである。 3つの医療応用と自然画像データセット(CelebA)における従来のCA-VAEs法よりも優れた性能を示す。
論文参考訳（メタデータ） (2023-07-12T14:52:21Z)
Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文参考訳（メタデータ） (2023-04-04T17:54:32Z)
Auditing for Diversity using Representative Examples [17.016881905579044]
本稿では,ラベルのないデータセットの相違を近似する費用対効果のアプローチを提案する。提案アルゴリズムは,データセットの要素と制御セットの要素のペアワイズ類似性を利用して近似を効果的にブートストラップする。本稿では,データセットのサイズよりもはるかに小さい制御セットを用いることで,近似誤差を小さく抑えることができることを示す。
論文参考訳（メタデータ） (2021-07-15T15:21:17Z)
Multi-dataset Pretraining: A Unified Model for Semantic Segmentation [97.61605021985062]
我々は、異なるデータセットの断片化アノテーションを最大限に活用するために、マルチデータセット事前訓練と呼ばれる統合フレームワークを提案する。これは、複数のデータセットに対して提案されたピクセルからプロトタイプへのコントラスト損失を通じてネットワークを事前トレーニングすることで実現される。異なるデータセットからの画像とクラス間の関係をより良くモデル化するために、クロスデータセットの混合によりピクセルレベルの埋め込みを拡張する。
論文参考訳（メタデータ） (2021-06-08T06:13:11Z)
Multi-Source Causal Inference Using Control Variates [81.57072928775509]
本稿では,複数のデータソースから因果効果を推定するアルゴリズムを提案する。理論的には、これはATE推定値の分散を減少させる。このフレームワークを結果選択バイアスの下で観測データからの推論に適用する。
論文参考訳（メタデータ） (2021-03-30T21:20:51Z)
Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature Selection [138.97647716793333]
再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
論文参考訳（メタデータ） (2020-12-29T04:08:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。