Fugu-MT 論文翻訳(概要): Information-Theoretic Measures of Dataset Difficulty

論文の概要: Information-Theoretic Measures of Dataset Difficulty

arxiv url: http://arxiv.org/abs/2110.08420v1
Date: Sat, 16 Oct 2021 00:21:42 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-21 20:05:55.053168
Title: Information-Theoretic Measures of Dataset Difficulty
Title（参考訳）: データセットの難易度に関する情報理論
Authors: Kawin Ethayarajh, Yejin Choi, Swabha Swayamdipta
Abstract要約: データセットの難しさを推定するには、通常、最先端のモデルを人間と比較する。使用可能な情報の欠如として、フレーミングデータセットの難しさを考慮した情報理論的な視点を提案する。
参考スコア（独自算出の注目度）: 54.538766940287864
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Estimating the difficulty of a dataset typically involves comparing state-of-the-art models to humans; the bigger the performance gap, the harder the dataset is said to be. Not only is this framework informal, but it also provides little understanding of how difficult each instance is, or what attributes make it difficult for a given model. To address these problems, we propose an information-theoretic perspective, framing dataset difficulty as the absence of $\textit{usable information}$. Measuring usable information is as easy as measuring performance, but has certain theoretical advantages. While the latter only allows us to compare different models w.r.t the same dataset, the former also allows us to compare different datasets w.r.t the same model. We then introduce $\textit{pointwise}$ $\mathcal{V}-$$\textit{information}$ (PVI) for measuring the difficulty of individual instances, where instances with higher PVI are easier for model $\mathcal{V}$. By manipulating the input before measuring usable information, we can understand $\textit{why}$ a dataset is easy or difficult for a given model, which we use to discover annotation artefacts in widely-used benchmarks.
Abstract（参考訳）: データセットの難しさを推定するには、通常、最先端のモデルを人間と比較する必要がある。このフレームワークは非公式なだけでなく、各インスタンスの難しさや、特定のモデルにとってどんな属性が難しいかをほとんど理解していない。これらの問題に対処するために,データ集合の難易度を$\textit{usable information}$ の欠如としてフレーミングする,情報理論的な視点を提案する。利用可能な情報を測定することはパフォーマンスを測定するのと同じくらい簡単であるが、理論上の利点がある。後者では、異なるモデルw.r.tを同じデータセットで比較できるだけでなく、前者は異なるデータセットw.r.tを同じモデルで比較できる。次に、個々のインスタンスの難易度を測定するために、$\textit{pointwise}$ $\mathcal{V}-$$\textit{information}$ (PVI)を導入します。使用可能な情報を測定する前に入力を操作することで、データセットが与えられたモデルにとって簡単または難しいことを、$\textit{why}$で理解できます。

関連論文リスト

Inverse Entropic Optimal Transport Solves Semi-supervised Learning via Data Likelihood Maximization [65.8915778873691]
条件分布は機械学習の中心的な問題ですペアデータとペアデータの両方を統合する新しい学習パラダイムを提案する。我々のアプローチはまた、興味深いことに逆エントロピー最適輸送(OT)と結びついている。
論文参考訳（メタデータ） (2024-10-03T16:12:59Z)
Making Multi-Axis Gaussian Graphical Models Scalable to Millions of Samples and Features [0.30723404270319693]
我々は独立性を仮定することなく、$O(n2)$ランタイムと$O(n)$スペース複雑性を持つメソッドを導入する。我々は,実世界の1000,000セルのscRNA-seqデータセットなど,前例のない大規模なデータセットに対して,我々のアプローチが適用可能であることを実証した。
論文参考訳（メタデータ） (2024-07-29T11:15:25Z)
$\textit{GeoHard}$: Towards Measuring Class-wise Hardness through Modelling Class Semantics [90.9047957137981]
この作業は、$textitclass-wise hardness$という概念を正式に開始する。 8つの自然言語理解(NLU)データセットに対する実験は、学習パラダイム、モデル、人間の判断にまたがる一貫した硬さ分布を示す。 $textitGeoHard$は、$textitPearson$のクラスワイド硬度測定の相関で、インスタンスレベルのメトリクスを59%以上上回る。
論文参考訳（メタデータ） (2024-07-17T11:53:39Z)
Scaling Laws for Data Filtering -- Data Curation cannot be Compute Agnostic [99.3682210827572]
ビジョン言語モデル(VLM)は、慎重にキュレートされたWebデータセット上で数千のGPU時間でトレーニングされる。データキュレーション戦略は通常、トレーニングに利用可能な計算を知らないように開発されている。ウェブデータの非均一性を考慮したニューラルスケーリング法則を導入する。
論文参考訳（メタデータ） (2024-04-10T17:27:54Z)
Variance Alignment Score: A Simple But Tough-to-Beat Data Selection Method for Multimodal Contrastive Learning [17.40655778450583]
本稿では、Sigma_texttest, Sigma_irangle$という形式を持つVariance Alignment Score(VAS)という原則付き計量を提案する。 VASとCLIPのスコアを合わせると、ノイズの多いデータセットDataCompの38評価セットに1.3%、高品質なデータセットCC12MのVTABに2.5%の差でベースラインを上回ります。
論文参考訳（メタデータ） (2024-02-03T06:29:04Z)
The Unreasonable Effectiveness of Easy Training Data for Hard Tasks [84.30018805150607]
既存の事前学習言語モデルが比較的容易にハードなデータから一般化されることがしばしばあるという驚くべき結論を提示する。本稿では,テキスト内学習,線形ヘッド,QLoRAなどの簡単な微調整手法を用いて,このような難解な一般化を実演する。本研究は, LMの難解な一般化が, 研究課題に対して驚くほど強いことを結論づける。
論文参考訳（メタデータ） (2024-01-12T18:36:29Z)
Compressive Recovery of Sparse Precision Matrices [5.557600489035657]
我々は,$d$変数の統計的関係を,mathbbRn times d$の$n$サンプル$Xのデータセットからモデル化するグラフの学習問題を考察する。サイズ $m=Omegaleft((d+2k)log(d)right)$ ここで、$k$は基礎となるグラフのエッジの最大数である。本稿では, グラフィカルラッソに基づく反復アルゴリズムを用いて, 具体的デノイザとみなす実用的リカバリを実現する可能性について検討する。
論文参考訳（メタデータ） (2023-11-08T13:29:08Z)
Data Factors for Better Compositional Generalization [60.698130703909804]
我々は、異なるデータ要素を持つ様々なトレーニングセット上で、Transformerモデルをトレーニングすることで、経験的分析を行う。データセットの複雑さが増大すると、複数の異なる一般化課題におけるより優れた一般化行動がもたらされることを示す。難易度の異なるトレーニング例が一般化にどう影響するかを考察する。
論文参考訳（メタデータ） (2023-11-08T01:27:34Z)
DatasetEquity: Are All Samples Created Equal? In The Quest For Equity Within Datasets [4.833815605196965]
本稿では,機械学習におけるデータ不均衡に対処する新しい手法を提案する。深い知覚埋め込みとクラスタリングを用いて、画像の外観に基づいてサンプル確率を計算する。次に、これらの可能性を使って、提案された$bf Generalized Focal Loss$関数で、トレーニング中にサンプルを異なる重さで測定する。
論文参考訳（メタデータ） (2023-08-19T02:11:49Z)
Simplicity Bias Leads to Amplified Performance Disparities [8.60453031364566]
SGDで訓練されたモデルは、単純さに偏りがあることを示し、多数派の学習を優先させる。モデルは、単純なデータセットのクラスやグループを優先順位付けし、複雑なものを見つけることを犠牲にすることができる。
論文参考訳（メタデータ） (2022-12-13T15:24:41Z)
PyHard: a novel tool for generating hardness embeddings to support data-centric analysis [0.38233569758620045]
PyHardは、複数のMLモデルの予測パフォーマンスに関連するデータセットの硬度埋め込みを生成する。ユーザは、この埋め込みを複数の方法で操作することで、データとアルゴリズムのパフォーマンスに関する有用な洞察を得ることができる。我々は、この分析が、MLモデルに挑戦するハードな観察のポケットの識別をどのように支援したかを示す。
論文参考訳（メタデータ） (2021-09-29T14:08:26Z)
Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文参考訳（メタデータ） (2021-04-17T21:34:10Z)
DAIL: Dataset-Aware and Invariant Learning for Face Recognition [67.4903809903022]
顔認識の性能向上のためには、通常大規模なトレーニングデータセットが必要である。 2つの大きな問題のために異なるデータセットを自然に組み合わせるのは問題で面倒です。トレーニング中に異なるデータセットの異なるクラスと同じ人を扱うことは、バックプロパゲーションに影響します。手動でラベルをクリーニングするには人的努力が要る特に何百万もの画像と何千ものIDがある時は
論文参考訳（メタデータ） (2021-01-14T01:59:52Z)
List-Decodable Mean Estimation in Nearly-PCA Time [50.79691056481693]
高次元におけるリストデコタブル平均推定の基本的な課題について検討する。我々のアルゴリズムは、すべての$k = O(sqrtd) cup Omega(d)$に対して$widetildeO(ndk)$で実行されます。我々のアルゴリズムの変種は、すべての$k$に対してランタイム$widetildeO(ndk)$を持ち、リカバリ保証の$O(sqrtlog k)$ Factorを犠牲にしている。
論文参考訳（メタデータ） (2020-11-19T17:21:37Z)
Evaluating Models' Local Decision Boundaries via Contrast Sets [119.38387782979474]
テストデータの体系的なギャップを埋めるのに役立つNLPのための新しいアノテーションパラダイムを提案する。 10種類のNLPデータセットに対してコントラストセットを作成することで,コントラストセットの有効性を示す。我々のコントラストセットは明示的には逆ではないが、モデルの性能は元のテストセットよりも大幅に低い。
論文参考訳（メタデータ） (2020-04-06T14:47:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。