論文の概要: Too Fine or Too Coarse? The Goldilocks Composition of Data Complexity
for Robust Left-Right Eye-Tracking Classifiers
- arxiv url: http://arxiv.org/abs/2209.03761v1
- Date: Wed, 24 Aug 2022 23:18:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-11 13:13:48.557738
- Title: Too Fine or Too Coarse? The Goldilocks Composition of Data Complexity
for Robust Left-Right Eye-Tracking Classifiers
- Title(参考訳): きついか粗いか?
ロバストな左利きアイトラッキング分類器のためのデータ複雑性のgoldilocks合成
- Authors: Brian Xiang and Abdelrahman Abdelmonsef
- Abstract要約: 我々は、細粒度データと粗粒度データの両方からなる混合データセットを用いて機械学習モデルを訓練する。
我々の目的のために、細粒度データはより複雑な方法で収集されたデータを指すのに対し、粗粒度データはより単純な方法で収集されたデータを指す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The differences in distributional patterns between benchmark data and
real-world data have been one of the main challenges of using
electroencephalogram (EEG) signals for eye-tracking (ET) classification.
Therefore, increasing the robustness of machine learning models in predicting
eye-tracking positions from EEG data is integral for both research and consumer
use. Previously, we compared the performance of classifiers trained solely on
finer-grain data to those trained solely on coarse-grain. Results indicated
that despite the overall improvement in robustness, the performance of the
fine-grain trained models decreased, compared to coarse-grain trained models,
when the testing and training set contained the same distributional patterns
\cite{vectorbased}. This paper aims to address this case by training models
using datasets of mixed data complexity to determine the ideal distribution of
fine- and coarse-grain data. We train machine learning models utilizing a mixed
dataset composed of both fine- and coarse-grain data and then compare the
accuracies to models trained using solely fine- or coarse-grain data. For our
purposes, finer-grain data refers to data collected using more complex methods
whereas coarser-grain data refers to data collected using more simple methods.
We apply covariate distributional shifts to test for the susceptibility of each
training set. Our results indicated that the optimal training dataset for
EEG-ET classification is not composed of solely fine- or coarse-grain data, but
rather a mix of the two, leaning towards finer-grain.
- Abstract(参考訳): ベンチマークデータと実世界のデータの分布パターンの違いは、眼球追跡(ET)分類に脳波(EEG)信号を使用する際の大きな課題の1つである。
したがって、脳波データから視線追跡位置を予測する機械学習モデルの堅牢性を高めることは、研究と消費者の両方にとって不可欠である。
従来,細粒データのみを訓練した分類器の性能と粗粒データのみを訓練した分類器の性能を比較した。
その結果, 実験群と訓練群が同一分布パターンである<cite{vector based} を含む場合, 粗粒トレーニングモデルと比較して, 全体としてロバスト性が向上したにもかかわらず, 細粒トレーニングモデルの性能は低下した。
本稿では,混合データ複雑度データセットを用いたモデルを用いて,微細・粗粒データの理想的な分布を決定することを目的とする。
微粒データと粗粒データの両方からなる混合データセットを用いて機械学習モデルを訓練し,その精度を粗粒データのみを用いて訓練したモデルと比較した。
本研究の目的は,より複雑な手法で収集されたデータと,より単純な手法で収集されたデータについて述べることである。
各トレーニングセットの感受性をテストするために,共変量分布シフトを適用した。
脳波-ET分類のための最適なトレーニングデータセットは、単に細粒度または粗粒度のデータからなるのではなく、より細粒度に傾いた2つのデータの組み合わせであることを示した。
関連論文リスト
- Not All LLM-Generated Data Are Equal: Rethinking Data Weighting in Text Classification [7.357494019212501]
本研究では,合成データと実世界の分布を協調する効率的な重み付け手法を提案する。
複数のテキスト分類タスクにおいて,提案手法の有効性を実証的に評価した。
論文 参考訳(メタデータ) (2024-10-28T20:53:49Z) - Beyond Model Collapse: Scaling Up with Synthesized Data Requires Verification [11.6055501181235]
モデル崩壊防止のための合成データに対する検証手法について検討する。
検証器は、たとえ不完全なものであっても、モデル崩壊を防ぐために実際に活用できることが示される。
論文 参考訳(メタデータ) (2024-06-11T17:46:16Z) - Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance [55.872926690722714]
本研究では,関数形式の混合比に関するモデル性能の予測可能性について検討する。
トレーニングステップのスケーリング法則,モデルサイズ,データ混合法則のネスト利用を提案する。
提案手法は,RedPajamaにおける100Bトークンをトレーニングした1Bモデルのトレーニング混合物を効果的に最適化する。
論文 参考訳(メタデータ) (2024-03-25T17:14:00Z) - Efficient Online Data Mixing For Language Model Pre-Training [101.45242332613944]
既存のデータ選択方法は、遅くて計算コストのかかるプロセスに悩まされる。
一方、データミキシングは、データポイントをまとめることで、データ選択の複雑さを低減する。
我々は,データ選択とデータ混合の両要素を組み合わせたオンラインデータ混合(ODM)の効率的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-05T00:42:35Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - Machine Learning Based Missing Values Imputation in Categorical Datasets [2.5611256859404983]
この研究では、分類データセットのギャップを埋めるための機械学習アルゴリズムの使用について検討した。
Error Correction Output Codesフレームワークを使用して構築されたアンサンブルモデルに重点が置かれた。
大量のラベル付きデータの要求を含む、これらの奨励的な結果にもかかわらず、データ計算の欠如に対する深い学習には障害がある。
論文 参考訳(メタデータ) (2023-06-10T03:29:48Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - SynBench: Task-Agnostic Benchmarking of Pretrained Representations using
Synthetic Data [78.21197488065177]
近年、下流のタスクで大規模なデータで事前訓練された微調整大型モデルが成功し、ディープラーニングにおける重要なパラダイムシフトにつながった。
本稿では,合成データを用いて事前学習した表現の質を測定するためのタスク非依存フレームワークであるtextitSynBenchを提案する。
論文 参考訳(メタデータ) (2022-10-06T15:25:00Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Vector-Based Data Improves Left-Right Eye-Tracking Classifier
Performance After a Covariate Distributional Shift [0.0]
我々は、より堅牢なベンチマークを作成するために、EEG-ETデータ収集のための微粒なデータアプローチを提案する。
我々は、粗粒データと細粒データの両方を利用して機械学習モデルを訓練し、類似/異なる分布パターンのデータでテストした場合の精度を比較した。
その結果、細粒度ベクトルベースでトレーニングされたモデルは、粗粒度二分分類されたデータでトレーニングされたモデルよりも分布シフトの影響を受けにくいことがわかった。
論文 参考訳(メタデータ) (2022-07-31T16:27:50Z) - Generating Data to Mitigate Spurious Correlations in Natural Language
Inference Datasets [27.562256973255728]
自然言語処理モデルはしばしば、タスクに依存しない特徴とデータセットのラベルの間の急激な相関を利用して、トレーニング対象のディストリビューション内でのみうまく機能する。
そこで本研究では, 脱バイアス化したデータセットを生成して, 脱バイアス化したオフザシェルフモデルをトレーニングする手法を提案する。
提案手法は,1)高品質なラベル一貫性のあるデータサンプルを生成するためのデータジェネレータの訓練方法,2)素粒子相関に寄与するデータ点を除去するフィルタリング機構から構成される。
論文 参考訳(メタデータ) (2022-03-24T09:08:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。