論文の概要: Too Fine or Too Coarse? The Goldilocks Composition of Data Complexity
for Robust Left-Right Eye-Tracking Classifiers
- arxiv url: http://arxiv.org/abs/2209.03761v1
- Date: Wed, 24 Aug 2022 23:18:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-11 13:13:48.557738
- Title: Too Fine or Too Coarse? The Goldilocks Composition of Data Complexity
for Robust Left-Right Eye-Tracking Classifiers
- Title(参考訳): きついか粗いか?
ロバストな左利きアイトラッキング分類器のためのデータ複雑性のgoldilocks合成
- Authors: Brian Xiang and Abdelrahman Abdelmonsef
- Abstract要約: 我々は、細粒度データと粗粒度データの両方からなる混合データセットを用いて機械学習モデルを訓練する。
我々の目的のために、細粒度データはより複雑な方法で収集されたデータを指すのに対し、粗粒度データはより単純な方法で収集されたデータを指す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The differences in distributional patterns between benchmark data and
real-world data have been one of the main challenges of using
electroencephalogram (EEG) signals for eye-tracking (ET) classification.
Therefore, increasing the robustness of machine learning models in predicting
eye-tracking positions from EEG data is integral for both research and consumer
use. Previously, we compared the performance of classifiers trained solely on
finer-grain data to those trained solely on coarse-grain. Results indicated
that despite the overall improvement in robustness, the performance of the
fine-grain trained models decreased, compared to coarse-grain trained models,
when the testing and training set contained the same distributional patterns
\cite{vectorbased}. This paper aims to address this case by training models
using datasets of mixed data complexity to determine the ideal distribution of
fine- and coarse-grain data. We train machine learning models utilizing a mixed
dataset composed of both fine- and coarse-grain data and then compare the
accuracies to models trained using solely fine- or coarse-grain data. For our
purposes, finer-grain data refers to data collected using more complex methods
whereas coarser-grain data refers to data collected using more simple methods.
We apply covariate distributional shifts to test for the susceptibility of each
training set. Our results indicated that the optimal training dataset for
EEG-ET classification is not composed of solely fine- or coarse-grain data, but
rather a mix of the two, leaning towards finer-grain.
- Abstract(参考訳): ベンチマークデータと実世界のデータの分布パターンの違いは、眼球追跡(ET)分類に脳波(EEG)信号を使用する際の大きな課題の1つである。
したがって、脳波データから視線追跡位置を予測する機械学習モデルの堅牢性を高めることは、研究と消費者の両方にとって不可欠である。
従来,細粒データのみを訓練した分類器の性能と粗粒データのみを訓練した分類器の性能を比較した。
その結果, 実験群と訓練群が同一分布パターンである<cite{vector based} を含む場合, 粗粒トレーニングモデルと比較して, 全体としてロバスト性が向上したにもかかわらず, 細粒トレーニングモデルの性能は低下した。
本稿では,混合データ複雑度データセットを用いたモデルを用いて,微細・粗粒データの理想的な分布を決定することを目的とする。
微粒データと粗粒データの両方からなる混合データセットを用いて機械学習モデルを訓練し,その精度を粗粒データのみを用いて訓練したモデルと比較した。
本研究の目的は,より複雑な手法で収集されたデータと,より単純な手法で収集されたデータについて述べることである。
各トレーニングセットの感受性をテストするために,共変量分布シフトを適用した。
脳波-ET分類のための最適なトレーニングデータセットは、単に細粒度または粗粒度のデータからなるのではなく、より細粒度に傾いた2つのデータの組み合わせであることを示した。
関連論文リスト
- Diffusion-based Neural Network Weights Generation [85.6725307453325]
データセット条件付き事前学習重み抽出による効率よく適応的な伝達学習手法を提案する。
具体的には、ニューラルネットワークの重みを再構築できる変分オートエンコーダを備えた潜時拡散モデルを用いる。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Efficient Online Data Mixing For Language Model Pre-Training [101.45242332613944]
既存のデータ選択方法は、遅くて計算コストのかかるプロセスに悩まされる。
一方、データミキシングは、データポイントをまとめることで、データ選択の複雑さを低減する。
我々は,データ選択とデータ混合の両要素を組み合わせたオンラインデータ混合(ODM)の効率的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-05T00:42:35Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - SynBench: Task-Agnostic Benchmarking of Pretrained Representations using
Synthetic Data [78.21197488065177]
近年、下流のタスクで大規模なデータで事前訓練された微調整大型モデルが成功し、ディープラーニングにおける重要なパラダイムシフトにつながった。
本稿では,合成データを用いて事前学習した表現の質を測定するためのタスク非依存フレームワークであるtextitSynBenchを提案する。
論文 参考訳(メタデータ) (2022-10-06T15:25:00Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Vector-Based Data Improves Left-Right Eye-Tracking Classifier
Performance After a Covariate Distributional Shift [0.0]
我々は、より堅牢なベンチマークを作成するために、EEG-ETデータ収集のための微粒なデータアプローチを提案する。
我々は、粗粒データと細粒データの両方を利用して機械学習モデルを訓練し、類似/異なる分布パターンのデータでテストした場合の精度を比較した。
その結果、細粒度ベクトルベースでトレーニングされたモデルは、粗粒度二分分類されたデータでトレーニングされたモデルよりも分布シフトの影響を受けにくいことがわかった。
論文 参考訳(メタデータ) (2022-07-31T16:27:50Z) - Efficient Classification with Counterfactual Reasoning and Active
Learning [4.708737212700907]
CCRALと呼ばれる手法は、因果推論と、元のトレーニングサンプルの反事実サンプルの学習と、不確実性の領域に基づいて有用な反事実サンプルを選択するアクティブラーニングを組み合わせたものである。
実験の結果, CCRALは精度とAUCの点で, ベースラインよりも有意に優れた性能を示した。
論文 参考訳(メタデータ) (2022-07-25T12:03:40Z) - Generating Data to Mitigate Spurious Correlations in Natural Language
Inference Datasets [27.562256973255728]
自然言語処理モデルはしばしば、タスクに依存しない特徴とデータセットのラベルの間の急激な相関を利用して、トレーニング対象のディストリビューション内でのみうまく機能する。
そこで本研究では, 脱バイアス化したデータセットを生成して, 脱バイアス化したオフザシェルフモデルをトレーニングする手法を提案する。
提案手法は,1)高品質なラベル一貫性のあるデータサンプルを生成するためのデータジェネレータの訓練方法,2)素粒子相関に寄与するデータ点を除去するフィルタリング機構から構成される。
論文 参考訳(メタデータ) (2022-03-24T09:08:05Z) - BiFair: Training Fair Models with Bilevel Optimization [8.2509884277533]
我々は,ユーティリティの最小化と公正な関心の喪失を両立させる,BiFairという新しいトレーニングアルゴリズムを開発した。
我々のアルゴリズムは、常により良い性能、すなわち、与えられた公正度メトリックのより優れた値、あるいはより高い精度で到達する。
論文 参考訳(メタデータ) (2021-06-03T22:36:17Z) - Federated Visual Classification with Real-World Data Distribution [9.564468846277366]
我々は,FedAvg(Federated Averaging)アルゴリズムのベンチマークを用いて,実世界のデータ分布が分散学習に与える影響を特徴付ける。
種別とランドマーク分類のための2つの新しい大規模データセットを導入し,ユーザ毎のデータ分割を現実的に行う。
また、2つの新しいアルゴリズム(FedVC、FedIR)も開発しています。
論文 参考訳(メタデータ) (2020-03-18T07:55:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。