論文の概要: RAZOR: Refining Accuracy by Zeroing Out Redundancies
- arxiv url: http://arxiv.org/abs/2410.14254v1
- Date: Fri, 18 Oct 2024 08:04:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:24:48.418623
- Title: RAZOR: Refining Accuracy by Zeroing Out Redundancies
- Title(参考訳): RAZOR:冗長性をゼロにすることで精度を向上
- Authors: Daniel Riccio, Genoveffa Tortora, Mara Sangiovanni,
- Abstract要約: ディープラーニング領域では、追加データの有用性はその情報性に依存している。
RAZORは,より小さいが十分な情報的部分集合を抽出するために設計された,新しいインスタンス選択手法である。
文学における多くの技術とは異なり、RAZORは教師なしと教師なしの両方の設定で操作できる。
- 参考スコア(独自算出の注目度): 4.731404257629232
- License:
- Abstract: In many application domains, the proliferation of sensors and devices is generating vast volumes of data, imposing significant pressure on existing data analysis and data mining techniques. Nevertheless, an increase in data volume does not inherently imply an increase in informational content, as a substantial portion may be redundant or represent noise. This challenge is particularly evident in the deep learning domain, where the utility of additional data is contingent on its informativeness. In the absence of such, larger datasets merely exacerbate the computational cost and complexity of the learning process. To address these challenges, we propose RAZOR, a novel instance selection technique designed to extract a significantly smaller yet sufficiently informative subset from a larger set of instances without compromising the learning process. RAZOR has been specifically engineered to be robust, efficient, and scalable, making it suitable for large-scale datasets. Unlike many techniques in the literature, RAZOR is capable of operating in both supervised and unsupervised settings. Experimental results demonstrate that RAZOR outperforms recent state-of-the-art techniques in terms of both effectiveness and efficiency.
- Abstract(参考訳): 多くのアプリケーション領域において、センサーやデバイスの普及は膨大な量のデータを生成しており、既存のデータ分析とデータマイニング技術に大きなプレッシャーを与えている。
それでも、データ量の増加は本質的には情報量の増加を意味するものではない。
この課題は、追加データの有用性がその情報性に依存しているディープラーニング領域において特に顕著である。
このようなデータセットがないと、学習プロセスの計算コストと複雑さが悪化するだけである。
これらの課題に対処するために,学習過程を損なうことなく,より小さくかつ十分な情報的サブセットを抽出する新しいインスタンス選択手法であるRAZORを提案する。
RAZORは、堅牢で効率的でスケーラブルなように設計されており、大規模なデータセットに適している。
文学における多くの技術とは異なり、RAZORは教師なしと教師なしの両方の設定で操作できる。
実験結果から,RAZORは最近の最先端技術よりも有効性と効率の両面で優れていることが示された。
関連論文リスト
- Deep-and-Wide Learning: Enhancing Data-Driven Inference via Synergistic Learning of Inter- and Intra-Data Representations [8.013386998355966]
現在のディープニューラルネットワーク(DNN)モデルは、大量のデータと計算リソースの要求など、いくつかの課題に直面している。
本稿では,DWL(Deep-and-wide Learning)と呼ばれる新しい学習手法を導入する。
我々はDWLが最先端のDNNの精度を、限られた訓練データでかなりの差で上回っていることを示す。
論文 参考訳(メタデータ) (2025-01-28T23:47:34Z) - An Experimental Study on Data Augmentation Techniques for Named Entity Recognition on Low-Resource Domains [0.9903198600681908]
広範に使われている2つのNERモデル(Bi-LSTM+CRFとBERT)において、メンション・リプレースメントとコンテキスト・ワード・リプレースメントという2つの顕著なテキスト拡張手法の有効性を評価する。
低リソース領域からの4つのデータセットについて実験を行い、トレーニングサブセットサイズと拡張例の数による様々な組み合わせの影響について検討する。
論文 参考訳(メタデータ) (2024-11-21T19:45:48Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - Boosting Event Extraction with Denoised Structure-to-Text Augmentation [52.21703002404442]
イベント抽出は、テキストから事前に定義されたイベントトリガと引数を認識することを目的としている。
最近のデータ拡張手法は文法的誤りの問題を無視することが多い。
本稿では,イベント抽出DAEEのための記述構造からテキストへの拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-16T16:52:07Z) - A Comprehensive Survey of Dataset Distillation [73.15482472726555]
限られた計算能力で無制限に成長するデータを扱うことは困難になっている。
ディープラーニング技術はこの10年で前例のない発展を遂げた。
本稿では,多面的なデータセット蒸留の総合的な理解を提供する。
論文 参考訳(メタデータ) (2023-01-13T15:11:38Z) - On-Device Domain Generalization [93.79736882489982]
ドメインの一般化はデバイス上の機械学習アプリケーションにとって重要である。
知識蒸留がこの問題の解決の有力な候補であることがわかった。
本研究では,教師が配布外データをどのように扱えるかを学生に教えることを目的とした,配布外知識蒸留(OKD)という簡単なアイデアを提案する。
論文 参考訳(メタデータ) (2022-09-15T17:59:31Z) - A Survey of Learning on Small Data: Generalization, Optimization, and
Challenge [101.27154181792567]
ビッグデータの一般化能力を近似した小さなデータについて学ぶことは、AIの究極の目的の1つである。
この調査はPACフレームワークの下でのアクティブサンプリング理論に従い、小さなデータにおける学習の一般化誤差とラベルの複雑さを分析した。
効率的な小さなデータ表現の恩恵を受けるかもしれない複数のデータアプリケーションについて調査する。
論文 参考訳(メタデータ) (2022-07-29T02:34:19Z) - Local Explanation of Dimensionality Reduction [9.202274047046151]
LXDR(LXDR)は,次元性低減手法の出力を局所的に解釈できる技術である。
実験結果と2つのLXDR使用例を示し,その有用性を評価した。
論文 参考訳(メタデータ) (2022-04-29T10:56:12Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Auto-encoder based Model for High-dimensional Imbalanced Industrial Data [6.339700878842761]
分散重み付きマルチヘッドオートエンコーダ分類モデルを導入し,高次元および高不均衡なデータによく適合する。
また、出力制御された表現学習とマルチタスク重み付けを利用して、複数の出力を同時に予測する。
論文 参考訳(メタデータ) (2021-08-04T14:34:59Z) - A Close Look at Deep Learning with Small Data [0.0]
モデル複雑性は、クラス毎に数個のサンプルしか利用できない場合に重要な要素であることを示す。
また、標準的なデータ拡張であっても、認識性能を大きなマージンで向上させることができることを示す。
論文 参考訳(メタデータ) (2020-03-28T17:11:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。