論文の概要: RAZOR: Refining Accuracy by Zeroing Out Redundancies
- arxiv url: http://arxiv.org/abs/2410.14254v1
- Date: Fri, 18 Oct 2024 08:04:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:24:48.418623
- Title: RAZOR: Refining Accuracy by Zeroing Out Redundancies
- Title(参考訳): RAZOR:冗長性をゼロにすることで精度を向上
- Authors: Daniel Riccio, Genoveffa Tortora, Mara Sangiovanni,
- Abstract要約: ディープラーニング領域では、追加データの有用性はその情報性に依存している。
RAZORは,より小さいが十分な情報的部分集合を抽出するために設計された,新しいインスタンス選択手法である。
文学における多くの技術とは異なり、RAZORは教師なしと教師なしの両方の設定で操作できる。
- 参考スコア(独自算出の注目度): 4.731404257629232
- License:
- Abstract: In many application domains, the proliferation of sensors and devices is generating vast volumes of data, imposing significant pressure on existing data analysis and data mining techniques. Nevertheless, an increase in data volume does not inherently imply an increase in informational content, as a substantial portion may be redundant or represent noise. This challenge is particularly evident in the deep learning domain, where the utility of additional data is contingent on its informativeness. In the absence of such, larger datasets merely exacerbate the computational cost and complexity of the learning process. To address these challenges, we propose RAZOR, a novel instance selection technique designed to extract a significantly smaller yet sufficiently informative subset from a larger set of instances without compromising the learning process. RAZOR has been specifically engineered to be robust, efficient, and scalable, making it suitable for large-scale datasets. Unlike many techniques in the literature, RAZOR is capable of operating in both supervised and unsupervised settings. Experimental results demonstrate that RAZOR outperforms recent state-of-the-art techniques in terms of both effectiveness and efficiency.
- Abstract(参考訳): 多くのアプリケーション領域において、センサーやデバイスの普及は膨大な量のデータを生成しており、既存のデータ分析とデータマイニング技術に大きなプレッシャーを与えている。
それでも、データ量の増加は本質的には情報量の増加を意味するものではない。
この課題は、追加データの有用性がその情報性に依存しているディープラーニング領域において特に顕著である。
このようなデータセットがないと、学習プロセスの計算コストと複雑さが悪化するだけである。
これらの課題に対処するために,学習過程を損なうことなく,より小さくかつ十分な情報的サブセットを抽出する新しいインスタンス選択手法であるRAZORを提案する。
RAZORは、堅牢で効率的でスケーラブルなように設計されており、大規模なデータセットに適している。
文学における多くの技術とは異なり、RAZORは教師なしと教師なしの両方の設定で操作できる。
実験結果から,RAZORは最近の最先端技術よりも有効性と効率の両面で優れていることが示された。
関連論文リスト
- D3A-TS: Denoising-Driven Data Augmentation in Time Series [0.0]
本研究は,分類と回帰問題に対する時系列におけるデータ拡張のための異なる手法の研究と分析に焦点をあてる。
提案手法は拡散確率モデルを用いており、近年画像処理の分野で成功している。
その結果、この手法が、分類と回帰モデルを訓練するための合成データを作成する上で、高い有用性を示している。
論文 参考訳(メタデータ) (2023-12-09T11:37:07Z) - Semi-supervised Relation Extraction via Data Augmentation and
Consistency-training [2.2209333405427585]
半教師付き学習手法は,ラベル付きデータポイントからの学習に加えて,非ラベル付きデータを活用することを目的としている。
近年,一貫性に基づく半教師付き学習手法と組み合わさった強力なデータ拡張が,SSLタスクにおける最先端技術である。
本研究では,制御されたテキスト生成の最近の進歩を活用し,関係抽出タスクの高品質なデータ拡張を行う。
論文 参考訳(メタデータ) (2023-06-16T19:45:42Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - Boosting Event Extraction with Denoised Structure-to-Text Augmentation [52.21703002404442]
イベント抽出は、テキストから事前に定義されたイベントトリガと引数を認識することを目的としている。
最近のデータ拡張手法は文法的誤りの問題を無視することが多い。
本稿では,イベント抽出DAEEのための記述構造からテキストへの拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-16T16:52:07Z) - A Comprehensive Survey of Dataset Distillation [73.15482472726555]
限られた計算能力で無制限に成長するデータを扱うことは困難になっている。
ディープラーニング技術はこの10年で前例のない発展を遂げた。
本稿では,多面的なデータセット蒸留の総合的な理解を提供する。
論文 参考訳(メタデータ) (2023-01-13T15:11:38Z) - On-Device Domain Generalization [93.79736882489982]
ドメインの一般化はデバイス上の機械学習アプリケーションにとって重要である。
知識蒸留がこの問題の解決の有力な候補であることがわかった。
本研究では,教師が配布外データをどのように扱えるかを学生に教えることを目的とした,配布外知識蒸留(OKD)という簡単なアイデアを提案する。
論文 参考訳(メタデータ) (2022-09-15T17:59:31Z) - A Survey of Learning on Small Data: Generalization, Optimization, and
Challenge [101.27154181792567]
ビッグデータの一般化能力を近似した小さなデータについて学ぶことは、AIの究極の目的の1つである。
この調査はPACフレームワークの下でのアクティブサンプリング理論に従い、小さなデータにおける学習の一般化誤差とラベルの複雑さを分析した。
効率的な小さなデータ表現の恩恵を受けるかもしれない複数のデータアプリケーションについて調査する。
論文 参考訳(メタデータ) (2022-07-29T02:34:19Z) - Local Explanation of Dimensionality Reduction [9.202274047046151]
LXDR(LXDR)は,次元性低減手法の出力を局所的に解釈できる技術である。
実験結果と2つのLXDR使用例を示し,その有用性を評価した。
論文 参考訳(メタデータ) (2022-04-29T10:56:12Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Auto-encoder based Model for High-dimensional Imbalanced Industrial Data [6.339700878842761]
分散重み付きマルチヘッドオートエンコーダ分類モデルを導入し,高次元および高不均衡なデータによく適合する。
また、出力制御された表現学習とマルチタスク重み付けを利用して、複数の出力を同時に予測する。
論文 参考訳(メタデータ) (2021-08-04T14:34:59Z) - A Close Look at Deep Learning with Small Data [0.0]
モデル複雑性は、クラス毎に数個のサンプルしか利用できない場合に重要な要素であることを示す。
また、標準的なデータ拡張であっても、認識性能を大きなマージンで向上させることができることを示す。
論文 参考訳(メタデータ) (2020-03-28T17:11:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。