論文の概要: Efficient Sentiment Analysis: A Resource-Aware Evaluation of Feature
Extraction Techniques, Ensembling, and Deep Learning Models
- arxiv url: http://arxiv.org/abs/2308.02022v1
- Date: Thu, 3 Aug 2023 20:29:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-07 14:43:20.407442
- Title: Efficient Sentiment Analysis: A Resource-Aware Evaluation of Feature
Extraction Techniques, Ensembling, and Deep Learning Models
- Title(参考訳): 効率的な感情分析:特徴抽出手法,センシング,深層学習モデルの資源対応評価
- Authors: Mahammed Kamruzzaman and Gene Louis Kim
- Abstract要約: 我々は,資源コストに着目した文書レベルの感情分析モデルを評価する。
より小さなデータセットでは,資源消費の差が大きくなるにつれて精度の差が小さくなることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While reaching for NLP systems that maximize accuracy, other important
metrics of system performance are often overlooked. Prior models are easily
forgotten despite their possible suitability in settings where large computing
resources are unavailable or relatively more costly. In this paper, we perform
a broad comparative evaluation of document-level sentiment analysis models with
a focus on resource costs that are important for the feasibility of model
deployment and general climate consciousness. Our experiments consider
different feature extraction techniques, the effect of ensembling,
task-specific deep learning modeling, and domain-independent large language
models (LLMs). We find that while a fine-tuned LLM achieves the best accuracy,
some alternate configurations provide huge (up to 24, 283 *) resource savings
for a marginal (<1%) loss in accuracy. Furthermore, we find that for smaller
datasets, the differences in accuracy shrink while the difference in resource
consumption grows further.
- Abstract(参考訳): 精度を最大化するNLPシステムに到達している間、システムパフォーマンスの他の重要な指標はしばしば見過ごされる。
以前のモデルは、大規模なコンピューティングリソースが利用できない、あるいは比較的コストがかかる設定で適しているにもかかわらず、簡単に忘れられる。
本稿では,モデル展開と一般的な気候意識の実現に重要な資源コストに着目し,文書レベルの感情分析モデルの広範な比較評価を行う。
実験では,異なる特徴抽出手法,センシングの効果,タスク固有の深層学習モデル,ドメインに依存しない大規模言語モデル(llm)について検討した。
微調整 LLM が最高の精度を達成する一方で、いくつかの代替構成は、限界値 (<1%) の精度でリソースを節約できる(最大24, 283* まで)。
さらに,より小さなデータセットでは,リソース消費の差がさらに増加する一方,精度の差は小さくなることがわかった。
関連論文リスト
- Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - QualEval: Qualitative Evaluation for Model Improvement [86.29905469151566]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - Quality In / Quality Out: Assessing Data quality in an Anomaly Detection
Benchmark [0.13764085113103217]
同じベンチマークデータセット(異常検出のためのフローベースリアルタイムデータセットであるUGR'16)に対する比較的小さな変更は、考慮した機械学習技術よりも、モデルパフォーマンスに著しく影響することを示します。
この結果から,自律型ネットワークにおけるデータ品質評価と最適化技術に,より注意を払う必要があることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T12:03:12Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - LAVA: Data Valuation without Pre-Specified Learning Algorithms [20.578106028270607]
我々は、下流学習アルゴリズムに不利な方法でトレーニングデータを評価できる新しいフレームワークを導入する。
本研究では,訓練と検証セット間の非伝統的なクラスワイドワッサースタイン距離に基づいて,トレーニングセットに関連する検証性能のプロキシを開発する。
距離は、特定のリプシッツ条件下での任意のモデルに対する検証性能の上限を特徴付けることを示す。
論文 参考訳(メタデータ) (2023-04-28T19:05:16Z) - Complementary Ensemble Learning [1.90365714903665]
我々は最先端のディープラーニングモデルの性能向上手法を考案した。
具体的には、最先端モデルの不確実性を補完できる補助モデルを訓練する。
論文 参考訳(メタデータ) (2021-11-09T03:23:05Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - Towards Explainable Exploratory Landscape Analysis: Extreme Feature
Selection for Classifying BBOB Functions [4.932130498861987]
驚くほど少数の機能(多くの場合4つ未満)が、98%の精度を達成するのに十分であることを示している。
分類精度は、いくつかのインスタンスがトレーニングやテストに関わっている設定に変換されることを示す。
論文 参考訳(メタデータ) (2021-02-01T10:04:28Z) - Cost-Effective Federated Learning Design [37.16466118235272]
フェデレーション学習(federated learning, fl)は、多数のデバイスが生のデータを共有することなく、協調的にモデルを学習できる分散学習パラダイムである。
その効率性と有効性にもかかわらず、反復的なオンデバイス学習プロセスは、学習時間とエネルギー消費の面でかなりのコストを伴います。
本稿では,本質的制御変数を最適に選択する適応型flの設計法を分析し,総コストを最小化し,収束性を確保した。
論文 参考訳(メタデータ) (2020-12-15T14:45:11Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。