Fugu-MT 論文翻訳(概要): From Big to Small Without Losing It All: Text Augmentation with ChatGPT for Efficient Sentiment Analysis

論文の概要: From Big to Small Without Losing It All: Text Augmentation with ChatGPT for Efficient Sentiment Analysis

arxiv url: http://arxiv.org/abs/2312.04720v1
Date: Thu, 7 Dec 2023 21:58:37 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-11 16:43:11.608516
Title: From Big to Small Without Losing It All: Text Augmentation with ChatGPT for Efficient Sentiment Analysis
Title（参考訳）: 全てを失うことなく大きなものから小さなものへ:効率的な感性分析のためのChatGPTによるテキスト強化
Authors: Stanis{\l}aw Wo\'zniak, Jan Koco\'n
Abstract要約: 我々はChatGPTの生成機能を活用して、より小さなモデルの性能を大幅に向上させる合成トレーニングデータを作成する。この革新により、モデルは効率的かつ効果的であり、品質を損なうことなく計算コスト、推論時間、メモリ使用量を削減できる。
参考スコア（独自算出の注目度）: 6.498186943582624
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In the era of artificial intelligence, data is gold but costly to annotate. The paper demonstrates a groundbreaking solution to this dilemma using ChatGPT for text augmentation in sentiment analysis. We leverage ChatGPT's generative capabilities to create synthetic training data that significantly improves the performance of smaller models, making them competitive with, or even outperforming, their larger counterparts. This innovation enables models to be both efficient and effective, thereby reducing computational cost, inference time, and memory usage without compromising on quality. Our work marks a key advancement in the cost-effective development and deployment of robust sentiment analysis models.
Abstract（参考訳）: 人工知能の時代、データは金だがアノテートには費用がかかる。本稿では、感情分析におけるテキスト増強にChatGPTを用いて、このジレンマに対する画期的な解決策を示す。私たちは、chatgptのジェネレーティブな能力を活用して、より小さなモデルのパフォーマンスを著しく向上させ、より大きなモデルと競合し、あるいはパフォーマンスを上回らせるような、総合的なトレーニングデータを作成しました。この革新により、モデルは効率的かつ効果的であり、品質を損なうことなく計算コスト、推論時間、メモリ使用量を削減できる。私たちの研究は、ロバストな感情分析モデルのコスト効率の高い開発と展開における重要な進歩を示しています。

関連論文リスト

Forgetting: A New Mechanism Towards Better Large Language Model Fine-tuning [53.398270878295754]
Supervised Fine-tuning (SFT) は、事前訓練された大規模言語モデル (LLM) において重要な役割を果たす。各コーパス内のトークンを、モデルパフォーマンスを改善するのに有用かどうかに基づいて、正と負の2つの部分に分類することを提案する。我々は、よく確立されたベンチマークで実験を行い、この忘れるメカニズムが全体のモデル性能を向上するだけでなく、より多様なモデル応答を促進することを発見した。
論文参考訳（メタデータ） (2025-08-06T11:22:23Z)
Shifting AI Efficiency From Model-Centric to Data-Centric Compression [33.41504505470217]
効率的なAIの研究の焦点は、モデル中心の圧縮からデータ中心の圧縮へとシフトしている、と我々は主張する。我々はトークン圧縮を新たなフロンティアとして位置づけ、モデルトレーニングや推論中にトークンの数を減らすことでAI効率を向上させる。
論文参考訳（メタデータ） (2025-05-25T13:51:17Z)
Less is More: Adaptive Coverage for Synthetic Training Data [20.136698279893857]
本研究では,最大カバレッジ問題に基づく新しいサンプリングアルゴリズムを導入し,合成されたデータセットから代表サブセットを選択する。この結果から,この文脈的にサンプリングされたサブセット上での分類器のトレーニングは,データセット全体のトレーニングよりも優れた性能が得られることが示された。
論文参考訳（メタデータ） (2025-04-20T06:45:16Z)
Less but Better: Parameter-Efficient Fine-Tuning of Large Language Models for Personality Detection [14.829868031954266]
パーソナリティ検出は、ソーシャルメディアのテキストなど、さまざまなデータソースから個人の個性を自動的に識別する。言語モデルのパラメータスケールが拡大するにつれて、計算コストの管理がますます困難になる。これらの課題に対処するために、パラメータ効率の良い新しい微調整フレームワークPersLLMを紹介した。
論文参考訳（メタデータ） (2025-04-07T18:30:39Z)
Reformulation for Pretraining Data Augmentation [6.3722361366939255]
本稿では,MGA(Massive Genre-Audience)の改訂手法を提案する。スケーリングシナリオにおいて、データ繰り返しとアップサンプリングに対して優れたパフォーマンスを示すことによって、その中核的なメリットを実験的に検証する。我々の研究は、MGAがトレーニングデータセットを大幅に拡張し、繰り返しボトルネックを効果的に軽減し、大規模言語モデルのより効率的なスケーリングを可能にする、信頼性の高い経路を提供することを示している。
論文参考訳（メタデータ） (2025-02-06T17:19:55Z)
Little Giants: Synthesizing High-Quality Embedding Data at Scale [71.352883755806]
SPEEDは,オープンソースの小型モデルと協調して大規模な埋め込みデータを効率的に生成するフレームワークである。 SPEEDはGPT API呼び出しの1/10未満しか使用せず、両者が合成データのみに基づいてトレーニングされている場合、最先端の埋め込みモデルE5_mistralよりも優れている。
論文参考訳（メタデータ） (2024-10-24T10:47:30Z)
Efficient-Empathy: Towards Efficient and Effective Selection of Empathy Data [32.483540066357]
感性・合理性スコアに基づくデータ選択アルゴリズムであるEfficient-Empathyを提案する。我々の訓練された感性モデルは、最先端(SoTA)の性能を効率的に達成する。感度と合理性データをMoE構造と組み合わせることで,さらに高い性能を実現する。
論文参考訳（メタデータ） (2024-07-02T04:11:52Z)
Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文参考訳（メタデータ） (2024-06-18T08:38:59Z)
PLASTIC: Improving Input and Label Plasticity for Sample Efficient Reinforcement Learning [54.409634256153154]
強化学習(RL)では, サンプル効率の向上が重要である。原則として、非政治的なRLアルゴリズムは、環境相互作用毎に複数の更新を可能にすることで、サンプル効率を向上させることができる。本研究は, この現象の原因を, 塑性を2つの側面に分けて検討した。
論文参考訳（メタデータ） (2023-06-19T06:14:51Z)
Controllable Textual Inversion for Personalized Text-to-Image Generation [24.18758951295929]
テキスト・インバージョン(TI)は、ユーザ定義、未確認、ロングテールの概念トークンを含むプロンプトの生成をパーソナライズする効果的な手法として提案されている。本研究では、上記の問題を全て解決し、堅牢で、データ効率が高く、使いやすいフレームワークを提供するために、制御可能なテキスト・インバージョン(COTI)と呼ばれる高機能なTIを提案する。
論文参考訳（メタデータ） (2023-04-11T14:56:44Z)
Does Synthetic Data Generation of LLMs Help Clinical Text Mining? [51.205078179427645]
臨床テキストマイニングにおけるOpenAIのChatGPTの可能性を検討する。本稿では,高品質な合成データを大量に生成する新たな学習パラダイムを提案する。提案手法により,下流タスクの性能が大幅に向上した。
論文参考訳（メタデータ） (2023-03-08T03:56:31Z)
AugGPT: Leveraging ChatGPT for Text Data Augmentation [59.76140039943385]
本稿では,ChatGPT(AugGPT)に基づくテキストデータ拡張手法を提案する。 AugGPTはトレーニングサンプルの各文を、概念的には似ているが意味的に異なる複数のサンプルに言い換える。数ショットの学習テキスト分類タスクの実験結果は、提案したAugGPTアプローチの優れた性能を示している。
論文参考訳（メタデータ） (2023-02-25T06:58:16Z)
DeepSpeed Data Efficiency: Improving Deep Learning Model Quality and Training Efficiency via Efficient Data Sampling and Routing [57.86954315102865]
DeepSpeed Data Efficiencyは、データの利用性を向上し、トレーニング効率を向上し、モデル品質を改善するフレームワークである。 GPT-3 1.3B言語モデルの事前トレーニングでは、全データとコストのベースラインに比べて、モデル品質の95%を維持しながら、データ/時間/コストの12.5倍の削減を実現しています。 GPT-3 1.3B と BERT-large の事前トレーニングでは、データ/時間/コストの最大2倍のコストで同じモデル品質を達成することができ、同じデータ/時間/コストでより良いモデル品質を達成することができます。
論文参考訳（メタデータ） (2022-12-07T12:27:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。