論文の概要: Optimizing Performance: How Compact Models Match or Exceed GPT's Classification Capabilities through Fine-Tuning
- arxiv url: http://arxiv.org/abs/2409.11408v1
- Date: Thu, 22 Aug 2024 09:10:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 20:01:55.157665
- Title: Optimizing Performance: How Compact Models Match or Exceed GPT's Classification Capabilities through Fine-Tuning
- Title(参考訳): 性能最適化 - 微調整によるコンパクトモデルとGPTの分類能力の一致
- Authors: Baptiste Lefort, Eric Benhamou, Jean-Jacques Ohana, David Saltiel, Beatrice Guez,
- Abstract要約: 非生成の小型モデルは、ゼロショット学習設定でGPT-3.5およびGPT-4モデルより優れている。
細調整されたモデルは、市場感情を決定するタスクに基づいて微調整されたときに、GPT-3.5に匹敵する結果を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we demonstrate that non-generative, small-sized models such as FinBERT and FinDRoBERTa, when fine-tuned, can outperform GPT-3.5 and GPT-4 models in zero-shot learning settings in sentiment analysis for financial news. These fine-tuned models show comparable results to GPT-3.5 when it is fine-tuned on the task of determining market sentiment from daily financial news summaries sourced from Bloomberg. To fine-tune and compare these models, we created a novel database, which assigns a market score to each piece of news without human interpretation bias, systematically identifying the mentioned companies and analyzing whether their stocks have gone up, down, or remained neutral. Furthermore, the paper shows that the assumptions of Condorcet's Jury Theorem do not hold suggesting that fine-tuned small models are not independent of the fine-tuned GPT models, indicating behavioural similarities. Lastly, the resulted fine-tuned models are made publicly available on HuggingFace, providing a resource for further research in financial sentiment analysis and text classification.
- Abstract(参考訳): 本稿では,FinBERTやFinDRoBERTaのような非生成型・小型モデルにおいて,財務ニュースの感情分析におけるゼロショット学習設定において,GPT-3.5やGPT-4モデルよりも優れた性能を示すことを示す。
これらの微調整されたモデルは、ブルームバーグが発行した毎日の金融ニュースの要約から市場のセンチメントを決定するタスクを微調整した時に、GPT-3.5に匹敵する結果を示す。
これらのモデルを微調整し、比較するために、我々は、人間の解釈バイアスを伴わずに、市場スコアを各ニュースに割り当てる新しいデータベースを作成しました。
さらに,Condorcet の Jury Theorem の仮定は,細調整された小型モデルが細調整された GPT モデルとは独立ではないことを示唆せず,挙動の類似性を示している。
最後に、得られた細調整されたモデルは、HuggingFaceで公開されており、財務感情分析とテキスト分類のさらなる研究のためのリソースを提供する。
関連論文リスト
- Editable Fairness: Fine-Grained Bias Mitigation in Language Models [52.66450426729818]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - On Sarcasm Detection with OpenAI GPT-based Models [0.0]
サルカズム(Sarcasm)は、読者やリスナーが文脈や社会的手がかりを考慮し、意図した意味を解釈することを要求する皮肉の一形態である。
機械学習の分類モデルは、その社会的複雑さと矛盾する性質のために、長い間、皮肉を検出するのに難しかった。
本稿では, GPT-3, InstructGPT, GPT-3.5, GPT-4 などの生成事前学習型トランスフォーマ(GPT)モデルを用いて, 自然言語の皮肉を検出する手法を提案する。
論文 参考訳(メタデータ) (2023-12-07T19:00:56Z) - Large language models for aspect-based sentiment analysis [0.0]
GPT-4 と GPT-3.5 の性能をゼロショット, 少ないショット, 微調整で評価した。
微調整 GPT-3.5 は、共同アスペクト項抽出と極性分類タスクにおいて最先端の F1 スコア 83.8 を達成する。
論文 参考訳(メタデータ) (2023-10-27T10:03:21Z) - Breaking the Bank with ChatGPT: Few-Shot Text Classification for Finance [4.305568120980929]
GPT-3.5とGPT-4によるインコンテキスト学習は、必要な技術的専門知識を最小化し、高価なGPUコンピューティングの必要性を排除する。
トレーニング済みでマスキングされた他の言語モデルをSetFitで微調整して、フルデータと少数ショットの両方で最先端の結果を得る。
その結果, GPT-3.5 と GPT-4 のクエリは, より少ない例でも, 微調整, 非生成モデルより優れていることがわかった。
論文 参考訳(メタデータ) (2023-08-28T15:04:16Z) - DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT
Models [92.6951708781736]
本稿では,GPT-4とGPT-3.5に着目した大規模言語モデルの総合的信頼性評価を提案する。
GPTモデルは、有害で偏りのある出力を生成し、個人情報を漏らすために、容易に誤解され得る。
我々の研究は、GPTモデルの総合的な信頼性評価を示し、信頼性のギャップに光を当てている。
論文 参考訳(メタデータ) (2023-06-20T17:24:23Z) - InheritSumm: A General, Versatile and Compact Summarizer by Distilling
from GPT [75.29359361404073]
InheritSummは、蒸留によりGPT-3.5から派生した汎用的でコンパクトな要約モデルである。
GPT-3.5と同様、ゼロショットやスプリットショットの設定でパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-05-22T14:52:32Z) - A Comprehensive Capability Analysis of GPT-3 and GPT-3.5 Series Models [71.42197262495056]
GPTシリーズモデルは、その例外的な自然言語処理能力により、かなりの注目を集めている。
2つのGPT-3系列モデルと4つのGPT-3.5系列モデルからなる6つの代表モデルを選択する。
21個のデータセットを用いて,9つの自然言語理解タスク(NLU)の性能評価を行った。
実験の結果,NLUタスクにおけるGPTシリーズモデルの全体的な能力は,モデルが進化するにつれて徐々に向上しないことがわかった。
論文 参考訳(メタデータ) (2023-03-18T14:02:04Z) - GPT-Neo for commonsense reasoning -- a theoretical and practical lens [0.46040036610482665]
我々は6ドルのコモンセンス推論ベンチマークタスクを用いてGPT-neoモデルの性能を評価する。
我々は,GPT-neoモデルを用いて,より大規模なモデルベースラインに対して,より小さなモデルの性能を検討することを目的とする。
論文 参考訳(メタデータ) (2022-11-28T17:49:38Z) - Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。
GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-17T14:52:39Z) - News Summarization and Evaluation in the Era of GPT-3 [73.48220043216087]
GPT-3は,大規模な要約データセット上で訓練された微調整モデルと比較する。
我々は,GPT-3サマリーが圧倒的に好まれるだけでなく,タスク記述のみを用いることで,現実性に乏しいようなデータセット固有の問題に悩まされることも示している。
論文 参考訳(メタデータ) (2022-09-26T01:04:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。