論文の概要: Enhancing Zero-Shot Crypto Sentiment with Fine-tuned Language Model and
Prompt Engineering
- arxiv url: http://arxiv.org/abs/2310.13226v1
- Date: Fri, 20 Oct 2023 02:15:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 00:56:44.962452
- Title: Enhancing Zero-Shot Crypto Sentiment with Fine-tuned Language Model and
Prompt Engineering
- Title(参考訳): 微調整言語モデルとプロンプトエンジニアリングによるゼロショット暗号感情の強化
- Authors: Rahman S M Wahidur, Ishmam Tashdeed, Manjit Kaur, Heung-No-Lee
- Abstract要約: 本稿では,暗号通貨領域における感情分析の精度を高めることを目的として,大規模言語モデルの微調整技術について検討する。
また,大規模言語モデルにおける教師付き微調整と命令に基づく微調整の有効性について検討した。
- 参考スコア(独自算出の注目度): 2.280359339174839
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Blockchain technology has revolutionized the financial landscape, with
cryptocurrencies gaining widespread adoption for their decentralized and
transparent nature. As the sentiment expressed on social media platforms can
significantly influence cryptocurrency discussions and market movements,
sentiment analysis has emerged as a crucial tool for understanding public
opinion and predicting market trends. Motivated by the aim to enhance sentiment
analysis accuracy in the cryptocurrency domain, this paper investigates
fine-tuning techniques on large language models. This paper also investigates
the efficacy of supervised fine-tuning and instruction-based fine-tuning on
large language models for unseen tasks. Experimental results demonstrate a
significant average zero-shot performance gain of 40% after fine-tuning,
highlighting the potential of this technique in optimizing pre-trained language
model efficiency. Additionally, the impact of instruction tuning on models of
varying scales is examined, revealing that larger models benefit from
instruction tuning, achieving the highest average accuracy score of 75.16%. In
contrast, smaller-scale models may experience reduced generalization due to the
complete utilization of model capacity. To gain deeper insight about how
instruction works with these language models, this paper presents an
experimental investigation into the response of an instruction-based model
under different instruction tuning setups. The investigation demonstrates that
the model achieves an average accuracy score of 72.38% for short and simple
instructions. This performance significantly outperforms its accuracy under
long and complex instructions by over 12%, thereby effectively highlighting the
profound significance of instruction characteristics in maximizing model
performance.
- Abstract(参考訳): ブロックチェーン技術は金融界に革命をもたらし、暗号通貨は分散的で透明な性質で広く採用されている。
ソーシャルメディアプラットフォーム上で表現される感情が暗号通貨の議論や市場の動きに大きく影響を与えるため、世論の理解と市場のトレンドを予測するための重要なツールとして感情分析が登場した。
本稿では,暗号通貨領域における感情分析の精度向上を目的として,大規模言語モデルの微調整手法について検討する。
本稿では,大規模言語モデルにおける教師付き微調整と命令に基づく微調整の有効性についても検討する。
実験結果から、微調整後の平均ゼロショット性能は40%向上し、事前学習した言語モデルの効率を最適化する上で、この手法の可能性を強調した。
さらに、様々なスケールのモデルに対する命令チューニングの影響について検討し、より大きなモデルが命令チューニングの恩恵を受け、最高平均精度スコア75.16%に達したことを明らかにした。
対照的に、小型モデルはモデルキャパシティの完全利用による一般化の低減を経験することができる。
本稿では,これらの言語モデルで命令がどのように機能するかを深く把握するために,異なる命令チューニング設定下での命令ベースモデルの応答について実験的に検討する。
このモデルは、短い命令と単純な命令で72.38%の平均精度スコアを達成している。
この性能は、長い命令と複雑な命令の精度を12%以上上回り、モデル性能の最大化における命令特性の意義を効果的に強調する。
関連論文リスト
- Analyzing Persuasive Strategies in Meme Texts: A Fusion of Language Models with Paraphrase Enrichment [0.23020018305241333]
本稿では,ミームテキストにおける説得手法の階層的マルチラベル検出へのアプローチについて述べる。
本研究の範囲は、革新的なトレーニング技術とデータ強化戦略を通じて、モデルパフォーマンスの向上を含む。
論文 参考訳(メタデータ) (2024-07-01T20:25:20Z) - Efficient Model-agnostic Alignment via Bayesian Persuasion [13.42367964190663]
本稿では,モデル非依存かつ軽量なベイズ型説得アライメントフレームワークを提案する。
説得プロセスでは、小さなモデル(アドバイザ)が情報項目(すなわち状態)を観察し、大きなモデル(Receiver)を説得して、改善された応答を引き出す。
GPT-2は様々なモデルの性能を大幅に向上させ,数学的推論能力の平均16.1%,コード生成能力は13.7%向上した。
論文 参考訳(メタデータ) (2024-05-29T02:57:07Z) - DETAIL: Task DEmonsTration Attribution for Interpretable In-context Learning [75.68193159293425]
インコンテキスト学習(ICL)により、トランスフォーマーベースの言語モデルでは、パラメータを更新することなく、いくつかの"タスクデモ"で特定のタスクを学習することができる。
ICLの特徴に対処する影響関数に基づく帰属手法DETAILを提案する。
ホワイトボックスモデルで得られた属性スコアがブラックボックスモデルに転送可能であることを示すことにより、モデル性能を向上させる上で、DETAILの広範な適用性を実験的に証明する。
論文 参考訳(メタデータ) (2024-05-22T15:52:52Z) - Observational Scaling Laws and the Predictability of Language Model Performance [51.2336010244645]
本稿では、モデルトレーニングを回避し、100のパブリックモデルからスケーリング法則を構築する観察的アプローチを提案する。
いくつかの創発現象が滑らかでシグモダルな挙動を辿り、小さなモデルから予測可能であることを示す。
言語モデル機能の改善が進むにつれて、Chain-of-ThoughtやSelf-Consistencyといったポストトレーニング介入の影響を予測する方法を示す。
論文 参考訳(メタデータ) (2024-05-17T17:49:44Z) - INSTRUCTEVAL: Towards Holistic Evaluation of Instruction-Tuned Large
Language Models [39.46610170563634]
INSTRUCTEVALは、命令調整された大規模言語モデルのために特別に設計された、より包括的な評価スイートである。
我々は,事前学習の基礎,指導指導データ,訓練方法など,モデル性能に影響を与える諸要因を総合的に分析する。
その結果, モデル性能のスケーリングにおいて, 命令データの品質が最も重要な要因であることが判明した。
論文 参考訳(メタデータ) (2023-06-07T20:12:29Z) - Exploring the Impact of Instruction Data Scaling on Large Language
Models: An Empirical Study on Real-World Use Cases [17.431381376675432]
本稿では,命令データのスケールの異なる命令データに対して,命令チューニングに基づく大規模言語モデルの性能について検討する。
ベースモデルとしてBloomz-7B1-mtを用いると、命令データの量を増やすだけで、オープン・エンド・ジェネレーションのようなタスクが継続的に改善されることが示される。
本稿では,高品質なトレーニングデータ,スケールベースモデル,ハードタスクに特化したトレーニング手法を効果的に選択する,といった将来的な研究方向を提案する。
論文 参考訳(メタデータ) (2023-03-26T14:49:37Z) - Feeding What You Need by Understanding What You Learned [54.400455868448695]
Machine Reading (MRC)は、与えられたテキストパスを理解し、それに基づいて質問に答える機能を明らかにする。
MRCの既存の研究は、Exact Matchのようなメトリクスによって評価されたパフォーマンスを改善するために、大規模なモデルとコーパスに大きく依存している。
モデル機能とデータ特性の深い理解は、適切なトレーニングデータでモデルをフィードするのに役立ちます。
論文 参考訳(メタデータ) (2022-03-05T14:15:59Z) - The Evolution of Out-of-Distribution Robustness Throughout Fine-Tuning [25.85044477227461]
このベースラインに対するアウト・オブ・ディストリビューションデータより正確であるモデルは「有効ロバスト性」を示す。
より大規模なデータセットで事前トレーニングされたモデルは、収束時に消滅するトレーニング中に効果的な堅牢性を示す。
本稿では, 最先端システムに効率的なロバスト性を拡張し, 最先端モデルの分布外精度を向上させるためのいくつかの戦略について論じる。
論文 参考訳(メタデータ) (2021-06-30T06:21:42Z) - Knowledge distillation: A good teacher is patient and consistent [71.14922743774864]
最先端のパフォーマンスを実現する大規模モデルと、実用的な用途で手頃な価格のモデルとの間には、コンピュータビジョンの相違が増えている。
蒸留の有効性に大きな影響を及ぼす可能性のある,特定の暗黙的な設計選択を同定する。
ImageNetの最先端ResNet-50モデルが82.8%の精度で実現されている。
論文 参考訳(メタデータ) (2021-06-09T17:20:40Z) - Models, Pixels, and Rewards: Evaluating Design Trade-offs in Visual
Model-Based Reinforcement Learning [109.74041512359476]
視覚的MBRLアルゴリズムにおける予測モデルの設計決定について検討する。
潜在空間の使用など、しばしば重要と見なされる設計上の決定は、タスクのパフォーマンスにはほとんど影響しないことが分かりました。
我々は,この現象が探索とどのように関係しているか,および標準ベンチマークにおける下位スコーリングモデルのいくつかが,同じトレーニングデータでトレーニングされた場合のベストパフォーマンスモデルと同等の性能を発揮するかを示す。
論文 参考訳(メタデータ) (2020-12-08T18:03:21Z) - Selecting Informative Contexts Improves Language Model Finetuning [66.26521454263343]
本稿では,情報ゲインフィルタと呼ぶ汎用的な微調整手法を提案する。
微調整中、二次学習者は情報的例を選択し、非情報的例をスキップする。
提案手法は,データセット,微調整タスク,言語モデルアーキテクチャ間で一貫した改善がなされていることを示す。
論文 参考訳(メタデータ) (2020-05-01T02:01:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。