論文の概要: Explainable Sentiment Analysis with DeepSeek-R1: Performance, Efficiency, and Few-Shot Learning
- arxiv url: http://arxiv.org/abs/2503.11655v2
- Date: Mon, 30 Jun 2025 12:58:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 15:08:39.145186
- Title: Explainable Sentiment Analysis with DeepSeek-R1: Performance, Efficiency, and Few-Shot Learning
- Title(参考訳): DeepSeek-R1による説明可能な感性分析:パフォーマンス、効率、およびFew-Shot Learning
- Authors: Donghao Huang, Zhaoxia Wang,
- Abstract要約: DeepSeek-R1はOpenAIのGPT-4oとGPT-4o-miniに対するオープンソース推論モデルである。
実験の結果、DeepSeek-R1は5クラスの感情で91.39%のF1スコア、バイナリタスクで99.31%の精度を5ショットで達成した。
- 参考スコア(独自算出の注目度): 1.1318175666743655
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have transformed sentiment analysis, yet balancing accuracy, efficiency, and explainability remains a critical challenge. This study presents the first comprehensive evaluation of DeepSeek-R1--an open-source reasoning model--against OpenAI's GPT-4o and GPT-4o-mini. We test the full 671B model and its distilled variants, systematically documenting few-shot learning curves. Our experiments show DeepSeek-R1 achieves a 91.39\% F1 score on 5-class sentiment and 99.31\% accuracy on binary tasks with just 5 shots, an eightfold improvement in few-shot efficiency over GPT-4o. Architecture-specific distillation effects emerge, where a 32B Qwen2.5-based model outperforms the 70B Llama-based variant by 6.69 percentage points. While its reasoning process reduces throughput, DeepSeek-R1 offers superior explainability via transparent, step-by-step traces, establishing it as a powerful, interpretable open-source alternative.
- Abstract(参考訳): 大規模言語モデル(LLM)は感情分析を変容させたが、精度、効率、説明可能性のバランスは依然として重要な課題である。
本研究では,OpenAI の GPT-4o と GPT-4o-mini のオープンソース推論モデルである DeepSeek-R1 の総合評価を行った。
我々は、671Bモデルとその蒸留した変種を体系的に数発の学習曲線を文書化してテストした。
実験の結果、DeepSeek-R1は5クラスの感情で91.39\%のF1スコアを達成し、5ショットで99.31\%の精度を達成できた。
アーキテクチャ固有の蒸留効果が出現し、32B Qwen2.5ベースのモデルは70B Llamaベースの変種を6.69ポイント上回る。
その推論プロセスはスループットを低下させるが、DeepSeek-R1は透過的でステップバイステップのトレースを通じて優れた説明性を提供し、強力な解釈可能なオープンソース代替品として確立している。
関連論文リスト
- Skywork Open Reasoner 1 Technical Report [51.403686909760914]
提案するSkywork-OR1は,長期チェーン・オブ・ソート(CoT)モデルのための,効果的かつスケーラブルな強化学習(RL)実装である。
DeepSeek-R1-Distillモデルシリーズをベースとして、我々のRLアプローチは顕著なパフォーマンス向上を実現している。
我々のSkywork-OR1-32Bモデルは、AIME24とAIME25ベンチマークでDeepSeek-R1とQwen3-32Bを上回っています。
論文 参考訳(メタデータ) (2025-05-28T12:56:04Z) - Scaling Reasoning can Improve Factuality in Large Language Models [7.184302333801519]
複雑なオープンドメイン質問応答(QA)シナリオにおいて,大規模言語モデル(LLM)の推論を徹底的に検討する。
推論トレースを豊かにするために、我々は知識グラフからの事実情報を、推論トレースへの経路の形で導入する。
本研究は,1回の動作において,より小さな推論モデルにより,従来の命令調整モデルと比較して,実際の精度が顕著に向上することが示唆された。
論文 参考訳(メタデータ) (2025-05-16T11:39:33Z) - Reinforcement Learning for Reasoning in Large Language Models with One Training Example [133.018487956408]
1つのトレーニング例(1ショットRLVR)を用いた強化学習は,大規模言語モデル(LLM)の数学的推論能力の向上に有効であることを示す。
1ショットRLVRにおける興味深い現象として、クロスドメインの一般化、自己回帰の頻度の増大、トレーニング精度が飽和した後もテスト性能の向上が維持されていることを挙げる。
論文 参考訳(メタデータ) (2025-04-29T09:24:30Z) - R-PRM: Reasoning-Driven Process Reward Modeling [53.06844294668382]
プロセス・リワード・モデル(Process Reward Models, PRM)は、各推論ステップを評価することによって、有望なソリューションとして登場した。
既存のPRMは評価スコアを直接出力し、学習効率と評価精度の両方を制限する。
推論駆動プロセスリワードモデリング(R-PRM)を提案する。
R-PRMは限られたアノテーションからシードデータを生成し、効果的にモデルの推論能力をブートストラップします。
論文 参考訳(メタデータ) (2025-03-27T09:23:08Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - SmolTulu: Higher Learning Rate to Batch Size Ratios Can Lead to Better Reasoning in SLMs [0.0]
本稿では,Hugingface の SmolLM2-1.7B ベースモデルを強化するために,AllenAI の Tulu 3 ポストトレーニングパイプラインを適応した命令チューニング言語モデル SmolTulu を提案する。
ARCやGSM8Kのような推論タスクは高い学習率からバッチサイズ比の恩恵を受ける一方、HellaSwagやIFEvalのようなパターン認識タスクは低い比率で最適な性能を示す。
論文 参考訳(メタデータ) (2024-12-11T12:41:36Z) - Pushing the Limits of Fewshot Anomaly Detection in Industry Vision:
Graphcore [71.09522172098733]
FSADにおけるグラフ表現を利用して,新しい視覚不変特徴(VIIF)を異常測定特徴として利用する。
VIIFは異常識別能力を確実に向上し、Mに格納された冗長な特徴のサイズをさらに小さくすることができる。
さらに、教師なしFSADトレーニングを高速に実装し、異常検出の性能を向上させることができる、VIIFによる新しいモデルGraphCoreを提供する。
論文 参考訳(メタデータ) (2023-01-28T03:58:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。