論文の概要: A Comparison of DeepSeek and Other LLMs
- arxiv url: http://arxiv.org/abs/2502.03688v1
- Date: Thu, 06 Feb 2025 00:38:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 14:34:15.071682
- Title: A Comparison of DeepSeek and Other LLMs
- Title(参考訳): DeepSeekとその他のLCMの比較
- Authors: Tianchen Gao, Jiashun Jin, Zheng Tracy Ke, Gabriel Moryoussef,
- Abstract要約: 比較のために短いテキストを用いて結果を予測するタスクを使用する。
分類精度に関しては、DeepSeekはGemini、GPT、Llamaより優れている。
DeepSeekは比較的遅いが、使用コストは低く、Claudeは他のすべてよりもはるかに高価だ。
- 参考スコア(独自算出の注目度): 8.624680612413767
- License:
- Abstract: Recently, DeepSeek has been the focus of attention in and beyond the AI community. An interesting problem is how DeepSeek compares to other large language models (LLMs). There are many tasks an LLM can do, and in this paper, we use the task of predicting an outcome using a short text for comparison. We consider two settings, an authorship classification setting and a citation classification setting. In the first one, the goal is to determine whether a short text is written by human or AI. In the second one, the goal is to classify a citation to one of four types using the textual content. For each experiment, we compare DeepSeek with $4$ popular LLMs: Claude, Gemini, GPT, and Llama. We find that, in terms of classification accuracy, DeepSeek outperforms Gemini, GPT, and Llama in most cases, but underperforms Claude. We also find that DeepSeek is comparably slower than others but with a low cost to use, while Claude is much more expensive than all the others. Finally, we find that in terms of similarity, the output of DeepSeek is most similar to those of Gemini and Claude (and among all $5$ LLMs, Claude and Gemini have the most similar outputs). In this paper, we also present a fully-labeled dataset collected by ourselves, and propose a recipe where we can use the LLMs and a recent data set, MADStat, to generate new data sets. The datasets in our paper can be used as benchmarks for future study on LLMs.
- Abstract(参考訳): 近年、DeepSeekはAIコミュニティ内外の注目を集めている。
興味深い問題は、DeepSeekが他の大きな言語モデル(LLM)と比較する方法である。
LLMには多くのタスクがあり、本論文では、短いテキストを用いて結果を予測するタスクを用いて比較を行う。
著者分類設定と引用分類設定の2つの設定を検討する。
第一に、目標は、短いテキストが人間かAIによって書かれているかを決定することである。
第2の目標は、テキストコンテンツを使用して、引用を4つのタイプのうちの1つに分類することである。
それぞれの実験で、DeepSeekをClaude、Gemini、GPT、Llamaの4ドル人気のLLMと比較します。
分類精度の面では、DeepSeekはGemini、GPT、Llamaよりも優れていますが、Claudeよりは優れています。
また、DeepSeekは他のものよりもはるかに遅いが、使用コストが低いのに対して、Claudeは他のものよりもはるかに高価であることもわかりました。
最後に、DeepSeekの出力はGeminiとClaudeの出力と最もよく似ている(そして5ドルのLLMのうち、ClaudeとGeminiは最もよく似た出力を持っている)。
本稿では,LLMと最近のデータセットであるMADStatを用いて新たなデータセットを生成するためのレシピを提案する。
本論文のデータセットは今後のLLM研究のベンチマークとして利用することができる。
関連論文リスト
- Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究
LLM生成テキスト上に既存のテキスト埋め込みモデルを微調整することで、優れた分類精度が得られることが判明した。
我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文 参考訳(メタデータ) (2025-02-17T18:59:02Z) - Leveraging Explainable AI for LLM Text Attribution: Differentiating Human-Written and Multiple LLMs-Generated Text [1.1137087573421256]
本研究では,生成型AI大言語モデルを用いて生成されたテキストコンテンツの検出と識別を支援することを目的とする。
我々はランダムフォレスト(RF)やリカレントニューラルネットワーク(RNN)などの機械学習アルゴリズムを利用して、属性の重要な特徴を理解する。
本手法は,1) 人文とAIテキストを区別するバイナリ分類と,2) 人文と5種類のLDMツールで生成するテキストを区別するマルチ分類に分けられる。
論文 参考訳(メタデータ) (2025-01-06T18:46:53Z) - Multiple References with Meaningful Variations Improve Literary Machine Translation [15.399876365676116]
これまでの研究により、合成パラフレーズを用いることで機械翻訳が向上することが示されている。
我々は,パラフレーズ間の意味的類似性を,低,中,高の3つのグループに分類する。
中・高意味の類似性のパラフレーズを使用することで、フィルタされていないデータセットよりも優れる。
論文 参考訳(メタデータ) (2024-12-24T23:49:12Z) - Robust Multi-bit Text Watermark with LLM-based Paraphrasers [19.785484664254916]
LLMでパラフレーズを埋め込んだ、知覚不能なマルチビットテキスト透かしを提案する。
透かしを埋め込むために、2つのパラフレーズを使って文レベルで定義済みのバイナリコードをエンコードします。
我々の透かしは、小さな(1.1B)テキストパラフレーズでAUCを99.99%以上検出できることを示す。
論文 参考訳(メタデータ) (2024-12-04T08:43:12Z) - DivScene: Benchmarking LVLMs for Object Navigation with Diverse Scenes and Objects [84.73092715537364]
本稿では,多数のシーンタイプにおいて,多様な対象物にナビゲートする新たな課題について検討する。
我々は、模倣学習によりLVLM(Large Vision Language Model)を微調整することにより、エンドツーエンドのエンボディエージェントであるNatVLMを構築した。
我々のエージェントは、GPT-4oを超える成功率を20%以上達成する。
論文 参考訳(メタデータ) (2024-10-03T17:49:28Z) - WikiContradict: A Benchmark for Evaluating LLMs on Real-World Knowledge Conflicts from Wikipedia [59.96425443250666]
Retrieval-augmented Generation (RAG) は,大規模言語モデル(LLM)の限界を緩和する,有望なソリューションとして登場した。
本研究では,ウィキペディアからの矛盾文に基づく質問に対するLLM生成回答の総合評価を行う。
我々は、単一のパスを持つRAGと2つの矛盾するパスを持つRAGを含む、様々なQAシナリオ下で、クローズドおよびオープンソース両方のLSMをベンチマークする。
論文 参考訳(メタデータ) (2024-06-19T20:13:42Z) - LLMEmbed: Rethinking Lightweight LLM's Genuine Function in Text Classification [13.319594321038926]
本稿では,この古典的だが挑戦的な課題に対処するために,LLMEmbedという,シンプルで効果的なトランスファー学習戦略を提案する。
その結果,LLMEmbedはトレーニングのオーバーヘッドを低く抑えながら,高い性能を発揮することがわかった。
論文 参考訳(メタデータ) (2024-06-06T03:46:59Z) - CodecLM: Aligning Language Models with Tailored Synthetic Data [51.59223474427153]
命令追従能力のための高品質な合成データを適応的に生成するフレームワークであるCodecLMを紹介する。
まず、ターゲットの指示分布をキャプチャするために、オンザフライで生成された簡潔なキーワードであるメタデータにシード命令をエンコードする。
また、デコード中に自己論理とコントラストフィルタを導入し、データ効率の良いサンプルを調整する。
論文 参考訳(メタデータ) (2024-04-08T21:15:36Z) - Pride and Prejudice: LLM Amplifies Self-Bias in Self-Refinement [75.7148545929689]
大規模言語モデル(LLM)は、特定のタスクの自己フィードバックを通じてパフォーマンスを向上し、他のタスクを劣化させる。
我々は、LSMの自己バイアス(自称世代を好む傾向)を正式に定義する。
我々は、翻訳、制約付きテキスト生成、数学的推論の6つのLCMを解析する。
論文 参考訳(メタデータ) (2024-02-18T03:10:39Z) - DeepSeek LLM: Scaling Open-Source Language Models with Longtermism [76.90033862238728]
本稿では,2つのオープンソース構成である7Bと67Bにおける大規模モデルのスケーリングを容易にすることについて述べる。
スケーリング法則によってガイドされたDeepSeek LLMは、長期的視点でオープンソースの言語モデルを進化させるためのプロジェクトです。
論文 参考訳(メタデータ) (2024-01-05T18:59:13Z) - Metadata-Induced Contrastive Learning for Zero-Shot Multi-Label Text
Classification [27.33039900612395]
大規模多ラベルテキスト分類のための新しいメタデータ誘導コントラスト学習法(MICoL)を提案する。
MICoLは、Web上で広く利用可能なドキュメントメタデータを利用して、同様のドキュメントとドキュメントのペアを導き出す。
我々は,MICoLが強いゼロショットテキスト分類と対照的な学習ベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2022-02-11T23:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。