Fugu-MT 論文翻訳(概要): DeepSeek vs. o3-mini: How Well can Reasoning LLMs Evaluate MT and Summarization?

論文の概要: DeepSeek vs. o3-mini: How Well can Reasoning LLMs Evaluate MT and Summarization?

arxiv url: http://arxiv.org/abs/2504.08120v1
Date: Thu, 10 Apr 2025 20:39:18 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-21 22:24:55.97594
Title: DeepSeek vs. o3-mini: How Well can Reasoning LLMs Evaluate MT and Summarization?
Title（参考訳）: DeepSeek vs. o3-mini: LLMがMTと要約を評価するにはどうすればよいか?
Authors: Daniil Larionov, Sotaro Takeshita, Ran Zhang, Yanran Chen, Christoph Leiter, Zhipin Wang, Christian Greisinger, Steffen Eger,
Abstract要約: 推論可能な大規模言語モデル(LLM)は、最近、複雑な論理的および数学的タスクにおいて顕著な性能を示した。本研究では,機械翻訳(MT)およびテキスト要約(TS)評価タスクにおいて,推論に基づくLLMと非推論のLLMを体系的に比較する。
参考スコア（独自算出の注目度）: 17.97981669263259
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Reasoning-enabled large language models (LLMs) have recently demonstrated impressive performance in complex logical and mathematical tasks, yet their effectiveness in evaluating natural language generation remains unexplored. This study systematically compares reasoning-based LLMs (DeepSeek-R1 and OpenAI o3) with their non-reasoning counterparts across machine translation (MT) and text summarization (TS) evaluation tasks. We evaluate eight models across three architectural categories, including state-of-the-art reasoning models, their distilled variants (ranging from 8B to 70B parameters), and equivalent conventional, non-reasoning LLMs. Our experiments on WMT23 and SummEval benchmarks reveal that the benefits of reasoning capabilities are highly model and task-dependent: while OpenAI o3-mini models show consistent performance improvements with increased reasoning intensity, DeepSeek-R1 underperforms compared to its non-reasoning variant, with exception to certain aspects of TS evaluation. Correlation analysis demonstrates that increased reasoning token usage positively correlates with evaluation quality in o3-mini models. Furthermore, our results show that distillation of reasoning capabilities maintains reasonable performance in medium-sized models (32B) but degrades substantially in smaller variants (8B). This work provides the first comprehensive assessment of reasoning LLMs for NLG evaluation and offers insights into their practical use.
Abstract（参考訳）: 推論可能な大規模言語モデル(LLM)は、最近、複雑な論理的および数学的タスクにおいて顕著な性能を示したが、自然言語生成の評価におけるその効果は未解明のままである。本研究では,推論に基づくLLM(DeepSeek-R1とOpenAI o3)を,機械翻訳(MT)およびテキスト要約(TS)評価タスクにまたがる非推論とを系統的に比較する。我々は,最先端の推論モデル,蒸留した変種(8Bから70Bパラメータ),従来と同等の非推論LDMを含む,3つのアーキテクチャカテゴリにわたる8つのモデルを評価した。 WMT23 と SummEval のベンチマーク実験により,推論能力の利点は高いモデルとタスク依存であることが判明した。OpenAI o3-mini モデルでは,推論強度の増加による一貫した性能向上がみられたが,DeepSeek-R1 では,TS 評価の特定の側面を除いて,非推論型に比べて性能が劣っている。相関分析により、推論トークンの使用量の増加は、o3-miniモデルにおける評価品質と正の相関が示されている。さらに, 中型モデル (32B) では, 推算能力の蒸留が合理的な性能を維持するが, 小型モデル (8B) では著しく劣化することを示した。本研究は,NLG評価のためのLPMの総合的評価を行い,その実用性に関する知見を提供する。

関連論文リスト

R-PRM: Reasoning-Driven Process Reward Modeling [53.06844294668382]
プロセス・リワード・モデル(Process Reward Models, PRM)は、各推論ステップを評価することによって、有望なソリューションとして登場した。既存のPRMは評価スコアを直接出力し、学習効率と評価精度の両方を制限する。推論駆動プロセスリワードモデリング(R-PRM)を提案する。 R-PRMは限られたアノテーションからシードデータを生成し、効果的にモデルの推論能力をブートストラップします。
論文参考訳（メタデータ） (2025-03-27T09:23:08Z)
Trade-offs in Large Reasoning Models: An Empirical Analysis of Deliberative and Adaptive Reasoning over Foundational Capabilities [101.77467538102924]
近年のLRM(Large Reasoning Models)の進歩は、特殊推論タスクにおいて顕著な性能を示している。議論的推論能力の獲得は, LRMの基礎的能力を大幅に低下させることを示す。適応推論(Zero-Thinking, Less-Thinking, Summary-Thinking)がこれらの欠点を効果的に軽減できることを示します。
論文参考訳（メタデータ） (2025-03-23T08:18:51Z)
AutoLogi: Automated Generation of Logic Puzzles for Evaluating Reasoning Abilities of Large Language Models [86.83875864328984]
本稿では,オープンエンド論理パズルを自動合成する手法を提案し,それをバイリンガルベンチマークであるAutoLogiの開発に利用する。提案手法は,プログラムベースの検証と制御可能な難易度を特徴とし,モデルの推論能力をよりよく区別する信頼性の高い評価を可能にする。
論文参考訳（メタデータ） (2025-02-24T07:02:31Z)
Towards Reasoning Ability of Small Language Models [3.732224317444325]
我々は,小言語モデル (SLM) が競争力のある推論性能を実現できることを示す。 14の推論ベンチマークで6つのモデルファミリーから72のSLMを体系的に調査し、ベンチマークし、分析した。我々の発見は、スケーリングが強力な推論を達成する唯一の方法である、という仮定に挑戦する。
論文参考訳（メタデータ） (2025-02-17T08:59:16Z)
MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency [63.23935582919081]
CoT (Chain-of-Thought) は,Large Language Models (LLMs) の推論能力を大幅に向上させた。我々は,LMMのCoT推論性能を評価する特別ベンチマークであるMME-CoTを紹介する。我々は最先端のLMMの詳細な分析を行い、いくつかの重要な知見を明らかにした。
論文参考訳（メタデータ） (2025-02-13T18:59:46Z)
What Makes In-context Learning Effective for Mathematical Reasoning: A Theoretical Analysis [81.15503859645149]
本稿では,大規模言語モデルの推論性能に及ぼす文脈内実演の影響を理論的に解析することを目的とする。本稿では, LMS3 という, 単純で一般化可能な, 低複雑さな実演選択法を提案する。
論文参考訳（メタデータ） (2024-12-11T11:38:11Z)
Enhancing LLM Evaluations: The Garbling Trick [0.0]
大規模言語モデル(LLM)はますます強力になり、パフォーマンスに基づいたモデルの区別が困難になる。本稿では,既存のLCM評価を,段階的に困難なタスクに変換する一般的な手法を提案する。結果から,これらのモデルの比較推論能力,特に OpenAI の o1-preview と Google の gemini-pro-1.5 の区別が明らかになった。
論文参考訳（メタデータ） (2024-11-03T11:39:50Z)
Fine-Tuning Language Models for Ethical Ambiguity: A Comparative Study of Alignment with Human Responses [1.566834021297545]
言語モデルは曖昧さを扱うため、人間の意図を誤解することが多い。道徳的にあいまいな文脈では人間とLLMの判断が不十分であることを示す。テキスト・トゥ・テキスト・フォーマットにおけるモデルによるテキスト・配信の理解を改善するための微調整手法により、性能とアライメントを効果的に向上する。
論文参考訳（メタデータ） (2024-10-10T11:24:04Z)
MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文参考訳（メタデータ） (2024-06-20T03:50:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。