Fugu-MT 論文翻訳(概要): DeepSeek vs. o3-mini: How Well can Reasoning LLMs Evaluate MT and Summarization?

論文の概要: DeepSeek vs. o3-mini: How Well can Reasoning LLMs Evaluate MT and Summarization?

arxiv url: http://arxiv.org/abs/2504.08120v2
Date: Thu, 29 May 2025 13:35:47 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-30 15:42:33.692346
Title: DeepSeek vs. o3-mini: How Well can Reasoning LLMs Evaluate MT and Summarization?
Title（参考訳）: DeepSeek vs. o3-mini: LLMがMTと要約を評価するにはどうすればよいか?
Authors: Daniil Larionov, Sotaro Takeshita, Ran Zhang, Yanran Chen, Christoph Leiter, Zhipin Wang, Christian Greisinger, Steffen Eger,
Abstract要約: 推論可能な大規模言語モデル (LLM) は論理的タスクに優れるが、自然言語生成を評価するための実用性はまだ明らかにされていない。本研究は,機械翻訳およびテキスト要約評価タスクにおいて,推論LLMと非推論LLMを体系的に比較する。
参考スコア（独自算出の注目度）: 17.97981669263259
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Reasoning-enabled large language models (LLMs) excel in logical tasks, yet their utility for evaluating natural language generation remains unexplored. This study systematically compares reasoning LLMs with non-reasoning counterparts across machine translation and text summarization evaluation tasks. We evaluate eight models spanning state-of-the-art reasoning models (DeepSeek-R1, OpenAI o3), their distilled variants (8B-70B parameters), and equivalent non-reasoning LLMs. Experiments on WMT23 and SummEval benchmarks reveal architecture and task-dependent benefits: OpenAI o3-mini models show improved performance with increased reasoning on MT, while DeepSeek-R1 and generally underperforms compared to its non-reasoning variant except in summarization consistency evaluation. Correlation analysis demonstrates that reasoning token usage correlates with evaluation quality only in specific models, while almost all models generally allocate more reasoning tokens when identifying more quality issues. Distillation maintains reasonable performance up to 32B parameter models but degrades substantially at 8B scale. This work provides the first assessment of reasoning LLMs for NLG evaluation and comparison to non-reasoning models. We share our code to facilitate further research: https://github.com/NL2G/reasoning-eval.
Abstract（参考訳）: 推論可能な大規模言語モデル (LLM) は論理的タスクに優れるが、自然言語生成を評価するための実用性はまだ明らかにされていない。本研究は,機械翻訳およびテキスト要約評価タスクにおいて,推論LLMと非推論LLMを体系的に比較する。我々は,最先端推論モデル(DeepSeek-R1,OpenAI o3),蒸留した変種(8B-70Bパラメータ),等価な非共振LDMを対象とする8つのモデルを評価した。 OpenAI o3-miniモデルでは、MTの推論が向上してパフォーマンスが向上し、DeepSeek-R1では、要約整合性評価以外の非推論型に比べてパフォーマンスが低かった。相関分析では、推論トークンの使用は特定のモデルでのみ評価品質と相関するが、ほとんどのモデルでは、より品質の問題を特定する際により多くの推論トークンを割り当てる。蒸留は32Bパラメータモデルまで適切な性能を維持するが、実質的に8Bスケールで分解される。本研究は,NLG評価のための推論LDMの最初の評価と,非推論モデルとの比較を提供する。私たちは、さらなる研究を促進するために、コードを共有しています。

関連論文リスト

A comprehensive study of LLM-based argument classification: from LLAMA through GPT-4o to Deepseek-R1 [0.0]
大規模言語モデル(LLM)は、引数のセマンティクスの分析と抽出の効率を高めた。本稿では,Args.me や UKP などの多種多様なデータセットを用いた LLM の選択について検討する。その結果,ChatGPT-4oは引数分類ベンチマークで他よりも優れていた。
論文参考訳（メタデータ） (2025-07-11T14:23:40Z)
CoThink: Token-Efficient Reasoning via Instruct Models Guiding Reasoning Models [56.40065909544213]
大規模言語モデル(LLM)は、テスト時間スケーリングとして知られる、テスト時間計算の増加の恩恵を受ける。しかし、推論最適化モデルはしばしば単純な問題さえ考え過ぎ、過度に冗長な出力を生成し、トークン効率を低下させる。 1)強化学習は前方推論の情報密度を減少させ,(2)後方連鎖学習は冗長でしばしば不要な検証ステップを促進する。
論文参考訳（メタデータ） (2025-05-28T06:24:45Z)
R-PRM: Reasoning-Driven Process Reward Modeling [53.06844294668382]
プロセス・リワード・モデル(Process Reward Models, PRM)は、各推論ステップを評価することによって、有望なソリューションとして登場した。既存のPRMは評価スコアを直接出力し、学習効率と評価精度の両方を制限する。推論駆動プロセスリワードモデリング(R-PRM)を提案する。 R-PRMは限られたアノテーションからシードデータを生成し、効果的にモデルの推論能力をブートストラップします。
論文参考訳（メタデータ） (2025-03-27T09:23:08Z)
Trade-offs in Large Reasoning Models: An Empirical Analysis of Deliberative and Adaptive Reasoning over Foundational Capabilities [101.77467538102924]
近年のLRM(Large Reasoning Models)の進歩は、特殊推論タスクにおいて顕著な性能を示している。議論的推論能力の獲得は, LRMの基礎的能力を大幅に低下させることを示す。適応推論(Zero-Thinking, Less-Thinking, Summary-Thinking)がこれらの欠点を効果的に軽減できることを示します。
論文参考訳（メタデータ） (2025-03-23T08:18:51Z)
AutoLogi: Automated Generation of Logic Puzzles for Evaluating Reasoning Abilities of Large Language Models [86.83875864328984]
本稿では,オープンエンド論理パズルを自動合成する手法を提案し,それをバイリンガルベンチマークであるAutoLogiの開発に利用する。提案手法は,プログラムベースの検証と制御可能な難易度を特徴とし,モデルの推論能力をよりよく区別する信頼性の高い評価を可能にする。
論文参考訳（メタデータ） (2025-02-24T07:02:31Z)
Towards Reasoning Ability of Small Language Models [3.732224317444325]
我々は,小言語モデル (SLM) が競争力のある推論性能を実現できることを示す。 14の推論ベンチマークで6つのモデルファミリーから72のSLMを体系的に調査し、ベンチマークし、分析した。我々の発見は、スケーリングが強力な推論を達成する唯一の方法である、という仮定に挑戦する。
論文参考訳（メタデータ） (2025-02-17T08:59:16Z)
MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency [63.23935582919081]
CoT (Chain-of-Thought) は,Large Language Models (LLMs) の推論能力を大幅に向上させた。我々は,LMMのCoT推論性能を評価する特別ベンチマークであるMME-CoTを紹介する。我々は最先端のLMMの詳細な分析を行い、いくつかの重要な知見を明らかにした。
論文参考訳（メタデータ） (2025-02-13T18:59:46Z)
What Makes In-context Learning Effective for Mathematical Reasoning: A Theoretical Analysis [81.15503859645149]
本稿では,大規模言語モデルの推論性能に及ぼす文脈内実演の影響を理論的に解析することを目的とする。本稿では, LMS3 という, 単純で一般化可能な, 低複雑さな実演選択法を提案する。
論文参考訳（メタデータ） (2024-12-11T11:38:11Z)
Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding [74.31981011985681]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも複数のステップを必要とする複雑な推論タスクに苦戦している。 LaTRO(LaTent Reasoning Optimization)は、潜在分布からのサンプリングとして推論を定式化するためのフレームワークである。複数のモデルアーキテクチャを用いて、GSM8KおよびARC-Challengeデータセットの実験を通してLaTROを検証する。
論文参考訳（メタデータ） (2024-11-06T22:02:30Z)
Enhancing LLM Evaluations: The Garbling Trick [0.0]
大規模言語モデル(LLM)はますます強力になり、パフォーマンスに基づいたモデルの区別が困難になる。本稿では,既存のLCM評価を,段階的に困難なタスクに変換する一般的な手法を提案する。結果から,これらのモデルの比較推論能力,特に OpenAI の o1-preview と Google の gemini-pro-1.5 の区別が明らかになった。
論文参考訳（メタデータ） (2024-11-03T11:39:50Z)
A Comparative Study on Reasoning Patterns of OpenAI's o1 Model [69.08287909042421]
OpenAIのo1モデルは、ほとんどのデータセットで最高のパフォーマンスを実現しています。また、いくつかの推論ベンチマークについて詳細な分析を行う。
論文参考訳（メタデータ） (2024-10-17T15:09:03Z)
Language Model Preference Evaluation with Multiple Weak Evaluators [78.53743237977677]
GED(Preference Graph Ensemble and Denoise)は、複数のモデルベースの評価器を活用して嗜好グラフを構築する新しいアプローチである。特に,本手法は,評価を統一グラフに集約し,デノナイジングプロセスを適用する2つの主要な段階から構成される。我々は,本枠組みの理論的保証を行い,真理優先構造を回復する上での有効性を示す。
論文参考訳（メタデータ） (2024-10-14T01:57:25Z)
Fine-Tuning Language Models for Ethical Ambiguity: A Comparative Study of Alignment with Human Responses [1.566834021297545]
言語モデルは曖昧さを扱うため、人間の意図を誤解することが多い。道徳的にあいまいな文脈では人間とLLMの判断が不十分であることを示す。テキスト・トゥ・テキスト・フォーマットにおけるモデルによるテキスト・配信の理解を改善するための微調整手法により、性能とアライメントを効果的に向上する。
論文参考訳（メタデータ） (2024-10-10T11:24:04Z)
MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文参考訳（メタデータ） (2024-06-20T03:50:23Z)
Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。 3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文参考訳（メタデータ） (2024-04-04T15:36:53Z)
AQA-Bench: An Interactive Benchmark for Evaluating LLMs' Sequential Reasoning Ability [25.96556671801114]
本稿では,大規模言語モデル(LLM)の逐次推論能力を評価する新しいベンチマークであるAQA-Benchを紹介する。 AQA-Benchを2進探索,深さ優先探索,幅優先探索という3つのアルゴリズムで構築し,14種類のLLMの逐次推論能力を評価する。
論文参考訳（メタデータ） (2024-02-14T18:59:33Z)
Using Counterfactual Tasks to Evaluate the Generality of Analogical Reasoning in Large Language Models [7.779982757267302]
大型言語モデル(LLMs)において従来主張されていた類推能力の一般性について検討する。すべての問題に対して人間のパフォーマンスは高いままであるが、GPTモデルの性能は反ファクトセットで急激に低下している。
論文参考訳（メタデータ） (2024-02-14T05:52:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。