Fugu-MT 論文翻訳(概要): Markovian ODE-guided scoring can assess the quality of offline reasoning traces in language models

論文の概要: Markovian ODE-guided scoring can assess the quality of offline reasoning traces in language models

arxiv url: http://arxiv.org/abs/2603.01580v1
Date: Mon, 02 Mar 2026 08:09:33 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-03 19:50:56.753951
Title: Markovian ODE-guided scoring can assess the quality of offline reasoning traces in language models
Title（参考訳）: Markovian ODE-guided scoreは、言語モデルにおけるオフライン推論トレースの品質を評価することができる
Authors: Arghodeep Nandi, Ojasva Saxena, Tanmoy Chakraborty,
Abstract要約: オフライン評価フレームワークであるMarODEを導入し、トレースの推論に品質スコアを割り当てる。その効果は、人中心の摂動と人間の判断を用いて評価される。大規模な評価では、MarODEは既存のベースラインを250%以上上回っている。
参考スコア（独自算出の注目度）: 16.178449605148995
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reasoning traces produced by generative language models are increasingly used for tasks ranging from mathematical problem solving to automated fact checking. However, existing evaluation methods remain largely mechanical and fail to capture human-centric notions of reasoning quality in a way that generalizes across varied and progressively degraded reasoning. We introduce MarODE, an offline evaluation framework that assigns quality scores to reasoning traces. Its effectiveness is assessed using human-centric perturbations and human judgments, which jointly evaluate the fundamental dimensions of an evaluation metric - goodness and soundness. The approach is grounded in a Markovian formulation of reasoning progression and an ordinary differential equation based characterization of trace dynamics, enabling efficient evaluation of reasoning quality. In a large-scale evaluation, MarODE outperforms existing baselines by over 250% under Somers' D correlation. Our results emphasize the value of theory-driven evaluation frameworks as reasoning traces become central to language model-based systems.
Abstract（参考訳）: 生成言語モデルによって生成される推論トレースは、数学的問題解決から自動事実チェックまで、タスクにますます使われています。しかし、既存の評価手法は、主に機械的であり、多様かつ漸進的に劣化した推論を一般化する方法で、推論品質という人間中心の概念を捉えることができない。オフライン評価フレームワークであるMarODEを導入し、トレースの推論に品質スコアを割り当てる。その効果は人中心の摂動と人間の判断を用いて評価され、評価基準の基本的な寸法である良さと健全さを共同で評価する。このアプローチは、推論の進行のマルコフ的定式化とトレースダイナミクスのキャラクタリゼーションに基づく通常の微分方程式に基づいており、推論品質の効率的な評価を可能にしている。大規模な評価では、MorODEはSomersのD相関の下で既存のベースラインを250%以上上回っている。本研究は,推論トレースが言語モデルベースシステムの中心となるにつれ,理論駆動評価フレームワークの価値を強調した。

関連論文リスト

Correcting Human Labels for Rater Effects in AI Evaluation: An Item Response Theory Approach [0.0]
本稿では,人間の判断による結論の信頼性と妥当性を向上させるため,心理測定レーダモデルをAIパイプラインに統合する。本研究では, レーダ重大度に対する調整が, 要約品質の補正された推定値をいかに生み出すかを示す。この視点は、AI開発と評価のためのより堅牢で解釈可能な、構成整合したプラクティスへの道のりを強調している。
論文参考訳（メタデータ） (2026-02-26T03:35:36Z)
Garbage In, Reasoning Out? Why Benchmark Scores are Unreliable and What to Do About It [1.6261897792391753]
我々は、SocialIQa、FauxPas-EAI、ToMiの3つの広く使われている推論ベンチマークの体系的な監査を行う。ベンチマーク項目と評価手法の両方において,広範な欠陥を明らかにする。
論文参考訳（メタデータ） (2025-06-30T13:57:28Z)
Poor-Supervised Evaluation for SuperLLM via Mutual Consistency [20.138831477848615]
正確なラベルを使わずに評価を行うためのPoEMフレームワークを提案する。まず、モデルと特定の参照モデルとの整合性によって、モデルの能力が等価に評価できることを証明します。現実の条件の不整合を緩和するために,人間(利用可能な場合)と参照モデルとして評価中のモデルを扱うアルゴリズムを導入する。
論文参考訳（メタデータ） (2024-08-25T06:49:03Z)
Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。 ReasonEvalはメタ評価データセットのベースライン手法よりも一貫して優れていることを示す。我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文参考訳（メタデータ） (2024-04-08T17:18:04Z)
QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。 QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文参考訳（メタデータ） (2023-11-06T00:21:44Z)
SocREval: Large Language Models with the Socratic Method for Reference-Free Reasoning Evaluation [78.23119125463964]
我々は,参照フリー推論評価における新規な設計手法であるSocREvalを開発した。 SocREvalはGPT-4の性能を大幅に改善し、既存の参照フリーおよび参照ベース推論評価指標を上回っている。
論文参考訳（メタデータ） (2023-09-29T18:25:46Z)
Learning Evaluation Models from Large Language Models for Sequence Generation [61.8421748792555]
本稿では,大規模言語モデルを用いた3段階評価モデルトレーニング手法を提案する。 SummEval ベンチマークによる実験結果から,CSEM は人間ラベルデータなしで評価モデルを効果的に訓練できることが示された。
論文参考訳（メタデータ） (2023-08-08T16:41:16Z)
Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文参考訳（メタデータ） (2023-06-18T09:54:33Z)
Dynamic Human Evaluation for Relative Model Comparisons [8.843915018287476]
本研究では,相対的な比較設定で生成した出力を評価する際に,人間のアノテーションの必要個数を動的に測定する手法を提案する。シミュレーションとクラウドソーシングのケーススタディにおいて,より優れたモデルを決定するための複数のラベル付け戦略と手法を評価するために,人間評価のエージェントベースフレームワークを提案する。
論文参考訳（メタデータ） (2021-12-15T11:32:13Z)
Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。 ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文参考訳（メタデータ） (2021-02-20T03:29:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。