論文の概要: Chasing Consistency: Quantifying and Optimizing Human-Model Alignment in Chain-of-Thought Reasoning
- arxiv url: http://arxiv.org/abs/2511.06168v1
- Date: Sun, 09 Nov 2025 00:27:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.790462
- Title: Chasing Consistency: Quantifying and Optimizing Human-Model Alignment in Chain-of-Thought Reasoning
- Title(参考訳): Chasing Consistency: Chain-of-Thought Reasoningにおける人間モデルアライメントの定量化と最適化
- Authors: Boxuan Wang, Zhuoyun Li, Xinmiao Huang, Xiaowei Huang, Yi Dong,
- Abstract要約: 本稿では,Large Language Models(LLMs)における推論整合性の評価と最適化のためのフレームワークを提案する。
アライメントスコア(Alignment Score)は、モデル生成推論チェーンと人間記述参照チェーンとのセマンティックアライメントを、Chain-of-Thought (CoT)推論で定量化する。
- 参考スコア(独自算出の注目度): 13.267206192885332
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a framework for evaluating and optimizing reasoning consistency in Large Language Models (LLMs) via a new metric, the Alignment Score, which quantifies the semantic alignment between model-generated reasoning chains and human-written reference chains in Chain-of-Thought (CoT) reasoning. Empirically, we find that 2-hop reasoning chains achieve the highest Alignment Score. To explain this phenomenon, we define four key error types: logical disconnection, thematic shift, redundant reasoning, and causal reversal, and show how each contributes to the degradation of the Alignment Score. Building on this analysis, we further propose Semantic Consistency Optimization Sampling (SCOS), a method that samples and favors chains with minimal alignment errors, significantly improving Alignment Scores by an average of 29.84% with longer reasoning chains, such as in 3-hop tasks.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)における推論整合性の評価と最適化を行うフレームワークであるAlignment Scoreについて,モデル生成推論チェーンと人間記述参照チェーンとのセマンティックアライメントを,Chain-of-Thought(CoT)推論で定量化する。
経験的に、2-ホップ推論連鎖が最高アライメントスコアを達成することが分かる。
この現象を説明するために、論理的解離、テーマシフト、冗長推論、因果逆転の4つの重要なエラータイプを定義し、それぞれがアライメントスコアの劣化にどのように寄与するかを示す。
この分析に基づいて,最小のアライメント誤差で連鎖をサンプリング・選好するSemantic Consistency Optimization Sampling (SCOS) を提案し,アライメントスコアを平均29.84%向上させる。
関連論文リスト
- CLATTER: Comprehensive Entailment Reasoning for Hallucination Detection [60.98964268961243]
我々は,系統的かつ包括的な推論プロセスを実行するためのモデルを導くことで,モデルがよりきめ細やかで正確な絞り込み決定を実行できることを提案する。
我々は,(i)クレームの分解,(ii)サブクレームの属性と包含分類,および(iii)集約分類から成る3段階の推論プロセスを定義し,そのような導出推論が実際に幻覚検出の改善をもたらすことを示す。
論文 参考訳(メタデータ) (2025-06-05T17:02:52Z) - Threading the Needle: Reweaving Chain-of-Thought Reasoning to Explain Human Label Variation [60.18907916989796]
大規模言語モデル(LLM)は最終答を出す前に思考の連鎖(CoT)を生成する。
本稿では,各回答オプションに対するサポート文と反対文を抽出するために,言語的に接頭した談話セグメンタを付加した新しいパイプラインを提案する。
また、正確なスコアよりも回答のランクを優先するランクベースHLV評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-29T11:47:18Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z) - STRIVE: Structured Reasoning for Self-Improvement in Claim Verification [30.15803409441136]
自己改善検証のための構造化推論を提案する。
本稿では,Crim Decomposition,Entity Analysis,Evidence Grounding Verificationを用いた構造化推論設計を提案する。
その後、すべてのトレーニング例に対して推論連鎖を生成するために適用され、その後の自己改善トレーニングのために正確で構造的に健全なもののみを選択する。
論文 参考訳(メタデータ) (2025-02-17T16:07:07Z) - A Chain-of-Thought Is as Strong as Its Weakest Link: A Benchmark for Verifiers of Reasoning Chains [33.46649770312231]
ステップバイステップの回答を提供するために言語モデルを実証することは、複雑な推論タスクにおいて顕著なアプローチである。
このような検証方法の徹底的な評価を可能にするための、きめ細かいステップレベルのデータセットは提供されていない。
ReVEAL: Reasoning Verification Evaluationは複雑なチェーン・オブ・ソート推論の自動検証をベンチマークするデータセットである。
論文 参考訳(メタデータ) (2024-02-01T12:46:45Z) - Improving the Generalization Ability in Essay Coherence Evaluation
through Monotonic Constraints [22.311428543432605]
コヒーレンス(Coherence)は、テキストの可読性を評価する上で重要な側面であり、2つの主要な要因を通じて評価することができる。
2つの特徴抽出器を持つ回帰モデルからなるコヒーレンススコアリングモデルを提案する。
NLPCC 2023共有タスク7のトラック1で3位となった。
論文 参考訳(メタデータ) (2023-07-25T08:26:46Z) - REFINER: Reasoning Feedback on Intermediate Representations [47.36251998678097]
中間推論を生成するための言語モデルを微調整するフレームワークであるREFINERを紹介する。
REFINERは、推論に対する自動フィードバックを提供する批評家モデルと対話することで機能する。
経験的評価は、同等のスケールのベースラインLMよりも大幅に改善された。
論文 参考訳(メタデータ) (2023-04-04T15:57:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。