論文の概要: Chasing Consistency: Quantifying and Optimizing Human-Model Alignment in Chain-of-Thought Reasoning
- arxiv url: http://arxiv.org/abs/2511.06168v1
- Date: Sun, 09 Nov 2025 00:27:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.790462
- Title: Chasing Consistency: Quantifying and Optimizing Human-Model Alignment in Chain-of-Thought Reasoning
- Title(参考訳): Chasing Consistency: Chain-of-Thought Reasoningにおける人間モデルアライメントの定量化と最適化
- Authors: Boxuan Wang, Zhuoyun Li, Xinmiao Huang, Xiaowei Huang, Yi Dong,
- Abstract要約: 本稿では,Large Language Models(LLMs)における推論整合性の評価と最適化のためのフレームワークを提案する。
アライメントスコア(Alignment Score)は、モデル生成推論チェーンと人間記述参照チェーンとのセマンティックアライメントを、Chain-of-Thought (CoT)推論で定量化する。
- 参考スコア(独自算出の注目度): 13.267206192885332
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a framework for evaluating and optimizing reasoning consistency in Large Language Models (LLMs) via a new metric, the Alignment Score, which quantifies the semantic alignment between model-generated reasoning chains and human-written reference chains in Chain-of-Thought (CoT) reasoning. Empirically, we find that 2-hop reasoning chains achieve the highest Alignment Score. To explain this phenomenon, we define four key error types: logical disconnection, thematic shift, redundant reasoning, and causal reversal, and show how each contributes to the degradation of the Alignment Score. Building on this analysis, we further propose Semantic Consistency Optimization Sampling (SCOS), a method that samples and favors chains with minimal alignment errors, significantly improving Alignment Scores by an average of 29.84% with longer reasoning chains, such as in 3-hop tasks.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)における推論整合性の評価と最適化を行うフレームワークであるAlignment Scoreについて,モデル生成推論チェーンと人間記述参照チェーンとのセマンティックアライメントを,Chain-of-Thought(CoT)推論で定量化する。
経験的に、2-ホップ推論連鎖が最高アライメントスコアを達成することが分かる。
この現象を説明するために、論理的解離、テーマシフト、冗長推論、因果逆転の4つの重要なエラータイプを定義し、それぞれがアライメントスコアの劣化にどのように寄与するかを示す。
この分析に基づいて,最小のアライメント誤差で連鎖をサンプリング・選好するSemantic Consistency Optimization Sampling (SCOS) を提案し,アライメントスコアを平均29.84%向上させる。
関連論文リスト
- CausalFlip: A Benchmark for LLM Causal Judgment Beyond Semantic Matching [50.65932158912512]
そこで我々は,新しい大言語モデルの開発を促進するために,因果推論ベンチマークCausalFlipを提案する。
CaulFlipは、イベントトリプル上に構築された因果判断の質問で構成されており、共同創設者、チェーン、コライダーの関係が異なっている。
回答のみのトレーニング,明示的なチェーン・オブ・ソート監視,そして内在型因果推論アプローチなどを含む,複数の訓練パラダイムによるLCMの評価を行った。
論文 参考訳(メタデータ) (2026-02-23T18:06:15Z) - Neural Chain-of-Thought Search: Searching the Optimal Reasoning Path to Enhance Large Language Models [61.55758048622473]
最適思考戦略の動的探索として推論を再構成するフレームワークであるNeural Chain-of-Thought Search (NCoTS)を導入する。
解空間を定量的に特徴づけることで、標準出力よりも正確かつ簡潔なスパース優良推論経路の存在を明らかにする。
論文 参考訳(メタデータ) (2026-01-16T14:38:18Z) - EntroCoT: Enhancing Chain-of-Thought via Adaptive Entropy-Guided Segmentation [18.606842425858]
CoT(Chain-of-Thought)の促進により、大規模言語モデルの数学的推論能力が大幅に向上した。
既存の微調整データセットは、しばしば"答えは正しいが間違った理由"プローブに悩まされる。
本稿では,高品質なCoT監視トレースを自動的に識別し,精錬するための統合フレームワークであるEntroCoTを提案する。
論文 参考訳(メタデータ) (2026-01-07T10:02:27Z) - Understanding Chain-of-Thought in Large Language Models via Topological Data Analysis [28.69471462319666]
この研究は、構造的観点から推論チェーンの品質を分析し評価した最初のものである。
推論ステップを意味空間にマップし、トポロジ的特徴を抽出し、構造的変化を分析する。
その結果, 推論鎖のトポロジカルな構造複雑性は, 正の相関関係があることが示唆された。
論文 参考訳(メタデータ) (2025-12-22T08:28:08Z) - CLATTER: Comprehensive Entailment Reasoning for Hallucination Detection [60.98964268961243]
我々は,系統的かつ包括的な推論プロセスを実行するためのモデルを導くことで,モデルがよりきめ細やかで正確な絞り込み決定を実行できることを提案する。
我々は,(i)クレームの分解,(ii)サブクレームの属性と包含分類,および(iii)集約分類から成る3段階の推論プロセスを定義し,そのような導出推論が実際に幻覚検出の改善をもたらすことを示す。
論文 参考訳(メタデータ) (2025-06-05T17:02:52Z) - Threading the Needle: Reweaving Chain-of-Thought Reasoning to Explain Human Label Variation [60.18907916989796]
大規模言語モデル(LLM)は最終答を出す前に思考の連鎖(CoT)を生成する。
本稿では,各回答オプションに対するサポート文と反対文を抽出するために,言語的に接頭した談話セグメンタを付加した新しいパイプラインを提案する。
また、正確なスコアよりも回答のランクを優先するランクベースHLV評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-29T11:47:18Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z) - STRIVE: Structured Reasoning for Self-Improvement in Claim Verification [30.15803409441136]
自己改善検証のための構造化推論を提案する。
本稿では,Crim Decomposition,Entity Analysis,Evidence Grounding Verificationを用いた構造化推論設計を提案する。
その後、すべてのトレーニング例に対して推論連鎖を生成するために適用され、その後の自己改善トレーニングのために正確で構造的に健全なもののみを選択する。
論文 参考訳(メタデータ) (2025-02-17T16:07:07Z) - A Chain-of-Thought Is as Strong as Its Weakest Link: A Benchmark for Verifiers of Reasoning Chains [33.46649770312231]
ステップバイステップの回答を提供するために言語モデルを実証することは、複雑な推論タスクにおいて顕著なアプローチである。
このような検証方法の徹底的な評価を可能にするための、きめ細かいステップレベルのデータセットは提供されていない。
ReVEAL: Reasoning Verification Evaluationは複雑なチェーン・オブ・ソート推論の自動検証をベンチマークするデータセットである。
論文 参考訳(メタデータ) (2024-02-01T12:46:45Z) - Making Large Language Models Better Reasoners with Alignment [57.82176656663245]
推論(Reasoning)とは、証拠を使って結論に達する認知過程である。
近年の研究では、思考の連鎖(COT)推論プロセスによるデータ上の微調整LDMは、その推論能力を著しく向上させることができることが示されている。
テキストアライメントファインチューニング(AFT)パラダイムを3ステップで導入する。
論文 参考訳(メタデータ) (2023-09-05T11:32:48Z) - Improving the Generalization Ability in Essay Coherence Evaluation
through Monotonic Constraints [22.311428543432605]
コヒーレンス(Coherence)は、テキストの可読性を評価する上で重要な側面であり、2つの主要な要因を通じて評価することができる。
2つの特徴抽出器を持つ回帰モデルからなるコヒーレンススコアリングモデルを提案する。
NLPCC 2023共有タスク7のトラック1で3位となった。
論文 参考訳(メタデータ) (2023-07-25T08:26:46Z) - REFINER: Reasoning Feedback on Intermediate Representations [47.36251998678097]
中間推論を生成するための言語モデルを微調整するフレームワークであるREFINERを紹介する。
REFINERは、推論に対する自動フィードバックを提供する批評家モデルと対話することで機能する。
経験的評価は、同等のスケールのベースラインLMよりも大幅に改善された。
論文 参考訳(メタデータ) (2023-04-04T15:57:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。