論文の概要: GeoSteer: Faithful Chain-of-Thought Steering via Latent Manifold Gradients
- arxiv url: http://arxiv.org/abs/2601.10229v1
- Date: Thu, 15 Jan 2026 09:44:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.086535
- Title: GeoSteer: Faithful Chain-of-Thought Steering via Latent Manifold Gradients
- Title(参考訳): GeoSteer: 遅れたマニフォールド勾配による忠実なチェーン・オブ・サード・ステアリング
- Authors: Kentaro Kazama, Daiki Shirafuji, Tatsuhiko Saito,
- Abstract要約: 中間推論の品質を向上させる多様体ベースのフレームワークであるGeoSteerを提案する。
我々は,GSM8kデータセット上のGeoSteerをQwen3系列を用いて評価した。
- 参考スコア(独自算出の注目度): 1.8033500402815792
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advances in Large Language Models (LLMs) have improved multi-step reasoning. Most approaches rely on Chain-of-Thought (CoT) rationales. Previous studies have shown that LLMs often generate logically inconsistent reasoning steps even when their final answers are correct. These inconsistencies reduce the reliability of step-level reasoning. We propose GeoSteer, a manifold-based framework that improves the quality of intermediate reasoning. The method consists of: (1) constructing a CoT dataset with segment-level scores, (2) training a Variational Autoencoder (VAE) model and a quality estimation model to learn a low-dimensional manifold of high-quality CoT trajectories, and (3) steering hidden states of target LLMs toward higher-quality regions in the latent space. This update in a latent space behaves like a natural-gradient adjustment in the original hidden-state space. It ensures geometrically coherent steering. We evaluate GeoSteer on the GSM8k dataset using the Qwen3 series. We measure via answer accuracy and overall reasoning performance. GeoSteer improved the exact match accuracy by up to 2.6 points. It also enhanced the pairwise win rate by 5.3 points. These results indicate that GeoSteer provides an effective and controllable mechanism for improving the quality of intermediate reasoning in LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は多段階推論を改善している。
ほとんどのアプローチは、CoT(Chain-of-Thought)の合理性に依存している。
これまでの研究では、LLMは最終的な答えが正しい場合でも論理的に矛盾する推論ステップをしばしば生成することが示されている。
これらの矛盾はステップレベルの推論の信頼性を低下させる。
中間推論の品質を向上させる多様体ベースのフレームワークであるGeoSteerを提案する。
本手法は,(1)セグメントレベルのスコアを持つCoTデータセットの構築,(2)変分オートエンコーダ(VAE)モデルと品質推定モデルを用いて,高品質なCoT軌道の低次元多様体を学習し,(3)LLMの隠れ状態を潜在空間の高品質領域に向けて操る。
この潜在空間における更新は、元々の隠れ状態空間における自然な段階的な調整のように振る舞う。
幾何的にコヒーレントなステアリングを保証します。
我々は,GSM8kデータセット上のGeoSteerをQwen3系列を用いて評価した。
回答の正確さと全体の推論性能によって測定する。
GeoSteerはマッチ精度を最大2.6ポイント改善した。
また、対の勝利率を5.3ポイント引き上げた。
これらの結果から,GeoSteer は LLM における中間的推論の質を向上させるための有効かつ制御可能なメカニズムを提供することが示された。
関連論文リスト
- Milestones over Outcome: Unlocking Geometric Reasoning with Sub-Goal Verifiable Reward [67.00373428443879]
サブゴールレベルの評価と学習へのパラダイムシフトを導入する。
まず,厳密な形式検証データエンジンを用いたベンチマークであるGeoGoalを構築した。
本研究では,スケルトンレートに基づいて,スパース信号を高密度な報酬に置き換えるサブゴール検証リワード(SGVR)フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-08T16:17:56Z) - Can LLMs Guide Their Own Exploration? Gradient-Guided Reinforcement Learning for LLM Reasoning [44.07085022671951]
新しい勾配方向を導入する軌道は、有界乗算型報酬スケーラを受信する。
G2RLは、エントロピーベースのGRPOおよび外部埋め込みメソッドよりも、pass@1、maj@16、pass@kを一貫して改善する。
論文 参考訳(メタデータ) (2025-12-17T18:44:45Z) - Staying in the Sweet Spot: Responsive Reasoning Evolution via Capability-Adaptive Hint Scaffolding [59.60915947702282]
検証可能な報酬(RLVR)による強化学習は,大規模言語モデル(LLM)の推論能力の向上に成功している。
既存のRLVR手法は、訓練データの困難さとモデルの能力のミスマッチにより、探索の非効率に悩まされることが多い。
本稿では,高効率領域に留まることの難易度を動的に調整する新しい監視支援RLVRフレームワークであるSEELEを提案する。
論文 参考訳(メタデータ) (2025-09-08T17:36:21Z) - GeoSR: Cognitive-Agentic Framework for Probing Geospatial Knowledge Boundaries via Iterative Self-Refinement [4.026524042818433]
GeoSRは自己修正型のエージェント推論フレームワークで、コア地理的原則を反復予測ループに組み込む。
物理世界特性推定から社会経済予測に至るまでのタスクにおけるGeoSRの検証を行う。
論文 参考訳(メタデータ) (2025-08-06T04:45:34Z) - Stepwise Reasoning Checkpoint Analysis: A Test Time Scaling Method to Enhance LLMs' Reasoning [81.50681925980135]
本稿では,ステップワイズ推論チェックポイント分析(SRCA)を提案する。
本研究は,(1)中間チェックポイント回答による経路推論をグループ化して品質を確保しつつ多様性を維持するAnswer-Clustered Search,(2)最終決定にすべての中間回答を活用するCheckpoint Candidate Augmentationの2つの主要な戦略を取り入れた。
提案手法は経路均質化を効果的に低減し,高品質な中間結果を活用することにより耐故障機構を創出する。
論文 参考訳(メタデータ) (2025-05-23T12:42:50Z) - TrustGeoGen: Formal-Verified Data Engine for Trustworthy Multi-modal Geometric Problem Solving [106.04001249574786]
TrustGeoGenは、標準的で信頼性の高いベンチマークを確立するために、正式に検証された幾何問題を生成するデータエンジンである。
1)ダイアグラム,テキスト,ステップバイステップのソリューションの生成を同期するマルチモーダルアライメント,2)すべての推論パスがルール準拠であることを保証する形式検証,3)接続思考,ブリッジング,ヒューマンライクな論理ステップとの論理的推論,4)複数のソリューションと自己回帰バックトラックを備えた多種多様な問題を生成できるTextitGeoExploreシリーズアルゴリズム。
論文 参考訳(メタデータ) (2025-04-22T10:45:23Z) - Neural Gradient Learning and Optimization for Oriented Point Normal
Estimation [53.611206368815125]
本研究では,3次元点雲から勾配ベクトルを一貫した向きで学習し,正規推定を行うためのディープラーニング手法を提案する。
局所平面幾何に基づいて角距離場を学習し、粗勾配ベクトルを洗練する。
本手法は,局所特徴記述の精度と能力の一般化を図りながら,グローバル勾配近似を効率的に行う。
論文 参考訳(メタデータ) (2023-09-17T08:35:11Z) - G3Reg: Pyramid Graph-based Global Registration using Gaussian Ellipsoid Model [21.189016878269104]
本研究では,LiDAR点雲の高速かつ堅牢なグローバル登録のための新しいフレームワークであるG3Regを紹介する。
従来の複雑なキーポイントや記述子とは対照的に、基本的な幾何学的プリミティブを抽出する。
本稿では,グローバル登録のためのピラミッドグラフに基づく不信検証方式を提案する。
論文 参考訳(メタデータ) (2023-08-22T17:23:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。