論文の概要: GeoSteer: Faithful Chain-of-Thought Steering via Latent Manifold Gradients
- arxiv url: http://arxiv.org/abs/2601.10229v2
- Date: Tue, 20 Jan 2026 05:37:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 18:45:13.545787
- Title: GeoSteer: Faithful Chain-of-Thought Steering via Latent Manifold Gradients
- Title(参考訳): GeoSteer: 遅れたマニフォールド勾配による忠実なチェーン・オブ・サード・ステアリング
- Authors: Kentaro Kazama, Daiki Shirafuji, Tatsuhiko Saito,
- Abstract要約: 中間推論の品質を向上させる多様体ベースのフレームワークであるGeoSteerを提案する。
本手法は,(1)ステップレベルのスコアを持つCoTデータセットの構築,(2)変分オートエンコーダ(VAE)モデルと品質推定モデルを用いて,高品質なCoT軌道の低次元多様体を学習し,(3)潜在空間の高品質領域に向けて目標LLMの隠れ状態を操る。
- 参考スコア(独自算出の注目度): 1.8033500402815792
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advances in Large Language Models (LLMs) have demonstrated remarkable progress in their reasoning capabilities, such as Chain-of-Thought (CoT). Most approaches rely on CoT rationales. Previous studies have shown that LLMs often generate logically inconsistent reasoning steps even when their final answers are correct. These inconsistencies reduce the reliability of the reasoning process. We propose GeoSteer, a manifold-based framework that improves the quality of intermediate reasoning. The method consists of: (1) constructing a CoT dataset with step-level scores, (2) training a Variational Autoencoder (VAE) model and a quality estimation model to learn a low-dimensional manifold of high-quality CoT trajectories, and (3) steering hidden states of target LLMs toward higher-quality regions in the latent space. This last step enables steering of the hidden states by following gradients along the learned manifold. It facilitates geometrically coherent steering. Evaluation experiments were conducted on the GSM8k dataset using the Qwen3 series. We evaluated performance using two metrics: answer accuracy and overall reasoning quality. GeoSteer improved the accuracy by 0.9 points and enhanced the reasoning quality by 4.5 points on average, compared with those of original LLMs. These results indicate that GeoSteer improves an effective and controllable mechanism for improving the quality of intermediate reasoning in LLMs.
- Abstract(参考訳): 近年のLarge Language Models (LLM) の進歩は,Chain-of-Thought (CoT) などの推論能力に顕著な進歩を見せている。
ほとんどのアプローチはCoTの合理性に依存しています。
これまでの研究では、LLMは最終的な答えが正しい場合でも論理的に矛盾する推論ステップをしばしば生成することが示されている。
これらの矛盾は推論プロセスの信頼性を低下させる。
中間推論の品質を向上させる多様体ベースのフレームワークであるGeoSteerを提案する。
本手法は,(1)ステップレベルスコアを用いたCoTデータセットの構築,(2)変分オートエンコーダモデルと品質推定モデルを用いて,高品質なCoT軌道の低次元多様体を学習し,(3)潜在空間の高品質領域に向けて目標LLMの隠れ状態のステアリングを行う。
この最後のステップは、学習多様体に沿った勾配に従うことによって隠れた状態のステアリングを可能にする。
幾何学的にコヒーレントな操舵を容易にする。
Qwen3 シリーズを用いた GSM8k データセットの評価実験を行った。
回答精度と全体的な推論品質の2つの指標を用いて性能を評価した。
GeoSteer の精度は0.9ポイント向上し、推理品質はオリジナルの LLM と比較すると平均4.5ポイント向上した。
これらの結果から,GeoSteer は LLM における中間的推論の質を向上させるための有効かつ制御可能な機構を改良したことが示唆された。
関連論文リスト
- Milestones over Outcome: Unlocking Geometric Reasoning with Sub-Goal Verifiable Reward [67.00373428443879]
サブゴールレベルの評価と学習へのパラダイムシフトを導入する。
まず,厳密な形式検証データエンジンを用いたベンチマークであるGeoGoalを構築した。
本研究では,スケルトンレートに基づいて,スパース信号を高密度な報酬に置き換えるサブゴール検証リワード(SGVR)フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-08T16:17:56Z) - Can LLMs Guide Their Own Exploration? Gradient-Guided Reinforcement Learning for LLM Reasoning [44.07085022671951]
新しい勾配方向を導入する軌道は、有界乗算型報酬スケーラを受信する。
G2RLは、エントロピーベースのGRPOおよび外部埋め込みメソッドよりも、pass@1、maj@16、pass@kを一貫して改善する。
論文 参考訳(メタデータ) (2025-12-17T18:44:45Z) - Staying in the Sweet Spot: Responsive Reasoning Evolution via Capability-Adaptive Hint Scaffolding [59.60915947702282]
検証可能な報酬(RLVR)による強化学習は,大規模言語モデル(LLM)の推論能力の向上に成功している。
既存のRLVR手法は、訓練データの困難さとモデルの能力のミスマッチにより、探索の非効率に悩まされることが多い。
本稿では,高効率領域に留まることの難易度を動的に調整する新しい監視支援RLVRフレームワークであるSEELEを提案する。
論文 参考訳(メタデータ) (2025-09-08T17:36:21Z) - GeoSR: Cognitive-Agentic Framework for Probing Geospatial Knowledge Boundaries via Iterative Self-Refinement [4.026524042818433]
GeoSRは自己修正型のエージェント推論フレームワークで、コア地理的原則を反復予測ループに組み込む。
物理世界特性推定から社会経済予測に至るまでのタスクにおけるGeoSRの検証を行う。
論文 参考訳(メタデータ) (2025-08-06T04:45:34Z) - Stepwise Reasoning Checkpoint Analysis: A Test Time Scaling Method to Enhance LLMs' Reasoning [81.50681925980135]
本稿では,ステップワイズ推論チェックポイント分析(SRCA)を提案する。
本研究は,(1)中間チェックポイント回答による経路推論をグループ化して品質を確保しつつ多様性を維持するAnswer-Clustered Search,(2)最終決定にすべての中間回答を活用するCheckpoint Candidate Augmentationの2つの主要な戦略を取り入れた。
提案手法は経路均質化を効果的に低減し,高品質な中間結果を活用することにより耐故障機構を創出する。
論文 参考訳(メタデータ) (2025-05-23T12:42:50Z) - TrustGeoGen: Formal-Verified Data Engine for Trustworthy Multi-modal Geometric Problem Solving [106.04001249574786]
TrustGeoGenは、標準的で信頼性の高いベンチマークを確立するために、正式に検証された幾何問題を生成するデータエンジンである。
1)ダイアグラム,テキスト,ステップバイステップのソリューションの生成を同期するマルチモーダルアライメント,2)すべての推論パスがルール準拠であることを保証する形式検証,3)接続思考,ブリッジング,ヒューマンライクな論理ステップとの論理的推論,4)複数のソリューションと自己回帰バックトラックを備えた多種多様な問題を生成できるTextitGeoExploreシリーズアルゴリズム。
論文 参考訳(メタデータ) (2025-04-22T10:45:23Z) - Neural Gradient Learning and Optimization for Oriented Point Normal
Estimation [53.611206368815125]
本研究では,3次元点雲から勾配ベクトルを一貫した向きで学習し,正規推定を行うためのディープラーニング手法を提案する。
局所平面幾何に基づいて角距離場を学習し、粗勾配ベクトルを洗練する。
本手法は,局所特徴記述の精度と能力の一般化を図りながら,グローバル勾配近似を効率的に行う。
論文 参考訳(メタデータ) (2023-09-17T08:35:11Z) - G3Reg: Pyramid Graph-based Global Registration using Gaussian Ellipsoid Model [21.189016878269104]
本研究では,LiDAR点雲の高速かつ堅牢なグローバル登録のための新しいフレームワークであるG3Regを紹介する。
従来の複雑なキーポイントや記述子とは対照的に、基本的な幾何学的プリミティブを抽出する。
本稿では,グローバル登録のためのピラミッドグラフに基づく不信検証方式を提案する。
論文 参考訳(メタデータ) (2023-08-22T17:23:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。