Fugu-MT 論文翻訳(概要): GeoSteer: Faithful Chain-of-Thought Steering via Latent Manifold Gradients

論文の概要: GeoSteer: Faithful Chain-of-Thought Steering via Latent Manifold Gradients

arxiv url: http://arxiv.org/abs/2601.10229v1
Date: Thu, 15 Jan 2026 09:44:07 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-16 19:43:19.086535
Title: GeoSteer: Faithful Chain-of-Thought Steering via Latent Manifold Gradients
Title（参考訳）: GeoSteer: 遅れたマニフォールド勾配による忠実なチェーン・オブ・サード・ステアリング
Authors: Kentaro Kazama, Daiki Shirafuji, Tatsuhiko Saito,
Abstract要約: 中間推論の品質を向上させる多様体ベースのフレームワークであるGeoSteerを提案する。我々は,GSM8kデータセット上のGeoSteerをQwen3系列を用いて評価した。
参考スコア（独自算出の注目度）: 1.8033500402815792
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Recent advances in Large Language Models (LLMs) have improved multi-step reasoning. Most approaches rely on Chain-of-Thought (CoT) rationales. Previous studies have shown that LLMs often generate logically inconsistent reasoning steps even when their final answers are correct. These inconsistencies reduce the reliability of step-level reasoning. We propose GeoSteer, a manifold-based framework that improves the quality of intermediate reasoning. The method consists of: (1) constructing a CoT dataset with segment-level scores, (2) training a Variational Autoencoder (VAE) model and a quality estimation model to learn a low-dimensional manifold of high-quality CoT trajectories, and (3) steering hidden states of target LLMs toward higher-quality regions in the latent space. This update in a latent space behaves like a natural-gradient adjustment in the original hidden-state space. It ensures geometrically coherent steering. We evaluate GeoSteer on the GSM8k dataset using the Qwen3 series. We measure via answer accuracy and overall reasoning performance. GeoSteer improved the exact match accuracy by up to 2.6 points. It also enhanced the pairwise win rate by 5.3 points. These results indicate that GeoSteer provides an effective and controllable mechanism for improving the quality of intermediate reasoning in LLMs.
Abstract（参考訳）: 大規模言語モデル(LLM)の最近の進歩は多段階推論を改善している。ほとんどのアプローチは、CoT(Chain-of-Thought)の合理性に依存している。これまでの研究では、LLMは最終的な答えが正しい場合でも論理的に矛盾する推論ステップをしばしば生成することが示されている。これらの矛盾はステップレベルの推論の信頼性を低下させる。中間推論の品質を向上させる多様体ベースのフレームワークであるGeoSteerを提案する。本手法は,(1)セグメントレベルのスコアを持つCoTデータセットの構築,(2)変分オートエンコーダ(VAE)モデルと品質推定モデルを用いて,高品質なCoT軌道の低次元多様体を学習し,(3)LLMの隠れ状態を潜在空間の高品質領域に向けて操る。この潜在空間における更新は、元々の隠れ状態空間における自然な段階的な調整のように振る舞う。幾何的にコヒーレントなステアリングを保証します。我々は,GSM8kデータセット上のGeoSteerをQwen3系列を用いて評価した。回答の正確さと全体の推論性能によって測定する。 GeoSteerはマッチ精度を最大2.6ポイント改善した。また、対の勝利率を5.3ポイント引き上げた。これらの結果から,GeoSteer は LLM における中間的推論の質を向上させるための有効かつ制御可能なメカニズムを提供することが示された。

関連論文リスト

S3-CoT: Self-Sampled Succinct Reasoning Enables Efficient Chain-of-Thought LLMs [48.80914119283909]
チェーン・オブ・シークレット(CoT)を備えた大規模言語モデルは、強力なパフォーマンスを実現し、振る舞いの窓を提供する。最近の証拠は、CoT能力の改善には冗長な推論プロセスが伴うことを示唆している。本研究では,効率的なCoT学習のためのアクティベーションステアリングに基づく自己サンプリングフレームワークを提案する。
論文参考訳（メタデータ） (2026-02-02T11:37:36Z)
Milestones over Outcome: Unlocking Geometric Reasoning with Sub-Goal Verifiable Reward [67.00373428443879]
サブゴールレベルの評価と学習へのパラダイムシフトを導入する。まず,厳密な形式検証データエンジンを用いたベンチマークであるGeoGoalを構築した。本研究では,スケルトンレートに基づいて,スパース信号を高密度な報酬に置き換えるサブゴール検証リワード(SGVR)フレームワークを提案する。
論文参考訳（メタデータ） (2026-01-08T16:17:56Z)
Can LLMs Guide Their Own Exploration? Gradient-Guided Reinforcement Learning for LLM Reasoning [44.07085022671951]
新しい勾配方向を導入する軌道は、有界乗算型報酬スケーラを受信する。 G2RLは、エントロピーベースのGRPOおよび外部埋め込みメソッドよりも、pass@1、maj@16、pass@kを一貫して改善する。
論文参考訳（メタデータ） (2025-12-17T18:44:45Z)
What Defines Good Reasoning in LLMs? Dissecting Reasoning Steps with Multi-Aspect Evaluation [67.47463575774388]
我々は推論品質を関連性と一貫性の2つの次元に分解する。これらの側面を確実に測定するために、因果的段階評価(CaSE)を導入する。トレーニングデータをCaSEで評価した妥当性とコヒーレンスでキュレートすることで、最終タスクのパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2025-10-23T14:30:37Z)
Staying in the Sweet Spot: Responsive Reasoning Evolution via Capability-Adaptive Hint Scaffolding [59.60915947702282]
検証可能な報酬(RLVR)による強化学習は,大規模言語モデル(LLM)の推論能力の向上に成功している。既存のRLVR手法は、訓練データの困難さとモデルの能力のミスマッチにより、探索の非効率に悩まされることが多い。本稿では,高効率領域に留まることの難易度を動的に調整する新しい監視支援RLVRフレームワークであるSEELEを提案する。
論文参考訳（メタデータ） (2025-09-08T17:36:21Z)
When Punctuation Matters: A Large-Scale Comparison of Prompt Robustness Methods for LLMs [55.20230501807337]
本報告では, 統一実験フレームワーク内での迅速なロバスト性向上のための5つの手法の体系的評価を行う。 Llama、Qwen、Gemmaファミリーの8つのモデルに対して、Natural Instructionsデータセットから52のタスクをベンチマークする。
論文参考訳（メタデータ） (2025-08-15T10:32:50Z)
GeoSR: Cognitive-Agentic Framework for Probing Geospatial Knowledge Boundaries via Iterative Self-Refinement [4.026524042818433]
GeoSRは自己修正型のエージェント推論フレームワークで、コア地理的原則を反復予測ループに組み込む。物理世界特性推定から社会経済予測に至るまでのタスクにおけるGeoSRの検証を行う。
論文参考訳（メタデータ） (2025-08-06T04:45:34Z)
Stepwise Reasoning Checkpoint Analysis: A Test Time Scaling Method to Enhance LLMs' Reasoning [81.50681925980135]
本稿では,ステップワイズ推論チェックポイント分析(SRCA)を提案する。本研究は,(1)中間チェックポイント回答による経路推論をグループ化して品質を確保しつつ多様性を維持するAnswer-Clustered Search,(2)最終決定にすべての中間回答を活用するCheckpoint Candidate Augmentationの2つの主要な戦略を取り入れた。提案手法は経路均質化を効果的に低減し,高品質な中間結果を活用することにより耐故障機構を創出する。
論文参考訳（メタデータ） (2025-05-23T12:42:50Z)
TrustGeoGen: Formal-Verified Data Engine for Trustworthy Multi-modal Geometric Problem Solving [106.04001249574786]
TrustGeoGenは、標準的で信頼性の高いベンチマークを確立するために、正式に検証された幾何問題を生成するデータエンジンである。 1)ダイアグラム,テキスト,ステップバイステップのソリューションの生成を同期するマルチモーダルアライメント,2)すべての推論パスがルール準拠であることを保証する形式検証,3)接続思考,ブリッジング,ヒューマンライクな論理ステップとの論理的推論,4)複数のソリューションと自己回帰バックトラックを備えた多種多様な問題を生成できるTextitGeoExploreシリーズアルゴリズム。
論文参考訳（メタデータ） (2025-04-22T10:45:23Z)
Integrating Chain-of-Thought for Multimodal Alignment: A Study on 3D Vision-Language Learning [20.562109430526007]
CoT(Chain-of-Thought)推論は自然言語処理において有効であることが証明されているが、マルチモーダルアライメントでは未探索である。本研究では,構造的推論をアライメントトレーニングに組み込むことで,3次元視覚支援学習への統合について検討する。
論文参考訳（メタデータ） (2025-03-08T14:24:54Z)
Step-KTO: Optimizing Mathematical Reasoning through Stepwise Binary Feedback [94.25162866972077]
Step-KTOは、プロセスレベルと結果レベルのバイナリフィードバックを組み合わせたトレーニングフレームワークである。実験の結果,Step-KTOは最終回答の精度と中間推論の質の両方を著しく向上させることがわかった。
論文参考訳（メタデータ） (2025-01-18T15:38:03Z)
Fine-Tuning on Diverse Reasoning Chains Drives Within-Inference CoT Refinement in LLMs [63.36637269634553]
本稿では,LLMを微調整し,一つの推論ステップで思考の逆連鎖(DCoT)を生成する手法を提案する。 DCoTの微調整により,モデルファミリおよびスケール間のCoTベースライン上での性能が向上することを示す。我々の研究は、定量的解析と手動評価の両方で、観測された利益は、最初の推論連鎖を洗練させるモデルの能力に由来することを明らかにしているため、重要である。
論文参考訳（メタデータ） (2024-07-03T15:01:18Z)
Neural Gradient Learning and Optimization for Oriented Point Normal Estimation [53.611206368815125]
本研究では,3次元点雲から勾配ベクトルを一貫した向きで学習し,正規推定を行うためのディープラーニング手法を提案する。局所平面幾何に基づいて角距離場を学習し、粗勾配ベクトルを洗練する。本手法は,局所特徴記述の精度と能力の一般化を図りながら,グローバル勾配近似を効率的に行う。
論文参考訳（メタデータ） (2023-09-17T08:35:11Z)
G3Reg: Pyramid Graph-based Global Registration using Gaussian Ellipsoid Model [21.189016878269104]
本研究では,LiDAR点雲の高速かつ堅牢なグローバル登録のための新しいフレームワークであるG3Regを紹介する。従来の複雑なキーポイントや記述子とは対照的に、基本的な幾何学的プリミティブを抽出する。本稿では,グローバル登録のためのピラミッドグラフに基づく不信検証方式を提案する。
論文参考訳（メタデータ） (2023-08-22T17:23:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。