論文の概要: Towards Inference-time Scaling for Continuous Space Reasoning
- arxiv url: http://arxiv.org/abs/2510.12167v1
- Date: Tue, 14 Oct 2025 05:53:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.198749
- Title: Towards Inference-time Scaling for Continuous Space Reasoning
- Title(参考訳): 連続空間推論のための推論時間スケーリングに向けて
- Authors: Minghan Wang, Thuy-Trang Vu, Ehsan Shareghi, Gholamreza Haffari,
- Abstract要約: 推論時間スケーリングは、大規模言語モデルにおけるテキストベースの推論に有効であることが証明されている。
本稿では,そのような確立された手法が連続空間における推論にうまく適応できるかどうかを考察する。
本研究では,ドロップアウト型サンプリングによる多種多様な推論経路の実現可能性を示す。
- 参考スコア(独自算出の注目度): 55.40260529506702
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inference-time scaling through multiple sample generation in combination with Process- or Outcome-Reward Model (PRM or ORM) re-ranking has proven effective for text-based reasoning in large language models. This paper investigates whether such established techniques can be successfully adapted to reasoning in the continuous space, using COCONUT (Hao et al. 2024) continuous space reasoning LM as the backbone. We demonstrate the feasibility of generating diverse reasoning paths through dropout-based sampling. Our Pass@N analysis on the generated samples reveals the potential that could enable a significant gain in performance akin to observed gain in the discrete space. However, we highlight unique challenges faced for materializing this gain in the continuous thought space. In particular, working recipes for data generation and training PRM and ORM models in the discrete space unlocks only marginal improvements in the continuous space. Through probing various aspects including geometric properties and trajectory dynamics we identify the underlying reasons that prevent effective discrimination between correct and incorrect reasoning (essential for the functioning of PRM and ORM). Our findings reveal that current limitations stem from the absence of key inductive biases in continuous thought representations. We argue that the training frameworks for continuous reasoning LMs require not only to optimize for accuracy but also to explicitly incorporate inductive biases that could be utilized during inference-time for discrimination of correct and incorrect thoughts.\footnote{Our code and data will be publicly available.}
- Abstract(参考訳): Process- or Outcome-Reward Model(PRMまたはORM)と組み合わせた複数のサンプル生成による推論時間スケーリングは、大規模言語モデルにおけるテキストベースの推論に有効であることが証明された。
本稿では,COCONUT(Hao et al 2024)連続空間推論LMをバックボーンとして,そのような確立された手法が連続空間の推論にうまく適応できるかどうかを検討する。
本研究では,ドロップアウト型サンプリングによる多種多様な推論経路の実現可能性を示す。
生成したサンプルに対するPass@N分析により、離散空間における観測された利得と同様のパフォーマンスが大幅に向上する可能性を明らかにした。
しかし、この利益を連続的な思考空間で実現するために直面するユニークな課題を強調した。
特に、離散空間におけるデータ生成およびトレーニングのための作業レシピは、連続空間における限界的な改善のみを解放する。
幾何学的特性や軌道力学を含む様々な側面を探索することにより、正しい推論と間違った推論(PRMとORMの機能に欠かせない)を効果的に区別しない根底にある理由を特定する。
この結果から, 連続的思考表現に重要な帰納的バイアスが存在しないことが示唆された。
我々は、連続推論のためのトレーニングフレームワークは、正確性のために最適化するだけでなく、正しい思考と正しくない思考を識別するために、推論時に利用できる帰納的バイアスを明示的に組み込む必要があると論じている。
コードとデータは公開されます。
※
関連論文リスト
- Counterfactual Explanations in Medical Imaging: Exploring SPN-Guided Latent Space Manipulation [2.9810923705287524]
医用画像解析において、深層学習モデルは顕著な性能を示した。
可変オートエンコーダ(VAE)のような深い生成モデルは、大きな生成能力を示す。
和積ネットワーク(SPN)のような確率モデルは、複雑な結合確率分布を効率的に表す。
論文 参考訳(メタデータ) (2025-07-25T15:19:32Z) - A Survey on Latent Reasoning [100.54120559169735]
大きな言語モデル(LLM)は印象的な推論機能を示している。
中間ステップを言語化するCoT推論は、モデルの表現帯域幅を制限する。
潜在的推論は、モデルの連続的な隠れ状態に完全にマルチステップの推論を実行することで、このボトルネックに対処する。
論文 参考訳(メタデータ) (2025-07-08T17:29:07Z) - I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data? [76.15163242945813]
大規模言語モデル (LLM) は、多くの人が知能の形式を示すと結論づけている。
本稿では,潜在離散変数として表現される人間解釈可能な概念に基づいてトークンを生成する新しい生成モデルを提案する。
論文 参考訳(メタデータ) (2025-03-12T01:21:17Z) - Spatial Reasoning with Denoising Models [49.83744014336816]
本稿では,連続変数の集合に対する推論を行うためのフレームワークを提案する。
初めて、その生成順序をデノナイジングネットワーク自体によって予測できる。
これらの結果から,特定の推論タスクの精度を1%から50%に向上させることができる。
論文 参考訳(メタデータ) (2025-02-28T14:08:30Z) - Disentangled Interleaving Variational Encoding [1.132458063021286]
本稿では,変分オートエンコーダの潜時空間において,元の入力を限界値と条件値の確率分布に分解する原理的手法を提案する。
提案モデルであるDeep Disentangled Interleaving Variationalを提案する。
コーダ(DeepDIVE)は、元の入力から切り離された特徴を学習し、埋め込み空間にクラスタを形成する。
2つの公開データセットの実験は、DeepDIVEが元の入力をアンタングルし、元のVAEよりも予測精度が良いことを示している。
論文 参考訳(メタデータ) (2025-01-15T10:50:54Z) - Towards Characterizing Domain Counterfactuals For Invertible Latent Causal Models [15.817239008727789]
本研究では,異なるドメインで生成された場合,サンプルがどのようなものであったのかを仮定した,ドメイン反事実と呼ばれる特定のタイプの因果クエリを解析する。
本研究では, 潜在構造因果モデル (SCM) の回復は, ドメイン・デファクト・デファクトを推定するために不要であることを示す。
また、モデル生成過程を単純化し、生成モデル推定を行うための理論的基盤となる実用的なアルゴリズムも開発する。
論文 参考訳(メタデータ) (2023-06-20T04:19:06Z) - Evidential Sparsification of Multimodal Latent Spaces in Conditional
Variational Autoencoders [63.46738617561255]
訓練された条件付き変分オートエンコーダの離散潜時空間をスパース化する問題を考察する。
顕在的理論を用いて、特定の入力条件から直接証拠を受け取る潜在クラスを特定し、そうでないクラスをフィルタリングする。
画像生成や人間の行動予測などの多様なタスクの実験により,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2020-10-19T01:27:21Z) - Modal Uncertainty Estimation via Discrete Latent Representation [4.246061945756033]
本稿では,インプットとアウトプットの1対1マッピングを,忠実な不確実性対策とともに学習するディープラーニングフレームワークを提案する。
我々のフレームワークは、現在の最先端手法よりもはるかに正確な不確実性推定を実証している。
論文 参考訳(メタデータ) (2020-07-25T05:29:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。