論文の概要: Selection, Reflection and Self-Refinement: Revisit Reasoning Tasks via a Causal Lens
- arxiv url: http://arxiv.org/abs/2510.08222v1
- Date: Thu, 09 Oct 2025 13:45:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.102985
- Title: Selection, Reflection and Self-Refinement: Revisit Reasoning Tasks via a Causal Lens
- Title(参考訳): 選択, 反射, 自己再生: 因果レンズによる再帰的推論課題
- Authors: Yunlong Deng, Boyang Sun, Yan Li, Lingjing Kong, Zeyu Tang, Kun Zhang, Guangyi Chen,
- Abstract要約: 推論タスクは、機械学習モデルの能力を評価するための厳格なベンチマークとみなされてきた。
我々は、因果的視点から推論タスクを再考し、潜在空間におけるそれらの振る舞いを理解する。
SR$2$と呼ばれるフレームワークを導入し、推定された潜在変数を選択機構にフィードバックとして組み込む。
- 参考スコア(独自算出の注目度): 19.316594303998667
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to their inherent complexity, reasoning tasks have long been regarded as rigorous benchmarks for assessing the capabilities of machine learning models, especially large language models (LLMs). Although humans can solve these tasks with ease, existing models, even after extensive pre-training and post-training at scale, still fail to perform reasoning reliably. In this paper, we revisit reasoning tasks from a causal perspective, seeking to understand their behavior in latent space and to offer insights for addressing their challenges. Specifically, we cast reasoning tasks as a selection mechanism, in which high-level logical concepts function as selection operators on the given observations, such as, identifying the correct answer in a math problem or filling the appropriate entry in Sudoku. We emphasize two key properties of this formulation that shed light on the difficulty of reasoning tasks. First, the latent space exceeds the observation space in complexity, even when the correct answer is fully determined by the observed input. Second, the latent variables, corresponding to logical thought, are densely structured and exhibit strong dependencies. Building on this formulation, we introduce a framework, called SR$^2$, that incorporates the estimated latent variables as feedback into the selection mechanism, thereby facilitating the learning of dense dependencies among latent representations. The framework consists of three key modules: reflective representation learning, dependency self-refinement, and periodic intermediate alignment. Experimentally, we show that our approach yields significant gains in reasoning accuracy, for example, attaining over 10$\%$ improvement in performance with 8$\times$ fewer parameters on the Sudoku and Maze tasks over the recent advances.
- Abstract(参考訳): その固有の複雑さのため、推論タスクは機械学習モデル、特に大規模言語モデル(LLM)の能力を評価するための厳密なベンチマークとみなされてきた。
人間はこれらの仕事を簡単に解けるが、既存のモデルは、大規模な事前訓練やポストトレーニングの後であっても、推論を確実に実行できない。
本稿では、因果的視点から推論タスクを再考し、潜在空間におけるそれらの振る舞いを理解し、課題に対処するための洞察を提供する。
具体的には,高いレベルの論理的概念が与えられた観測値の選択演算子として機能し,数学問題における正しい解の特定や,数独における適切な解の入力を補うような,推論タスクを選択機構として用いた。
我々は、この定式化の2つの重要な性質を強調し、推論タスクの難しさに光を当てた。
第一に、遅延空間は、観測された入力によって正しい答えが完全に決定されたとしても、複雑さにおいて観測空間を超える。
第二に、論理的思考に対応する潜伏変数は密に構造化され、強い依存を示す。
この定式化に基づいて、推定潜在変数を選択機構にフィードバックとして組み込んだSR$^2$というフレームワークを導入し、潜在表現間の密接な依存関係の学習を容易にする。
このフレームワークは、反射表現学習、依存性の自己精製、周期的中間アライメントという3つの重要なモジュールで構成されている。
実験の結果,近年のSudokuタスクやMazeタスクでは,8$\timesタスクよりも少ないパラメータで10$\%以上の性能向上を実現している。
関連論文リスト
- The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity [16.266145641151375]
大規模な推論モデルは、回答を提供する前に詳細な思考プロセスを生成する。
我々は, LRM がある種の複雑さを超えて完全に精度の低下に直面していることを示す。
また、より深く推論の痕跡を調べ、探索された解のパターンを研究する。
論文 参考訳(メタデータ) (2025-06-07T22:42:29Z) - PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。
シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。
実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文 参考訳(メタデータ) (2025-05-29T17:55:49Z) - How does Transformer Learn Implicit Reasoning? [41.315116538534106]
制御されたシンボリック環境下でトランスフォーマーをスクラッチからトレーニングすることで、暗黙のマルチホップ推論がどのように現れるかを研究する。
原子三重項によるトレーニングは必要ではなく学習を加速し,第2ホップの一般化は特定の構成構造へのクエリレベル露出に依存する。
論文 参考訳(メタデータ) (2025-05-29T17:02:49Z) - Causal-Inspired Multitask Learning for Video-Based Human Pose Estimation [18.826857684901118]
本稿では2段階からなる因果時間モデリングフレームワークを提案する。
第1段階では、2つの自己超越補助タスクを導入することにより、因果時間モデリング能力を備えたモデルを提供する。
第2段階では、すべての特徴トークンが、ポーズ推定に等しく寄与するわけではないと論じる。
提案手法は3つの大規模ベンチマークデータセット上で最先端の手法より優れている。
論文 参考訳(メタデータ) (2025-01-24T09:45:16Z) - Distilling Reasoning Ability from Large Language Models with Adaptive Thinking [54.047761094420174]
思考の微調整(cot-finetuning)の連鎖は、小さな言語モデル(SLM)を特定のタスクに対するパフォーマンス向上の推論能力で実現することを目的としている。
既存のコトファインタニング法の多くは事前に考えられたメカニズムを採用しており、SLMは答えを出す前に理性を生成することができる。
このメカニズムにより、SLMは複雑な質問を分析して考えることができるが、答えの正しさは論理的に小さな誤りに非常に敏感になる。
理性よりも先に回答を生成するための頑健な後思考機構を提案する。
論文 参考訳(メタデータ) (2024-04-14T07:19:27Z) - LaRS: Latent Reasoning Skills for Chain-of-Thought Reasoning [61.7853049843921]
Chain-of-Thoughting(CoT)プロンプトは、大規模言語モデル(LLM)のための一般的なコンテキスト内学習手法である。
本稿では、教師なし学習を用いて有理数の潜在空間表現を生成するLaRS(Lalatnt Reasoning Skills)という新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-07T20:36:10Z) - DetermLR: Augmenting LLM-based Logical Reasoning from Indeterminacy to Determinacy [76.58614128865652]
非決定性から決定性への進化として推論過程を再考する新しい視点であるDetermLRを提案する。
まず、既知の条件を次の2つのタイプに分類する: 決定的および不決定的前提 これは、推論プロセスのオール方向を提供し、不決定的データを段階的決定的洞察に変換する際のLCMを導く。
我々は、利用可能な施設の保存と抽出、推論メモリによる推論パスの自動化、そしてその後の推論ステップに関する歴史的推論の詳細を保存する。
論文 参考訳(メタデータ) (2023-10-28T10:05:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。