論文の概要: Self-Aware Markov Models for Discrete Reasoning
- arxiv url: http://arxiv.org/abs/2603.16661v1
- Date: Tue, 17 Mar 2026 15:30:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.372711
- Title: Self-Aware Markov Models for Discrete Reasoning
- Title(参考訳): 離散推論のための自己認識マルコフモデル
- Authors: Gregor Kornhardt, Jannis Chemseddine, Christian Wald, Gabriele Steidl,
- Abstract要約: 本稿では,Markovトランジションカーネルの学習方法を紹介する。
この設計によりトークンを再マッピングすることができ、モデルが以前のミスを修正することができる。
Sudoku-Extremeデータセットでは、95%の妥当性で、他のフローベース手法よりも明らかに優れている。
- 参考スコア(独自算出の注目度): 8.161697757509701
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Standard masked discrete diffusion models face limitations in reasoning tasks due to their inability to correct their own mistakes on the masking path. Since they rely on a fixed number of denoising steps, they are unable to adjust their computation to the complexity of a given problem. To address these limitations, we introduce a method based on learning a Markov transition kernel that is trained on its own outputs. This design enables tokens to be remasked, allowing the model to correct its previous mistakes. Furthermore, we do not need a fixed time schedule but use a trained stopping criterion. This allows for adaptation of the number of function evaluations to the difficulty of the reasoning problem. Our adaptation adds two lightweight prediction heads, enabling reuse and fine-tuning of existing pretrained models. On the Sudoku-Extreme dataset we clearly outperform other flow based methods with a validity of 95%. For the Countdown-4 we only need in average of 10 steps to solve almost 96% of them correctly, while many problems can be solved already in 2 steps.
- Abstract(参考訳): 標準的なマスク付き離散拡散モデルは、マスキングパスにおける自身の誤りを修正することができないため、推論タスクの制限に直面している。
与えられた問題の複雑さに合わせて計算を調整することはできない。
これらの制約に対処するために,Markovトランジションカーネルを学習し,自身の出力に基づいて学習する手法を提案する。
この設計によりトークンを再マッピングすることができ、モデルが以前のミスを修正することができる。
さらに、固定時間スケジュールは必要とせず、訓練された停止基準を使用する。
これにより、関数評価の回数を推論問題の難しさに適応させることができる。
我々の適応は2つの軽量な予測ヘッドを追加し、既存の事前学習モデルの再利用と微調整を可能にした。
Sudoku-Extremeデータセットでは、95%の妥当性で、他のフローベース手法よりも明らかに優れている。
Countdown-4では、およそ96%の問題を正しく解くのに平均10ステップしか必要とせず、2ステップですでに多くの問題が解決できる。
関連論文リスト
- ConciseRL: Conciseness-Guided Reinforcement Learning for Efficient Reasoning Models [14.403953640255823]
強化学習フレームワークに報酬信号として用いられる新しいスコアを導入し、モデルが正確かつ簡潔な推論トレースを生成するよう誘導する。
このスコアは、ジャッジとして機能する大きな言語モデルによって評価され、単純なトークン長を超えて動的でコンテキスト対応のフィードバックを可能にする。
提案手法は,MATHデータセット上での最先端の効率・正確性トレードオフを実現し,簡単な問題ではトークン使用率を最大31倍に削減し,精度を7%向上させるとともに,最も難しい問題では,トークン使用率を最大3.6倍に抑えながら,完全な推論を+7.5%向上させる。
論文 参考訳(メタデータ) (2025-05-22T19:56:35Z) - Subtle Errors in Reasoning: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。
RISEは、事前定義された微妙なエラーをピボットトークンに注入する。
RISEの有効性を検証する実験では、Qwen2-7B-Instructでの優先学習により、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善され、トレーニングサンプルは4.5Kに留まった。
論文 参考訳(メタデータ) (2024-10-09T07:43:38Z) - GRACE: Discriminator-Guided Chain-of-Thought Reasoning [75.35436025709049]
本稿では, 正しい推論手順を導出するために, GRACE (CorrectnEss Discriminator) を用いたチェーン・オブ・シークレット・リAsoningを提案する。
GRACEは、正しいステップと間違ったステップに対して対照的な損失で訓練された判別器を採用しており、復号時に次のステップ候補を採点するために使用される。
論文 参考訳(メタデータ) (2023-05-24T09:16:51Z) - Learning to Optimize Permutation Flow Shop Scheduling via Graph-based
Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。
我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。
我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文 参考訳(メタデータ) (2022-10-31T09:46:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。