論文の概要: DiSCTT: Consensus-Guided Self-Curriculum for Efficient Test-Time Adaptation in Reasoning
- arxiv url: http://arxiv.org/abs/2603.05357v1
- Date: Thu, 05 Mar 2026 16:38:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.325418
- Title: DiSCTT: Consensus-Guided Self-Curriculum for Efficient Test-Time Adaptation in Reasoning
- Title(参考訳): DiSCTT: 推論における効率的なテスト時間適応のための合意誘導自己計算法
- Authors: Mohammad Mahdi Moradi, Sudhir Mudur,
- Abstract要約: TestTTは、テストタイム最適化戦略を割り当てる、困難に認識され、コンセンサスに導かれるセルフカリキュラムフレームワークである。
TestTTが強い計算ベースラインを一貫して上回ることを示す。
- 参考スコア(独自算出の注目度): 0.5371337604556311
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test-time adaptation offers a promising avenue for improving reasoning performance in large language models without additional supervision, but existing approaches often apply a uniform optimization objective across all inputs, leading to inefficient or unstable adaptation on heterogeneous reasoning problems. We propose DiSCTT, a difficulty-aware, consensus-guided self-curriculum framework that dynamically allocates test-time optimization strategies based on instance-level epistemic uncertainty estimated from agreement among sampled reasoning trajectories. Inputs with high consensus are consolidated via supervised fine-tuning using majority-agreed solutions as pseudo-labels, while low-consensus inputs are optimized via reinforcement learning with a consensus-regularized objective that encourages diversity under relevance constraints. Across a broad suite of mathematical and general reasoning benchmarks, DiSCTT consistently outperforms strong test-time adaptation baselines, achieving higher accuracy with reduced variance and substantially lower computation and wall-clock training times. These results demonstrate that explicitly accounting for instance difficulty and uncertainty enables more stable, efficient, and effective test-time adaptation for reasoning models.
- Abstract(参考訳): テスト時適応は、より大きな言語モデルにおける推論性能を改善するための有望な道を提供するが、既存のアプローチでは、全ての入力に対して一様最適化の目標を適用し、不均一な推論問題に非効率または不安定な適応をもたらす。
提案するDiSCTTは,サンプル推論トラジェクトリ間の合意から推定されるインスタンスレベルの疫学的不確実性に基づいて,動的にテスト時間最適化戦略を割り当てる,困難を意識した自己計算フレームワークである。
高コンセンサスを持つ入力は、擬似ラベルとして多数回答されたソリューションを用いて教師付き微調整によって統合される一方、低コンセンサス入力は、関連制約下での多様性を促進するコンセンサス正規化目的による強化学習によって最適化される。
数学および一般的な推論ベンチマークの幅広いスイートの中で、DiSCTTは強いテスト時間適応ベースラインを一貫して上回り、ばらつきを低減し、計算時間とウォールクロックのトレーニング時間を大幅に短縮する。
これらの結果は、例の難易度と不確実性を明確に考慮することで、推論モデルに対するより安定的で効率的で効果的なテスト時間適応が可能になることを証明している。
関連論文リスト
- Not All Preferences Are Created Equal: Stability-Aware and Gradient-Efficient Alignment for Reasoning Models [52.48582333951919]
ポリシー更新の信号対雑音比を最大化することにより、アライメントの信頼性を高めるために設計された動的フレームワークを提案する。
SAGE(Stability-Aware Gradient Efficiency)は、モデル能力に基づいて候補プールをリフレッシュする粗いきめ細かいカリキュラムメカニズムを統合する。
複数の数学的推論ベンチマークの実験により、SAGEは収束を著しく加速し、静的ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2026-02-01T12:56:10Z) - DaGRPO: Rectifying Gradient Conflict in Reasoning via Distinctiveness-Aware Group Relative Policy Optimization [20.66452395111739]
識別性を考慮したグループ相対ポリシー最適化(DaGRPO)を提案する。
DaGRPOは,(1)微粒なスコアリングを利用して,低差別性でサンプルペアを動的にマスキングするシーケンスレベルのグラディエント・リクティフィケーション,(2)高品質なアンカーを導入し,課題に対処するためのトレーニング信号の復元を行うオフ・ポリシー・データ・アジュメンテーションという2つのコアメカニズムを取り入れている。
詳細な分析により、DaGRPOは勾配の爆発を効果的に軽減し、長鎖推論能力の出現を加速することを確認した。
論文 参考訳(メタデータ) (2025-12-06T07:51:36Z) - Perception-Consistency Multimodal Large Language Models Reasoning via Caption-Regularized Policy Optimization [72.30168853571216]
マルチモーダルな言語モデルは、視覚知覚と象徴的推論を統合するタスクに優れています。
CapPO は,(1) 原画像上の条件付き応答とキャプション上の条件付き応答のばらつきを最小限に抑えるキャプションベース整合性正規化,(2) KL 重み付き優位性推定スキームを適応的に拡張して知覚整合性トラジェクトリを強化するキャプションベース整合性正規化という2つの重要なメカニズムを統合した。
論文 参考訳(メタデータ) (2025-09-26T04:32:26Z) - TCPO: Thought-Centric Preference Optimization for Effective Embodied Decision-making [75.29820290660065]
本稿では,効果的な具体的意思決定のための思考中心推論最適化(TCPO)を提案する。
モデルの中間的推論プロセスの整合性を強調し、モデル劣化の問題を緩和する。
ALFWorld環境での実験では、平均成功率は26.67%であり、RL4VLMよりも6%向上している。
論文 参考訳(メタデータ) (2025-09-10T11:16:21Z) - PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。
シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。
実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文 参考訳(メタデータ) (2025-05-29T17:55:49Z) - Stepwise Reasoning Checkpoint Analysis: A Test Time Scaling Method to Enhance LLMs' Reasoning [81.50681925980135]
本稿では,ステップワイズ推論チェックポイント分析(SRCA)を提案する。
本研究は,(1)中間チェックポイント回答による経路推論をグループ化して品質を確保しつつ多様性を維持するAnswer-Clustered Search,(2)最終決定にすべての中間回答を活用するCheckpoint Candidate Augmentationの2つの主要な戦略を取り入れた。
提案手法は経路均質化を効果的に低減し,高品質な中間結果を活用することにより耐故障機構を創出する。
論文 参考訳(メタデータ) (2025-05-23T12:42:50Z) - Rethinking the Sampling Criteria in Reinforcement Learning for LLM Reasoning: A Competence-Difficulty Alignment Perspective [27.94738910330893]
強化学習は、大規模言語モデルの推論能力を高める可能性を示す。
既存の手法では,問題問題に基づくスケジューリングによる効率向上が試みられている。
本稿では,問題の正確かつ安定した推定を可能にするtextbfC$ompetence-$textbfD$ifficultyを提案する。
論文 参考訳(メタデータ) (2025-05-23T09:15:26Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - SETS: Leveraging Self-Verification and Self-Correction for Improved Test-Time Scaling [39.57154199908565]
自己拡張テストタイムスケーリング(SETS)は、並列およびシーケンシャルなテクニックを戦略的に組み合わせることで制限を克服する、シンプルで効果的なアプローチである。
SETSは、大規模言語モデルの固有の自己検証と自己計算機能を活用し、単一のフレームワーク内でサンプリング、検証、修正を統合する。
以上の結果から,SETSは代替品よりも優れた性能向上と,より有利なテスト時間スケーリング動作を実現していることがわかった。
論文 参考訳(メタデータ) (2025-01-31T17:03:16Z) - Think Beyond Size: Adaptive Prompting for More Effective Reasoning [0.0]
本稿では,動的かつ反復的なフレームワークであるAdaptive Promptingを紹介する。
その結果、Adaptive Promptingは、算術的推論(GSM8K、MultiArithm)、論理的推論、コモンセンスタスクなど、様々な推論ベンチマークのパフォーマンスを著しく向上させることを示した。
提案手法は,計算効率を維持しつつ,GPT-4などの大規模モデルと競合する性能を実現する。
論文 参考訳(メタデータ) (2024-10-10T17:14:36Z) - Improving Adaptive Conformal Prediction Using Self-Supervised Learning [72.2614468437919]
我々は、既存の予測モデルの上に自己教師付きプレテキストタスクを持つ補助モデルを訓練し、自己教師付きエラーを付加的な特徴として用いて、非整合性スコアを推定する。
合成データと実データの両方を用いて、効率(幅)、欠陥、共形予測間隔の超過といった付加情報の利点を実証的に実証する。
論文 参考訳(メタデータ) (2023-02-23T18:57:14Z) - SENTRY: Selective Entropy Optimization via Committee Consistency for
Unsupervised Domain Adaptation [14.086066389856173]
ランダムな画像変換の委員会の下で,予測整合性に基づいて対象インスタンスの信頼性を判定するUDAアルゴリズムを提案する。
提案アルゴリズムは,予測エントロピーを選択的に最小化し,高い一貫性のあるターゲットインスタンスに対する信頼度を高めるとともに,予測エントロピーを最大化し,高い一貫性の低いインスタンスに対する信頼度を低減する。
擬似ラベルに基づく近似的クラスバランスと組み合わせることで,標準的なUDAベンチマークや,ラベル分布シフト下でのストレス-テスト適応を目的としたベンチマークから,27/31ドメインシフトの最先端よりも大幅に向上した。
論文 参考訳(メタデータ) (2020-12-21T16:24:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。