論文の概要: CyclicReflex: Improving Large Reasoning Models via Cyclical Reflection Token Scheduling
- arxiv url: http://arxiv.org/abs/2506.11077v1
- Date: Wed, 04 Jun 2025 03:43:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-22 23:32:14.55423
- Title: CyclicReflex: Improving Large Reasoning Models via Cyclical Reflection Token Scheduling
- Title(参考訳): CyclicReflex:サイクリックリフレクショントークンスケジューリングによる大規模推論モデルの改善
- Authors: Chongyu Fan, Yihua Zhang, Jinghan Jia, Alfred Hero, Sijia Liu,
- Abstract要約: 大規模推論モデル(LRM)は、複雑な問題解決のための多段階推論を実行するためにテスト時間スケーリングを利用する。
我々は、リフレクショントークンを「リソース」として扱い、リソース割り当ての問題を導入する。
本稿では,リフレクショントークンのロジットを動的に変調するデコード戦略である循環反射トークンスケジューリング(CyclicReflex)を提案する。
- 参考スコア(独自算出の注目度): 16.151066326284376
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large reasoning models (LRMs), such as OpenAI's o1 and DeepSeek-R1, harness test-time scaling to perform multi-step reasoning for complex problem-solving. This reasoning process, executed before producing final answers, is often guided by special juncture tokens or textual segments that prompt self-evaluative reflection. We refer to these transition markers and reflective cues as "reflection tokens" (e.g., "wait", "but", "alternatively"). In this work, we treat reflection tokens as a "resource" and introduce the problem of resource allocation, aimed at improving the test-time compute performance of LRMs by adaptively regulating the frequency and placement of reflection tokens. Through empirical analysis, we show that both excessive and insufficient use of reflection tokens, referred to as over-reflection and under-reflection, can degrade model performance. To better understand and manage this trade-off, we draw an analogy between reflection token usage and learning rate scheduling in optimization. Building on this insight, we propose cyclical reflection token scheduling (termed CyclicReflex), a decoding strategy that dynamically modulates reflection token logits using a position-dependent triangular waveform. Experiments on MATH500, AIME2024/2025, and AMC2023 demonstrate that CyclicReflex consistently improves performance across model sizes (1.5B-8B), outperforming standard decoding and more recent approaches such as TIP (thought switching penalty) and S1. Codes are available at https://github.com/OPTML-Group/CyclicReflex.
- Abstract(参考訳): OpenAIのo1やDeepSeek-R1のような大きな推論モデル(LRM)は、複雑な問題解決のために複数ステップの推論を実行するためにテスト時間スケーリングを利用する。
最終回答を生成する前に実行されるこの推論プロセスは、しばしば、自己評価の反映を促す特別な分岐トークンやテキストセグメントによって導かれる。
これらの遷移マーカーと反射的手がかりを「反射トークン」(例えば、"wait", "but", "alternatively")と呼ぶ。
本研究では、リフレクショントークンを「リソース」として扱うとともに、リフレクショントークンの周波数と配置を適応的に調節することにより、LCMのテスト時間計算性能を向上させることを目的としたリソース割り当ての問題を導入する。
実験分析により,過剰反射と過反射と呼ばれる反射トークンの過剰使用と不十分使用の両方がモデル性能を劣化させることを示した。
このトレードオフをよりよく理解し、管理するために、最適化におけるリフレクショントークンの使用法と学習率スケジューリングの類似性を引き出す。
この知見に基づいて、位置依存三角形波形を用いて動的に反射トークンロジットを変調する復号法である循環反射トークンスケジューリング(CyclicReflex と呼ばれる)を提案する。
MATH500、AIME2024/2025、AMC2023の実験では、CyclicReflexはモデルサイズ(1.5B-8B)をまたいだパフォーマンスを一貫して改善し、標準復号よりも優れており、TIPやS1といった最近のアプローチも優れている。
コードはhttps://github.com/OPTML-Group/CyclicReflexで入手できる。
関連論文リスト
- Signal-First Architectures: Rethinking Front-End Reactivity [0.0]
本稿では、依存性追跡信号が反応性の原子単位となる新しいパラダイムであるSignal-First Architectureを紹介する。
従来のRxJSやNgRxパターンとは異なり、Signal-Firstは明示的なシグナル宣言からのリアクティブフローを強制する。
RxJSサービスベース、NgRxグローバルストア、純粋なSignal-First実装である。
論文 参考訳(メタデータ) (2025-06-14T20:34:48Z) - REA-RL: Reflection-Aware Online Reinforcement Learning for Efficient Large Reasoning Models [33.05490585699939]
大規模推論モデル(LRM)は複雑なタスクにおいて強いパフォーマンスを示すが、過度に考え直すという課題に直面していることが多い。
既存のアプローチでは、LRMが学習するための短い推論応答を合成するが、時間を要するデータ生成とフィルタリングプロセスのため、オンライン利用には非効率である。
本稿では,オンライントレーニングにおいて,並列サンプリングとシーケンシャルリビジョンを併用して,効率的なスケーリングを実現するための小さなリフレクションモデルであるREA-RLを提案する。
論文 参考訳(メタデータ) (2025-05-26T11:47:16Z) - From Reflection to Perfection: Scaling Inference-Time Optimization for Text-to-Image Diffusion Models via Reflection Tuning [64.7863715647187]
ReflectionFlowは、テキストから画像への拡散モデルを反復的に反映し、出力を洗練できる推論時フレームワークである。
反射レベルのスケーリングを容易にするため、100万個の三重項からなる大規模データセットであるGenRefを構築し、それぞれが反射、欠陥画像、拡張画像を含む。
論文 参考訳(メタデータ) (2025-04-22T17:58:07Z) - Enhancing Sequential Recommendations through Multi-Perspective Reflections and Iteration [16.10791252542592]
シーケンスレコメンデーション(SeqRec)は、ユーザの意図を理解し、協調的なフィルタリング情報を活用することによって、ユーザが対話する次の項目を予測することを目的としている。
大規模言語モデル(LLM)は、プロンプトベース、固定されたリフレクションライブラリ、微調整技術を通じて推奨タスクにおいて大きな可能性を示してきた。
MoREは、明示的な選好、暗黙的な選好、協調的な信号に関するLLMベースのリフレクタを生成するための3つのリフレクタを導入している。
論文 参考訳(メタデータ) (2024-09-10T09:58:55Z) - FIRM: Flexible Interactive Reflection reMoval [75.38207315080624]
本稿では,フレキシブル・インタラクティブ・イメージ・リフレクション・リモーバルのための新しいフレームワークFIRMを提案する。
提案するフレームワークは,従来の対話的手法で必要とされるガイダンス時間の10%しか必要としない。
実世界のリフレクション除去データセットの結果から,提案手法が最先端のリフレクション除去性能を示すことが確認された。
論文 参考訳(メタデータ) (2024-06-03T17:34:37Z) - Re-Reading Improves Reasoning in Large Language Models [87.46256176508376]
既成のLarge Language Models (LLM) の推論能力を高めるため, 単純で汎用的で効果的なプロンプト手法であるRe2を導入する。
CoT (Chain-of-Thought) など、ほとんどの思考を刺激する手法とは異なり、Re2 は質問を2回処理することで入力に焦点を移し、理解プロセスを強化する。
提案手法の有効性と汎用性を検証するため,14のデータセットにまたがる広範囲な推論ベンチマークでRe2を評価した。
論文 参考訳(メタデータ) (2023-09-12T14:36:23Z) - SRFormer: Text Detection Transformer with Incorporated Segmentation and
Regression [6.74412860849373]
本稿では,アマルガメーションと回帰を併用した統合DTRモデルSRFormerを提案する。
実験分析により,初期デコーダ層で良好なセグメンテーション予測が得られることが示された。
提案手法の強靭性,優れたトレーニングとデータ効率,および最先端の性能について検討した。
論文 参考訳(メタデータ) (2023-08-21T07:34:31Z) - Two-Stage Single Image Reflection Removal with Reflection-Aware Guidance [78.34235841168031]
シングルイメージリフレクション除去(SIRR)のためのリフレクション・アウェア・ガイダンス(RAGNet)を用いた新しい2段階ネットワークを提案する。
RAGは、(i)観測からの反射の効果を緩和するために、(ii)線形結合仮説から逸脱する効果を緩和するための部分畳み込みにおいてマスクを生成するために用いられる。
5つの一般的なデータセットの実験は、最先端のSIRR法と比較して、RAGNetの量的および質的な優位性を実証している。
論文 参考訳(メタデータ) (2020-12-02T03:14:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。