Fugu-MT 論文翻訳(概要): CyclicReflex: Improving Large Reasoning Models via Cyclical Reflection Token Scheduling

論文の概要: CyclicReflex: Improving Large Reasoning Models via Cyclical Reflection Token Scheduling

arxiv url: http://arxiv.org/abs/2506.11077v1
Date: Wed, 04 Jun 2025 03:43:38 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-22 23:32:14.55423
Title: CyclicReflex: Improving Large Reasoning Models via Cyclical Reflection Token Scheduling
Title（参考訳）: CyclicReflex:サイクリックリフレクショントークンスケジューリングによる大規模推論モデルの改善
Authors: Chongyu Fan, Yihua Zhang, Jinghan Jia, Alfred Hero, Sijia Liu,
Abstract要約: 大規模推論モデル(LRM)は、複雑な問題解決のための多段階推論を実行するためにテスト時間スケーリングを利用する。我々は、リフレクショントークンを「リソース」として扱い、リソース割り当ての問題を導入する。本稿では,リフレクショントークンのロジットを動的に変調するデコード戦略である循環反射トークンスケジューリング(CyclicReflex)を提案する。
参考スコア（独自算出の注目度）: 16.151066326284376
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large reasoning models (LRMs), such as OpenAI's o1 and DeepSeek-R1, harness test-time scaling to perform multi-step reasoning for complex problem-solving. This reasoning process, executed before producing final answers, is often guided by special juncture tokens or textual segments that prompt self-evaluative reflection. We refer to these transition markers and reflective cues as "reflection tokens" (e.g., "wait", "but", "alternatively"). In this work, we treat reflection tokens as a "resource" and introduce the problem of resource allocation, aimed at improving the test-time compute performance of LRMs by adaptively regulating the frequency and placement of reflection tokens. Through empirical analysis, we show that both excessive and insufficient use of reflection tokens, referred to as over-reflection and under-reflection, can degrade model performance. To better understand and manage this trade-off, we draw an analogy between reflection token usage and learning rate scheduling in optimization. Building on this insight, we propose cyclical reflection token scheduling (termed CyclicReflex), a decoding strategy that dynamically modulates reflection token logits using a position-dependent triangular waveform. Experiments on MATH500, AIME2024/2025, and AMC2023 demonstrate that CyclicReflex consistently improves performance across model sizes (1.5B-8B), outperforming standard decoding and more recent approaches such as TIP (thought switching penalty) and S1. Codes are available at https://github.com/OPTML-Group/CyclicReflex.
Abstract（参考訳）: OpenAIのo1やDeepSeek-R1のような大きな推論モデル(LRM)は、複雑な問題解決のために複数ステップの推論を実行するためにテスト時間スケーリングを利用する。最終回答を生成する前に実行されるこの推論プロセスは、しばしば、自己評価の反映を促す特別な分岐トークンやテキストセグメントによって導かれる。これらの遷移マーカーと反射的手がかりを「反射トークン」(例えば、"wait", "but", "alternatively")と呼ぶ。本研究では、リフレクショントークンを「リソース」として扱うとともに、リフレクショントークンの周波数と配置を適応的に調節することにより、LCMのテスト時間計算性能を向上させることを目的としたリソース割り当ての問題を導入する。実験分析により,過剰反射と過反射と呼ばれる反射トークンの過剰使用と不十分使用の両方がモデル性能を劣化させることを示した。このトレードオフをよりよく理解し、管理するために、最適化におけるリフレクショントークンの使用法と学習率スケジューリングの類似性を引き出す。この知見に基づいて、位置依存三角形波形を用いて動的に反射トークンロジットを変調する復号法である循環反射トークンスケジューリング(CyclicReflex と呼ばれる)を提案する。 MATH500、AIME2024/2025、AMC2023の実験では、CyclicReflexはモデルサイズ(1.5B-8B)をまたいだパフォーマンスを一貫して改善し、標準復号よりも優れており、TIPやS1といった最近のアプローチも優れている。コードはhttps://github.com/OPTML-Group/CyclicReflexで入手できる。

関連論文リスト

Efficient Reasoning for Large Reasoning Language Models via Certainty-Guided Reflection Suppression [30.653381666162275]
Certainty-Guided Reflection Suppression (CGRS) は、Large Reasoning Language Models (LRLM) における過度な思考を緩和する新しい方法である。 CGRSは、モデルが現在の応答に高い信頼を示すときに、モデルが生成するリフレクショントリガを動的に抑制することで機能する。我々のアプローチはモデルに依存しず、再トレーニングやアーキテクチャの変更は必要とせず、既存の自己回帰生成パイプラインとシームレスに統合できる。
論文参考訳（メタデータ） (2025-08-07T12:38:22Z)
Signal-First Architectures: Rethinking Front-End Reactivity [0.0]
本稿では、依存性追跡信号が反応性の原子単位となる新しいパラダイムであるSignal-First Architectureを紹介する。従来のRxJSやNgRxパターンとは異なり、Signal-Firstは明示的なシグナル宣言からのリアクティブフローを強制する。 RxJSサービスベース、NgRxグローバルストア、純粋なSignal-First実装である。
論文参考訳（メタデータ） (2025-06-14T20:34:48Z)
REA-RL: Reflection-Aware Online Reinforcement Learning for Efficient Large Reasoning Models [33.05490585699939]
大規模推論モデル(LRM)は複雑なタスクにおいて強いパフォーマンスを示すが、過度に考え直すという課題に直面していることが多い。既存のアプローチでは、LRMが学習するための短い推論応答を合成するが、時間を要するデータ生成とフィルタリングプロセスのため、オンライン利用には非効率である。本稿では,オンライントレーニングにおいて,並列サンプリングとシーケンシャルリビジョンを併用して,効率的なスケーリングを実現するための小さなリフレクションモデルであるREA-RLを提案する。
論文参考訳（メタデータ） (2025-05-26T11:47:16Z)
From Reflection to Perfection: Scaling Inference-Time Optimization for Text-to-Image Diffusion Models via Reflection Tuning [64.7863715647187]
ReflectionFlowは、テキストから画像への拡散モデルを反復的に反映し、出力を洗練できる推論時フレームワークである。反射レベルのスケーリングを容易にするため、100万個の三重項からなる大規模データセットであるGenRefを構築し、それぞれが反射、欠陥画像、拡張画像を含む。
論文参考訳（メタデータ） (2025-04-22T17:58:07Z)
COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文参考訳（メタデータ） (2024-10-12T23:56:19Z)
Enhancing Sequential Recommendations through Multi-Perspective Reflections and Iteration [16.10791252542592]
シーケンスレコメンデーション(SeqRec)は、ユーザの意図を理解し、協調的なフィルタリング情報を活用することによって、ユーザが対話する次の項目を予測することを目的としている。大規模言語モデル(LLM)は、プロンプトベース、固定されたリフレクションライブラリ、微調整技術を通じて推奨タスクにおいて大きな可能性を示してきた。 MoREは、明示的な選好、暗黙的な選好、協調的な信号に関するLLMベースのリフレクタを生成するための3つのリフレクタを導入している。
論文参考訳（メタデータ） (2024-09-10T09:58:55Z)
FIRM: Flexible Interactive Reflection reMoval [75.38207315080624]
本稿では,フレキシブル・インタラクティブ・イメージ・リフレクション・リモーバルのための新しいフレームワークFIRMを提案する。提案するフレームワークは,従来の対話的手法で必要とされるガイダンス時間の10%しか必要としない。実世界のリフレクション除去データセットの結果から,提案手法が最先端のリフレクション除去性能を示すことが確認された。
論文参考訳（メタデータ） (2024-06-03T17:34:37Z)
Continual Referring Expression Comprehension via Dual Modular Memorization [133.46886428655426]
Referring Expression (REC) は、自然言語で記述された対象のイメージ領域をローカライズすることを目的としている。既存のRECアルゴリズムは、モデルへのデータ供給のトレーニングを前もって行うと強く仮定する。本稿では、入ってくるタスクのストリーム上でモデルが学習するRECの新しい設定である連続参照表現(CREC)を提案する。学習済みの知識を忘れずに,スクラッチから繰り返し再学習することなく,逐次的タスクのモデルを継続的に改善するために,デュアルモジュール記憶法という効果的なベースライン手法を提案する。
論文参考訳（メタデータ） (2023-11-25T02:58:51Z)
Re-Reading Improves Reasoning in Large Language Models [87.46256176508376]
既成のLarge Language Models (LLM) の推論能力を高めるため, 単純で汎用的で効果的なプロンプト手法であるRe2を導入する。 CoT (Chain-of-Thought) など、ほとんどの思考を刺激する手法とは異なり、Re2 は質問を2回処理することで入力に焦点を移し、理解プロセスを強化する。提案手法の有効性と汎用性を検証するため,14のデータセットにまたがる広範囲な推論ベンチマークでRe2を評価した。
論文参考訳（メタデータ） (2023-09-12T14:36:23Z)
SRFormer: Text Detection Transformer with Incorporated Segmentation and Regression [6.74412860849373]
本稿では,アマルガメーションと回帰を併用した統合DTRモデルSRFormerを提案する。実験分析により,初期デコーダ層で良好なセグメンテーション予測が得られることが示された。提案手法の強靭性,優れたトレーニングとデータ効率,および最先端の性能について検討した。
論文参考訳（メタデータ） (2023-08-21T07:34:31Z)
Reflection Invariance Learning for Few-shot Semantic Segmentation [53.20466630330429]
Few-shot semantic segmentation (FSS) は、いくつかのアノテーション付きサポートイメージを持つクエリイメージにおいて、目に見えないクラスのオブジェクトをセグメントすることを目的としている。本稿では,マルチビューマッチング方式でリフレクション不変性をマイニングするための,新しい数ショットセグメンテーションフレームワークを提案する。 PASCAL-$5textiti$とCOCO-$20textiti$データセットの実験は、我々のアプローチの有効性を実証している。
論文参考訳（メタデータ） (2023-06-01T15:14:58Z)
Two-Stage Single Image Reflection Removal with Reflection-Aware Guidance [78.34235841168031]
シングルイメージリフレクション除去(SIRR)のためのリフレクション・アウェア・ガイダンス(RAGNet)を用いた新しい2段階ネットワークを提案する。 RAGは、(i)観測からの反射の効果を緩和するために、(ii)線形結合仮説から逸脱する効果を緩和するための部分畳み込みにおいてマスクを生成するために用いられる。 5つの一般的なデータセットの実験は、最先端のSIRR法と比較して、RAGNetの量的および質的な優位性を実証している。
論文参考訳（メタデータ） (2020-12-02T03:14:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。