論文の概要: ConPress: Learning Efficient Reasoning from Multi-Question Contextual Pressure
- arxiv url: http://arxiv.org/abs/2602.01472v1
- Date: Sun, 01 Feb 2026 22:31:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.80465
- Title: ConPress: Learning Efficient Reasoning from Multi-Question Contextual Pressure
- Title(参考訳): Conpress: マルチクエストコンテキストプレッシャによる効率的な推論の学習
- Authors: Jie Deng, Shining Liang, Jun Li, Hongzhi Li, Yutao Xie,
- Abstract要約: 自己圧縮(Self-Compression)と呼ばれる再現可能な推論時間現象を同定する。
複数の独立した答え可能な質問が1つのプロンプト内で提示されると、モデルは各質問に対するより短い推論トレースを自発的に生成する。
軽量な自己教師型微調整手法であるConPressを提案する。
- 参考スコア(独自算出の注目度): 6.494457510860719
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large reasoning models (LRMs) typically solve reasoning-intensive tasks by generating long chain-of-thought (CoT) traces, leading to substantial inference overhead. We identify a reproducible inference-time phenomenon, termed Self-Compression: when multiple independent and answerable questions are presented within a single prompt, the model spontaneously produces shorter reasoning traces for each question. This phenomenon arises from multi-question contextual pressure during generation and consistently manifests across models and benchmarks. Building on this observation, we propose ConPress (Learning from Contextual Pressure), a lightweight self-supervised fine-tuning approach. ConPress constructs multi-question prompts to induce self-compression, samples the resulting model outputs, and parses and filters per-question traces to obtain concise yet correct reasoning trajectories. These trajectories are directly used for supervised fine-tuning, internalizing compressed reasoning behavior in single-question settings without external teachers, manual pruning, or reinforcement learning. With only 8k fine-tuning examples, ConPress reduces reasoning token usage by 59% on MATH500 and 33% on AIME25, while maintaining competitive accuracy.
- Abstract(参考訳): 大きな推論モデル(LRM)は、典型的には、長いチェーン・オブ・シント(CoT)トレースを生成することによって推論集約的なタスクを解決する。
自己圧縮(Self-Compression)と呼ばれる再現可能な推論時間現象を同定し、一つのプロンプト内で複数の独立した答え可能な質問が提示されると、モデルは各質問に対してより短い推論トレースを自発的に生成する。
この現象は、生成中のマルチクエストの文脈圧力から発生し、モデルとベンチマーク間で一貫して現れる。
そこで本研究では,コンプレッション(コンテキストプレッシャからの学習)を軽量な自己教師型微調整手法として提案する。
ConPressは、自己圧縮を誘発するマルチクエストのプロンプトを構築し、結果のモデル出力をサンプリングし、クエストトレース毎にパースとフィルタを行い、簡潔で正確な推論軌道を得る。
これらの軌跡は、教師による微調整や、外部の教師や手動プルーニング、強化学習を使わずに、シングルクエスト環境での圧縮推論の振る舞いを内部化するために直接使用される。
8kの微調整例だけでConPressは、競合精度を維持しながら、MATH500では59%、AIME25では33%の推論トークン使用率を削減した。
関連論文リスト
- Less is More Tokens: Efficient Math Reasoning via Difficulty-Aware Chain-of-Thought Distillation [82.2288581878096]
本稿では,問題複雑性に基づいてモデルに推論深度を動的に調整する難易度推論の枠組みを提案する。
モデルにそのような動的推論経路を与えることができ、アーキテクチャ上の変更を加えることなく実現可能であることを示す。
論文 参考訳(メタデータ) (2025-09-05T16:40:13Z) - DRQA: Dynamic Reasoning Quota Allocation for Controlling Overthinking in Reasoning Large Language Models [28.90035967715762]
RLLM(Reasoning large language model)は、最近、構造化および多段階推論を実行することで、顕著な機能を示した。
バッチ処理から単一問合せ推論へのリソース競合の利点を伝達する新しい手法であるDRQA(Dynamic Reasoning Quota Allocation)を提案する。
論文 参考訳(メタデータ) (2025-08-25T08:47:36Z) - The Challenge of Teaching Reasoning to LLMs Without RL or Distillation [31.973226821366325]
推論可能な言語モデルは、長く明示的なChain-of-Thoughtトレースを生成することで、様々な複雑なタスクにおいて最先端のパフォーマンスを達成する。
我々は、プロンプトや最小限のチューニングのみを用いて、ベースモデルでCoTを誘導できるかどうかを問う。
結果として得られたモデルは、はるかに大きなtexttQwen2.5-Math-72B-Instruct よりも優れており、いくつかの高品質な例が強力な推論能力を解き放つ可能性があることを示している。
論文 参考訳(メタデータ) (2025-07-14T01:14:50Z) - ConciseHint: Boosting Efficient Reasoning via Continuous Concise Hints during Generation [74.37307916314407]
提案するフレームワークはConciseHintと呼ばれ,推論モデルが簡潔に話すことを継続的に奨励する。
DeepSeek-R1 および Qwen-3 シリーズを含む最先端の LRM 実験により,本手法が簡潔な推論を効果的に生成できることが実証された。
論文 参考訳(メタデータ) (2025-06-23T16:20:44Z) - Fractional Reasoning via Latent Steering Vectors Improves Inference Time Compute [60.151643048803145]
本稿では,推論時の推論強度を連続的に制御するフレームワークであるフラクショナル推論を提案する。
提案手法は, より深い推論を伴う潜在ステアリングベクトルを抽出し, 調整可能なスケーリング係数で再適用することによって機能する。
GSM8K、MATH500、GPQAの実験により、フラクショナル推論は様々な推論タスクやモデルのパフォーマンスを一貫して改善することを示した。
論文 参考訳(メタデータ) (2025-06-18T21:15:59Z) - When Reasoning Meets Compression: Understanding the Effects of LLMs Compression on Large Reasoning Models [18.37440002326957]
本研究では,大推理モデルの推理能力が圧縮時にいかに損なわれるかを検討する。
我々は4つの推論データセット上で、定量化、蒸留、刈り取られたDeepSeek-R1モデルをベンチマークした。
全体として、動的量子化 2.51 ビット R1 が R1 に近い性能に達する。
論文 参考訳(メタデータ) (2025-04-02T05:17:46Z) - Perception Compressor: A Training-Free Prompt Compression Framework in Long Context Scenarios [17.720102137585503]
Perceptionは、大規模な言語モデルのためのトレーニングフリーのプロンプト圧縮フレームワークである。
これには、指導的質問と指示を利用して、最も関連するデモンストレーションを検索する知覚検索機能が含まれる。
長いコンテキスト、ベンチマーク、iSie、LongBench、MuSiQueに関する広範な実験を行います。
論文 参考訳(メタデータ) (2024-09-28T07:13:33Z) - Maieutic Prompting: Logically Consistent Reasoning with Recursive
Explanations [71.2950434944196]
ノイズや一貫性のない言語モデルでさえも問題に対する正しい答えを推測するMaieutic Promptingを開発する。
Maieutic Promptingは最先端のプロンプト法よりも最大20%精度が高い。
論文 参考訳(メタデータ) (2022-05-24T06:36:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。