論文の概要: Merlin's Whisper: Enabling Efficient Reasoning in LLMs via Black-box Adversarial Prompting
- arxiv url: http://arxiv.org/abs/2510.10528v1
- Date: Sun, 12 Oct 2025 09:56:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.992446
- Title: Merlin's Whisper: Enabling Efficient Reasoning in LLMs via Black-box Adversarial Prompting
- Title(参考訳): Merlin's Whisper: Black-box Adversarial PromptingによるLCMの効率的な推論
- Authors: Heming Xia, Cunxiao Du, Rui Li, Chak Tou Leong, Yongqi Li, Wenjie Li,
- Abstract要約: 大規模推論モデル(LRM)は、ステップバイステップ思考を通じて複雑な推論タスクに取り組むのに顕著な習熟性を示した。
ブラックボックスの対角的プロンプトを通して, LRMにおける過剰思考を緩和する新たな視点を提示する。
本稿では,多様な視点から高品質な敵のプロンプトを生成する反復的改良フレームワークであるAdvPromptを紹介する。
- 参考スコア(独自算出の注目度): 23.74763730893521
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large reasoning models (LRMs) have demonstrated remarkable proficiency in tackling complex reasoning tasks through step-by-step thinking. However, such a lengthy reasoning process incurs substantial computational and latency overheads, hindering the practical deployment of these models. In this work, we present a new perspective on mitigating overthinking in LRMs via black-box adversarial prompting. By treating both open-source LRMs and closed-source APIs as black-box communicators, we investigate how to elicit concise responses without sacrificing accuracy. We introduce AdvPrompt, an iterative refinement framework that generates high-quality adversarial prompts from diverse perspectives. Experiments across multiple benchmarks demonstrate that AdvPrompt consistently reduces token usage while preserving performance. Notably, AdvPrompt achieves a 3x reduction in average response length on simple GSM8K questions for the Qwen3 model series, and delivers an average ~40% token reduction across four benchmarks. For closed-source APIs, AdvPrompt reduces token usage on MATH-500 by 35% for Claude-3.7 and 47% for Gemini-2.5. Further analysis reveals the generalizability of AdvPrompt across various model scales and families, underscoring the potential of black-box prompting as a practical and effective strategy for enhancing LRM efficiency.
- Abstract(参考訳): 大規模推論モデル(LRM)は、ステップバイステップ思考を通じて複雑な推論タスクに取り組むのに顕著な習熟性を示した。
しかし、このような長い推論プロセスは、計算と遅延のオーバーヘッドをかなり引き起こし、これらのモデルの実践的な展開を妨げる。
本研究は, ブラックボックスの対角的プロンプトを通じて, LRMにおける過度な思考を緩和する新たな視点を示す。
オープンソース LRM とクローズドソース API の両方をブラックボックスコミュニケータとして扱うことにより,精度を犠牲にすることなく簡潔な応答を実現する方法について検討する。
本稿では,多様な視点から高品質な敵のプロンプトを生成する反復的改良フレームワークであるAdvPromptを紹介する。
複数のベンチマークでの実験では、AdvPromptはパフォーマンスを保ちながらトークンの使用を一貫して削減している。
特に、AdvPromptはQwen3モデルの単純なGSM8K質問に対して平均応答長を3倍に減らし、4つのベンチマークで平均40%のトークン削減を実現している。
クローズドソースAPIでは、AdvPromptがMATH-500のトークン使用量をClaude-3.7で35%、Gemini-2.5で47%削減している。
さらに分析したところ、様々なモデルスケールや家族にまたがるAdvPromptの一般化可能性を明らかにし、LCM効率を高めるための実用的で効果的な戦略としてブラックボックスプロンプトの可能性を強調している。
関連論文リスト
- ConciseHint: Boosting Efficient Reasoning via Continuous Concise Hints during Generation [74.37307916314407]
提案するフレームワークはConciseHintと呼ばれ,推論モデルが簡潔に話すことを継続的に奨励する。
DeepSeek-R1 および Qwen-3 シリーズを含む最先端の LRM 実験により,本手法が簡潔な推論を効果的に生成できることが実証された。
論文 参考訳(メタデータ) (2025-06-23T16:20:44Z) - PREMISE: Scalable and Strategic Prompt Optimization for Efficient Mathematical Reasoning in Large Models [14.824367675818355]
Claude 3.7 Sonnet や OpenAI o1 のような大きな推論モデル (LRM) は、長いチェーン・オブ・シークレット (CoT) 推論を用いて数学的なベンチマークで高い性能を達成する。
これによりトークンの使用とコストが膨らみ、レイテンシに敏感な設定やAPI制約のある設定でのデプロイメントが制限される。
モデル重みを変更することなく、推論オーバーヘッドを低減するプロンプトのみのフレームワークであるPreMISEを紹介する。
論文 参考訳(メタデータ) (2025-06-12T14:05:09Z) - Reasoning Models Are More Easily Gaslighted Than You Think [85.84943447589511]
我々はOpenAIのo4-mini、Claude-3.7-Sonnet、Gemini-2.5-Flashの3つの最先端推論モデルを評価する。
ガス灯消火プロンプトによる精度低下が認められた。
GaslightingBench-Rは、推論モデルの認識可能性を評価するために設計された新しい診断ベンチマークである。
論文 参考訳(メタデータ) (2025-06-11T12:52:25Z) - What makes Reasoning Models Different? Follow the Reasoning Leader for Efficient Decoding [84.42056293290015]
推論モデルと非推論モデルの間のトークンレベルのミスアライメントを分析する。
本稿では,FoReaL-Decodingを提案する。
一般的な4つの数学推論ベンチマークにおいて、FoReaL-Decodingは理論FLOPを30から50%減らし、CoTの長さを最大40%減らした。
論文 参考訳(メタデータ) (2025-06-08T05:08:32Z) - Reinforcing Video Reasoning with Focused Thinking [65.85683941058916]
本稿では,集中的思考と深い報酬の粒度で視覚的推論を強化する新しいフレームワークであるTW-GRPOを提案する。
具体的には,高情報密度のトークンを優先するトークン重み付け機構を用いる。
また,シングルチョイスからマルチチョイスQAタスクにシフトすることで,RLトレーニングを再構築する。
論文 参考訳(メタデータ) (2025-05-30T15:42:19Z) - From Token to Action: State Machine Reasoning to Mitigate Overthinking in Information Retrieval [22.35942074715463]
Chain-of-Thought (CoT) は大規模言語モデル(LLM)において複雑な推論を可能にする
本稿では,個別動作からなる遷移型推論フレームワークであるState Machine Reasoning (SMR)を提案する。
BEIRとBRIGHTベンチマークの実験では、SMRは検索性能(nDCG@10)を3.4%改善し、トークン使用量を74.4%削減した。
論文 参考訳(メタデータ) (2025-05-29T04:04:25Z) - TrimR: Verifier-based Training-Free Thinking Compression for Efficient Test-Time Scaling [20.980976778470247]
大規模推論モデル(LRM)は、複雑な数学的、論理的、コーディングタスクに対処する際、例外的な能力を示す。
本稿では,動的チェイン・オブ・ソート(CoT)圧縮のための検証器ベース,トレーニング不要,効率的なフレームワークTrimRを提案する。
論文 参考訳(メタデータ) (2025-05-22T12:23:30Z) - Thought Manipulation: External Thought Can Be Efficient for Large Reasoning Models [32.49420948390984]
大規模推論モデル(LRM)は、しばしば過度に冗長な推論ステップを生成し、性能の向上が制限されるという過大な問題に悩まされる。
本研究では, LRMが不要な中間ステップを回避し, 計算コストを大幅に削減できる簡易で効率的なパイプライン, Methodを提案する。
論文 参考訳(メタデータ) (2025-04-18T11:07:19Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。