論文の概要: RASPRef: Retrieval-Augmented Self-Supervised Prompt Refinement for Large Reasoning Models
- arxiv url: http://arxiv.org/abs/2603.27008v1
- Date: Fri, 27 Mar 2026 21:49:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.734465
- Title: RASPRef: Retrieval-Augmented Self-Supervised Prompt Refinement for Large Reasoning Models
- Title(参考訳): RASPRef: 大規模共振モデルのための検索強化自己スーパービジョンプロンプトリファインメント
- Authors: Rahul Soni,
- Abstract要約: 本稿では,人間のアノテーションやタスク固有の監督を必要とせず,プロンプトを改善するフレームワークであるRetrieval-Augmented Self-Supervised Prompt Refinement (RASPRef)を紹介する。
RASPRefは、プロンプトを最適化ターゲットとして直接扱い、反復的な検索誘導処理により改善する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent reasoning-focused language models such as DeepSeek R1 and OpenAI o1 have demonstrated strong performance on structured reasoning benchmarks including GSM8K, MATH, and multi-hop question answering tasks. However, their performance remains highly sensitive to prompt formulation, and designing effective prompts is typically a manual and iterative process that does not scale well across tasks or domains. To address this limitation, we introduce Retrieval-Augmented Self-Supervised Prompt Refinement (RASPRef), a framework that improves prompts without requiring human annotations or task-specific supervision. The approach retrieves relevant examples and previously generated reasoning trajectories, and leverages signals such as multi-sample consistency, verifier feedback, and model-generated critiques to iteratively refine the prompt. Unlike prior approaches that focus primarily on improving model outputs, RASPRef directly treats the prompt as the optimization target and improves it through an iterative retrieval-guided refinement process. Experiments on GSM8K-style mathematical reasoning tasks show that retrieval-guided prompting improves performance compared with a static prompting baseline. We further discuss how retrieval quality, trajectory selection, and self-supervised feedback signals may influence the effectiveness of prompt refinement. These findings suggest that prompt design remains a critical factor for reasoning-oriented language models, and that self-improving prompts offer a practical and scalable strategy for improving reasoning performance.
- Abstract(参考訳): 近年、DeepSeek R1やOpenAI o1のような推論中心の言語モデルは、GSM8K、MATH、マルチホップ質問応答タスクなどの構造化推論ベンチマークで強いパフォーマンスを示している。
しかしながら、それらのパフォーマンスは、迅速な定式化に対して非常に敏感であり、効果的なプロンプトを設計することは、通常、手動で反復的なプロセスであり、タスクやドメインにわたってうまくスケールしない。
この制限に対処するために、人間のアノテーションやタスク固有の監督を必要とせずにプロンプトを改善するフレームワークであるRetrieval-Augmented Self-Supervised Prompt Refinement (RASPRef)を導入する。
このアプローチは、関連する例と以前に生成された推論軌跡を検索し、マルチサンプル一貫性、検証者フィードバック、モデル生成批判などの信号を活用して、プロンプトを反復的に洗練する。
RASPRefは、主にモデル出力の改善に焦点を当てた従来のアプローチとは異なり、プロンプトを最適化ターゲットとして直接扱い、反復的な検索誘導精製プロセスを通じて改善する。
GSM8Kスタイルの数学的推論タスクの実験は、検索誘導プロンプトが静的なプロンプトベースラインよりも性能を向上させることを示している。
さらに, 検索品質, 軌道選択, 自己教師によるフィードバック信号が, 即時改善の有効性にどう影響するかを考察する。
これらの結果から,素早い設計は推論指向言語モデルにとって重要な要素であり,自己改善プロンプトは推論性能を向上させるための実用的かつスケーラブルな戦略を提供すると考えられる。
関連論文リスト
- Recursive Think-Answer Process for LLMs and VLMs [54.52289112197118]
R-TAP(Recursive Think-Answer Process)を提案する。
R-TAPにより、モデルは反復的推論サイクルに参加し、より正確な答えを生成することができる。
R-TAP強化モデルが従来のシングルパス法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2026-03-02T17:20:10Z) - Adversarial Yet Cooperative: Multi-Perspective Reasoning in Retrieved-Augmented Language Models [72.4149653187766]
本稿ではAdrialversa Reasoning RAG(ARR)というReasoner-Verifierフレームワークを提案する。
ReasonerとVerifierは、回収された証拠を推論し、プロセス認識の利点によってガイドされながら、互いの論理を批判する。
複数のベンチマーク実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2026-01-08T06:57:03Z) - Better by Comparison: Retrieval-Augmented Contrastive Reasoning for Automatic Prompt Optimization [6.3914079241545885]
提案するCRPO(Contrastive Reasoning Prompt Optimization)は,検索強化推論プロセスとして迅速な最適化を定式化する新しいフレームワークである。
提案手法では,HelpSteer2データセットからトップk参照プロンプト-レスポンスペアを検索する。
CRPOは、高品位と低品位を明示的に対比することにより、あるプロンプトが成功する理由を推論し、他のプロンプトが失敗する理由を推測することを可能にする。
論文 参考訳(メタデータ) (2025-09-02T08:45:29Z) - AURORA: Augmented Understanding via Structured Reasoning and Reinforcement Learning for Reference Audio-Visual Segmentation [113.75682363364004]
AURORAは、参照音声視覚セグメント化における真の推論と言語理解を強化するために設計されたフレームワークである。
AURORAはRef-AVSベンチマークの最先端性能を達成し、非参照セグメンテーションに効果的に一般化する。
論文 参考訳(メタデータ) (2025-08-04T07:47:38Z) - ConciseHint: Boosting Efficient Reasoning via Continuous Concise Hints during Generation [74.37307916314407]
提案するフレームワークはConciseHintと呼ばれ,推論モデルが簡潔に話すことを継続的に奨励する。
DeepSeek-R1 および Qwen-3 シリーズを含む最先端の LRM 実験により,本手法が簡潔な推論を効果的に生成できることが実証された。
論文 参考訳(メタデータ) (2025-06-23T16:20:44Z) - PRefLexOR: Preference-based Recursive Language Modeling for Exploratory Optimization of Reasoning and Agentic Thinking [0.0]
PRefLexORは、好みの最適化と強化学習の概念を組み合わせることで、モデルを自己学習可能にする。
本研究は, 生体材料科学の応用に焦点をあて, 様々なケーススタディでその手法を実証する。
論文 参考訳(メタデータ) (2024-10-16T08:46:26Z) - Think Beyond Size: Adaptive Prompting for More Effective Reasoning [0.0]
本稿では,動的かつ反復的なフレームワークであるAdaptive Promptingを紹介する。
その結果、Adaptive Promptingは、算術的推論(GSM8K、MultiArithm)、論理的推論、コモンセンスタスクなど、様々な推論ベンチマークのパフォーマンスを著しく向上させることを示した。
提案手法は,計算効率を維持しつつ,GPT-4などの大規模モデルと競合する性能を実現する。
論文 参考訳(メタデータ) (2024-10-10T17:14:36Z) - In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。
これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。
本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。