論文の概要: ContraPrompt: Contrastive Prompt Optimization via Dyadic Reasoning Trace Analysis
- arxiv url: http://arxiv.org/abs/2604.17937v1
- Date: Mon, 20 Apr 2026 08:17:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.760443
- Title: ContraPrompt: Contrastive Prompt Optimization via Dyadic Reasoning Trace Analysis
- Title(参考訳): ContraPrompt: Dyadic Reasoning Trace Analysisによるコントラストプロンプト最適化
- Authors: Rishav Rishav, Pushpak Pujari, Pushpendre Rastogi,
- Abstract要約: ContraPromptは、モデルが失敗してもフィードバックで再試行を成功させる場合、その差が最適化信号を構成するという観測に基づいて構築される。
従来のコントラスト法とは異なり、完全な中間的推論過程を比較する。
ContraPromptは11日にGEPAを41で破り、同じ予算で1で敗れた。
- 参考スコア(独自算出の注目度): 0.6372261626436676
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompt optimization methods either analyze individual failures in isolation or compare prompt variants across examples, operating on single execution traces with no access to the reasoning process distinguishing success from failure on the same input. We introduce ContraPrompt, built on the observation that when a model fails but succeeds on a retry with feedback, the difference between its two chain-of-thought traces constitutes an optimization signal not captured by prior methods. Unlike prior contrastive methods, we compare complete intermediate reasoning processes: the two traces share model, input, and base prompt, so remaining differences reflect reasoning strategy and appended error feedback -- we call this dyadic reasoning trace analysis. The multi-attempt solving phase is an instrumented agentic retry loop that generates contrastive data automatically without human annotation. Extracted rules are organized into an input-aware decision tree routing instructions by observable input characteristics. On four reasoning and compliance benchmarks, ContraPrompt outperforms GEPA (Agrawal et al., 2026) on all four, with absolute gains of +8.29 pp on HotPotQA (+20.8% rel.), +2.21 pp on GDPR-Bench (+18.2% rel.), +7.14 pp on GPQA Diamond (+10.6% rel.), and +0.74 pp on BBH (+0.85% rel.). Ablations confirm dyadic trace contrastivity is the critical component, with a -16% relative average drop upon its removal. On 53 EvalSet black-box optimization problems, ContraPrompt beats GEPA on 11, ties on 41, and loses on 1 at equal budget. On FiNER-139 financial named entity recognition (Loukas et al., 2022), ContraPrompt achieves +7.77 pp over the unoptimized baseline (+11.6% rel.) and +1.94 pp over GEPA (+2.66% rel.), with branch conditions aligning with standard US GAAP financial-instrument categories.
- Abstract(参考訳): プロンプト最適化手法は、個別の障害を分離して分析するか、サンプル間で急激な変種を比較し、同じ入力で成功を区別する推論プロセスにアクセスせずに単一の実行トレースを動作させる。
ContraPromptは、モデルが失敗してもフィードバックで再試行に成功するとき、その2つのチェーン・オブ・ソート・トレースの違いが、従来の手法では捉えられなかった最適化信号を構成する、という観測に基づいて構築された。
従来のコントラストの手法とは異なり、2つのトレースの共有モデル、入力、ベースプロンプトといった完全な中間推論プロセスを比較します。
多目的問題解決フェーズは、人間のアノテーションを使わずにコントラストデータを自動的に生成するエージェント再試行ループである。
抽出されたルールは、観測可能な入力特性により、入力対応決定ツリールーティング命令に編成される。
4つの推論とコンプライアンスのベンチマークでは、ContraPrompt は GEPA (Agrawal et al , 2026) を全て上回り、HotPotQA (+20.8% rel.), +2.21 pp on GDPR-Bench (+18.2% rel.), +7.14 pp on GPQA Diamond (+10.6% rel.), +0.74 pp on BBH (+0.85% rel.) を絶対的に上回っている。
アブレーションにより、Dyadic trace contrastivityが重要成分であることが確認され、除去後の相対的な平均降下率は16%となった。
53 EvalSetのブラックボックス最適化問題では、ContraPromptが11でGEPAを41で破り、同じ予算で1で敗れた。
FiNER-139(Loukas et al , 2022)では、ContraPromptは最適化されていないベースライン(+11.6% rel.)で+7.77pp、EPA(+2.66% rel.)で+1.94ppを達成した。
関連論文リスト
- Relational Preference Encoding in Looped Transformer Internal States [0.0]
ループ変換器は内部の反復状態においてどのように人間の嗜好を符号化するかを検討する。
繰り返し洗練された2.6Bパラメータループ変換器であるOuro-2.6B-Thinkingを用いて,各ループ繰り返しから隠れた状態を抽出する。
我々は、HH-RLHFデータセット上で人間の嗜好を予測するために軽量評価器ヘッドを訓練する。
我々のペアワイズ評価器は8,552個の未確認例に対して95.2%の精度を達成し、ベースモデルは完全に凍結されている間に全バッチのL-BFGSプローブ(84.5%)を上回った。
論文 参考訳(メタデータ) (2026-04-10T20:00:49Z) - APEX-EM: Non-Parametric Online Learning for Autonomous Agents via Structured Procedural-Episodic Experience Replay [7.370176470430802]
LLMベースの自律エージェントは、永続的な手続き記憶を欠いている。
我々は,構造化手続き計画の蓄積,検索,再利用を行う非パラメトリックオンライン学習フレームワークであるAPEX-EMを提案する。
論文 参考訳(メタデータ) (2026-03-31T00:24:56Z) - CoT2-Meta: Budgeted Metacognitive Control for Test-Time Reasoning [17.364321308755667]
CoT2-Metaはトレーニング不要なメタ認知推論フレームワークである。
オブジェクトレベルの連鎖生成と部分的推論軌道に対するメタレベルの制御を組み合わせる。
強いシングルパス、サンプリングベース、検索ベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2026-03-30T07:59:47Z) - Reflection in the Dark: Exposing and Escaping the Black Box in Reflective Prompt Optimization [1.8420836938108678]
本稿では,仮説生成を即時書き直しから切り離すマルチエージェントAPOフレームワークであるVISTAを提案する。
ランダム再起動とエプシロン-グレディサンプリングを組み合わせた2層探索-露光機構は、さらに局所最適を逃れる。
論文 参考訳(メタデータ) (2026-03-19T01:14:36Z) - Solver-in-the-Loop: MDP-Based Benchmarks for Self-Correction and Behavioral Rationality in Operations Research [19.31559944205485]
運用 調査実践者は反復的なプロセスを通じて、不可能なモデルを日常的にデバッグする。
評価ループにtextbfsolver を配置するベンチマークを2つ導入する。
ドメイン固有のRLVRトレーニングによって、8BモデルがフロンティアAPIを越えられることが分かりました。
論文 参考訳(メタデータ) (2026-01-28T20:02:44Z) - From Noisy Traces to Stable Gradients: Bias-Variance Optimized Preference Optimization for Aligning Large Reasoning Models [90.45197506653341]
大規模推論モデルは最終回答を生成する前に中間的推論トレースを生成する。
LRMと人間の好みの整合性は、モデルデプロイメントにとって重要な前提条件であり、まだ過小評価されていない。
共通の回避策は1つのサンプル軌道を最適化し、トレースサンプリングからかなり勾配のばらつきをもたらす。
論文 参考訳(メタデータ) (2025-10-06T17:58:01Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Preference Optimization for Reasoning with Pseudo Feedback [100.62603571434167]
提案手法では,解のラベル付けを関連するテストケースに対する評価として行うことで,推論タスクに対する疑似フィードバックを生成する手法を提案する。
本研究では,擬似フィードバックを優先最適化に用いる数学的推論と符号化の両タスクについて実験を行い,両タスク間の改善を観察する。
論文 参考訳(メタデータ) (2024-11-25T12:44:02Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - Iterative Reasoning Preference Optimization [84.15992372132507]
生成したChain-of-Thought(CoT)候補間の嗜好を最適化するための反復的アプローチを開発する。
このスキームの繰り返し繰り返しにおける推論の改善を示す。
例えば、GSM8Kは55.6%から81.6%に大きく改善され、精度は88.7%となり、32のサンプルのうち多数が投票した。
論文 参考訳(メタデータ) (2024-04-30T17:28:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。