論文の概要: UPA: Unsupervised Prompt Agent via Tree-Based Search and Selection
- arxiv url: http://arxiv.org/abs/2601.23273v1
- Date: Fri, 30 Jan 2026 18:39:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.619044
- Title: UPA: Unsupervised Prompt Agent via Tree-Based Search and Selection
- Title(参考訳): UPA:木に基づく探索と選択による教師なしプロンプトエージェント
- Authors: Siran Peng, Weisong Zhao, Tianyu Fu, Chenxu Zhao, Tianshuo Zhang, Haoyuan Zhang, Xiangyu Zhu, Minghui Wu, Zhen Lei,
- Abstract要約: 教師なしプロンプトエージェント(UPA)は、教師付きフィードバックに頼ることなく、構造化された探索と選択を実現する。
UPAはまず、不確実な条件下でのフィルタ候補に対する局所的な比較のパスワイドベイズアグリゲーションを行い、続いてグローバルなトーナメントスタイルの比較を行い、遅延したプロンプトの品質を推定する。
- 参考スコア(独自算出の注目度): 29.332488308247623
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt agents have recently emerged as a promising paradigm for automated prompt optimization, framing refinement as a sequential decision-making problem over a structured prompt space. While this formulation enables the use of advanced planning algorithms, these methods typically assume access to supervised reward signals, which are often unavailable in practical scenarios. In this work, we propose UPA, an Unsupervised Prompt Agent that realizes structured search and selection without relying on supervised feedback. Specifically, during search, UPA iteratively constructs an evolving tree structure to navigate the prompt space, guided by fine-grained and order-invariant pairwise comparisons from Large Language Models (LLMs). Crucially, as these local comparisons do not inherently yield a consistent global scale, we decouple systematic prompt exploration from final selection, introducing a two-stage framework grounded in the Bradley-Terry-Luce (BTL) model. This framework first performs path-wise Bayesian aggregation of local comparisons to filter candidates under uncertainty, followed by global tournament-style comparisons to infer latent prompt quality and identify the optimal prompt. Experiments across multiple tasks demonstrate that UPA consistently outperforms existing prompt optimization methods, showing that agent-style optimization remains highly effective even in fully unsupervised settings.
- Abstract(参考訳): プロンプトエージェントは、最近、自動的なプロンプト最適化のための有望なパラダイムとして登場し、構造化されたプロンプト空間上のシーケンシャルな決定問題として洗練をフレーミングしている。
この定式化は高度な計画アルゴリズムの使用を可能にするが、これらの手法は典型的には教師付き報酬信号へのアクセスを前提としており、実際的なシナリオでは利用できないことが多い。
本研究では,教師付きフィードバックに頼らずに構造化された探索と選択を実現するunsupervised Prompt Agentを提案する。
具体的には,大規模言語モデル (LLMs) からの細粒度および順序不変のペアワイズ比較によって導かれる,プロンプト空間をナビゲートする木構造を反復的に構築する。
重要なことは、これらの局所的な比較が本質的に一貫したグローバルスケールをもたらすわけではないため、最終選択から系統的な即時探索を分離し、ブラッドリー・テリー・ルーシ(英語版)(BTL)モデルに基づく2段階のフレームワークを導入する。
このフレームワークはまず、不確実な条件下でのフィルタ候補に対する局所的な比較のパスワイズベイズアグリゲーションを行い、続いてグローバルなトーナメントスタイルの比較を行い、遅延したプロンプトの品質を推測し、最適なプロンプトを特定する。
複数のタスクにわたる実験では、UPAが既存のプロンプト最適化手法を一貫して上回り、完全に教師なしの設定でもエージェントスタイルの最適化が極めて効果的であることが示されている。
関連論文リスト
- Learning to Recommend Multi-Agent Subgraphs from Calling Trees [6.247621896325622]
マルチエージェントシステム(MAS)は、急速に成長する市場から選択されたエージェントやツールを編成することで、複雑なタスクをますます解決する。
提案手法では,まず検索を用いて,現在のサブタスクとコンテキストを条件としたコンパクトな候補セットを構築する。
我々は,MASの実行構造を捉えたテキスト履歴呼び出し木に,定式化と学習信号の両方を接地する。
論文 参考訳(メタデータ) (2026-01-29T18:26:12Z) - Beyond Monolithic Architectures: A Multi-Agent Search and Knowledge Optimization Framework for Agentic Search [56.78490647843876]
エージェント検索は、大規模言語モデル(LLM)が推論とツールの使用をインターリーブできるようにすることによって、複雑な情報を探すための有望なパラダイムとして登場した。
本稿では,bfM-ASKを提案する。bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK。
論文 参考訳(メタデータ) (2026-01-08T08:13:27Z) - DynaAct: Large Language Model Reasoning with Dynamic Action Spaces [58.298135359318024]
コンパクトなアクション空間を自動構築する新しいフレームワークtextscDynaActを提案する。
当社のアプローチは,大幅な遅延を発生させることなく,効率的な推論を維持しながら,全体的なパフォーマンスを著しく向上させる。
論文 参考訳(メタデータ) (2025-11-11T09:47:13Z) - Solving the Granularity Mismatch: Hierarchical Preference Learning for Long-Horizon LLM Agents [56.625878022978945]
自律的なエージェントとしての大規模言語モデル(LLM)は、複雑で長期にわたる問題の解決にますます取り組まれている。
直接優先度最適化(DPO)は、正確なクレジット代入には大きすぎる信号を提供するが、ステップレベルのDPOは、しばしば、複数のステップの振る舞いの値をキャプチャするには、筋が通らない。
階層的選好学習(HPL)は、複数の相乗的粒度における選好信号を活用することで、LLMエージェントを最適化する階層的フレームワークである。
論文 参考訳(メタデータ) (2025-09-26T08:43:39Z) - DecoupleSearch: Decouple Planning and Search via Hierarchical Reward Modeling [56.45844907505722]
二重値モデルを用いて計画と探索プロセスを分離するフレームワークであるDecoupleSearchを提案する。
提案手法は,各ノードが計画と探索のステップを表す推論木を構築する。
推論中、階層的ビームサーチは、計画と探索候補を二重値モデルで反復的に洗練する。
論文 参考訳(メタデータ) (2025-09-07T13:45:09Z) - Better by Comparison: Retrieval-Augmented Contrastive Reasoning for Automatic Prompt Optimization [6.3914079241545885]
提案するCRPO(Contrastive Reasoning Prompt Optimization)は,検索強化推論プロセスとして迅速な最適化を定式化する新しいフレームワークである。
提案手法では,HelpSteer2データセットからトップk参照プロンプト-レスポンスペアを検索する。
CRPOは、高品位と低品位を明示的に対比することにより、あるプロンプトが成功する理由を推論し、他のプロンプトが失敗する理由を推測することを可能にする。
論文 参考訳(メタデータ) (2025-09-02T08:45:29Z) - Evolving Prompts In-Context: An Open-ended, Self-replicating Perspective [65.12150411762273]
ランダムなデモを不整合な "gibberish" にプルーニングすることで,多様なタスクにおけるパフォーマンスが著しく向上することを示す。
本稿では,低データレジームのみを用いてプルーニング戦略を自動的に検索する自己発見プロンプト最適化フレームワークPromptQuineを提案する。
論文 参考訳(メタデータ) (2025-06-22T07:53:07Z) - In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。
これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。
本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z) - A Real-Time Rescheduling Algorithm for Multi-robot Plan Execution [9.839983977902671]
Switchable-Edge Search (SES) は最適通過順序を見つけるために設計されたA*スタイルのアルゴリズムである。
本研究では,SESの最適性を証明し,シミュレーションによる効率評価を行う。
論文 参考訳(メタデータ) (2024-03-26T23:10:41Z) - Surpassing legacy approaches to PWR core reload optimization with single-objective Reinforcement learning [0.0]
単目的および多目的の最適化のための深層強化学習(DRL)に基づく手法を開発した。
本稿では、PPO(Proximal Policy Optimization)を用いて、RLに基づくアプローチの利点を実証する。
PPOは学習可能なウェイトを持つポリシーで検索機能を適応し、グローバル検索とローカル検索の両方として機能する。
論文 参考訳(メタデータ) (2024-02-16T19:35:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。