論文の概要: ProRefine: Inference-time Prompt Refinement with Textual Feedback
- arxiv url: http://arxiv.org/abs/2506.05305v1
- Date: Thu, 05 Jun 2025 17:52:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.874667
- Title: ProRefine: Inference-time Prompt Refinement with Textual Feedback
- Title(参考訳): ProRefine: テキストフィードバックによる推論時プロンプトリファインメント
- Authors: Deepak Pandita, Tharindu Cyril Weerasooriya, Ankit Parag Shah, Christopher M. Homan, Wei Wei,
- Abstract要約: Inference-time prompt optimization法であるProRefineを導入する。
ProRefineは、追加のトレーニングや地上の真理ラベルなしで、マルチステップ推論タスクのプロンプトを動的に洗練する。
ゼロショット・オブ・ソートベースラインを3-37ポイント上回る。
- 参考スコア(独自算出の注目度): 8.67550944517487
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Agentic workflows, where multiple AI agents collaborate to accomplish complex tasks like reasoning or planning, are becoming increasingly prevalent. However, these workflows often suffer from error propagation and sub-optimal performance, largely due to poorly designed prompts that fail to effectively guide individual agents. This is a critical problem because it limits the reliability and scalability of these powerful systems. We introduce ProRefine, an innovative inference-time prompt optimization method that leverages textual feedback from large language models (LLMs) to address this challenge. ProRefine dynamically refines prompts for multi-step reasoning tasks without additional training or ground truth labels. Evaluated on five benchmark mathematical reasoning datasets, ProRefine significantly surpasses zero-shot Chain-of-Thought baselines by 3 to 37 percentage points. This approach not only boosts accuracy but also allows smaller models to match the performance of larger ones, highlighting its potential for efficient and scalable AI deployment, and democratizing access to high-performing AI.
- Abstract(参考訳): 複数のAIエージェントが協力して推論や計画といった複雑なタスクを遂行するエージェントワークフローが、ますます普及しつつある。
しかし、これらのワークフローはエラーの伝播とサブ最適性能に悩まされることが多く、それは主に、個々のエージェントを効果的に誘導できない設計上のプロンプトが不十分なためである。
これらの強力なシステムの信頼性とスケーラビリティを制限しているため、これは重大な問題である。
本稿では,この課題に対処するために,大規模言語モデル(LLM)からのテキストフィードバックを活用する,革新的な推論時プロンプト最適化手法ProRefineを紹介する。
ProRefineは、追加のトレーニングや地上の真理ラベルなしで、マルチステップ推論タスクのプロンプトを動的に洗練する。
ProRefineは5つのベンチマーク数学推論データセットで評価され、ゼロショットのチェーン・オブ・ノートのベースラインを3~37ポイント上回っている。
このアプローチは精度を向上するだけでなく、より小さなモデルでもより大きなモデルのパフォーマンスにマッチし、効率的でスケーラブルなAIデプロイメントの可能性を強調し、ハイパフォーマンスなAIへのアクセスを民主化します。
関連論文リスト
- Exploring Prompt Patterns in AI-Assisted Code Generation: Towards Faster and More Effective Developer-AI Collaboration [3.1861081539404137]
本稿では,AI支援コード生成に必要となるインタラクション数を最小化するために,構造化されたプロンプトパターンの適用について検討する。
我々は,開発者とAI間の往復通信を減らすことの有効性を評価するために,異なる7つのプロンプトパターンを分析した。
論文 参考訳(メタデータ) (2025-06-02T12:43:08Z) - PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。
シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。
実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文 参考訳(メタデータ) (2025-05-29T17:55:49Z) - Memento No More: Coaching AI Agents to Master Multiple Tasks via Hints Internalization [56.674356045200696]
本稿では,複雑なメモシステムや事前の高品質な実演データを必要としない,複数のタスクに対する知識とスキルを取り入れたAIエージェントの訓練手法を提案する。
このアプローチでは,エージェントが新たな経験を収集し,ヒントの形で人間から補正フィードバックを受け取り,このフィードバックを重みに組み込む,反復的なプロセスを採用している。
Llama-3をベースとしたエージェントに実装することで,数ラウンドのフィードバックの後,高度なモデルGPT-4oとDeepSeek-V3をタスクセットで性能向上させる手法の有効性を実証する。
論文 参考訳(メタデータ) (2025-02-03T17:45:46Z) - Think Beyond Size: Adaptive Prompting for More Effective Reasoning [0.0]
本稿では,動的かつ反復的なフレームワークであるAdaptive Promptingを紹介する。
その結果、Adaptive Promptingは、算術的推論(GSM8K、MultiArithm)、論理的推論、コモンセンスタスクなど、様々な推論ベンチマークのパフォーマンスを著しく向上させることを示した。
提案手法は,計算効率を維持しつつ,GPT-4などの大規模モデルと競合する性能を実現する。
論文 参考訳(メタデータ) (2024-10-10T17:14:36Z) - In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。
これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。
本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z) - QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。
我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。
様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文 参考訳(メタデータ) (2024-08-20T03:06:48Z) - Concise and Organized Perception Facilitates Reasoning in Large Language Models [31.238220405009617]
推論に取り組むために大規模な言語モデル(LLM)をエクスプロイトすることは、注目を集めている。
複雑な論理的問題において満足な結果を達成することは依然として非常に困難であり、コンテキスト内の多くの前提とマルチホップ推論が特徴である。
本研究は,まず情報フローの観点からそのメカニズムを考察し,不規則な内容や無関係な内容を扱う際に,人間のような認知バイアスに類似した困難に直面することを明らかにする。
論文 参考訳(メタデータ) (2023-10-05T04:47:49Z) - Tree-of-Mixed-Thought: Combining Fast and Slow Thinking for Multi-hop
Visual Reasoning [16.495754104540605]
大規模言語モデル(LLM)は、視覚的推論のような複雑な推論タスクのためのコードライクな計画を生成することができる。
ワンストップ推論 (fast) とツリー・オブ・シント (slow) を統合した階層型計画探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-18T16:21:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。