Fugu-MT 論文翻訳(概要): Reflective Prompt Tuning through Language Model Function-Calling

論文の概要: Reflective Prompt Tuning through Language Model Function-Calling

arxiv url: http://arxiv.org/abs/2605.21781v1
Date: Wed, 20 May 2026 22:21:29 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-22 16:35:42.009315
Title: Reflective Prompt Tuning through Language Model Function-Calling
Title（参考訳）: 言語モデル関数計算による反射型プロンプトチューニング
Authors: Farima Fatahi Bayat, Moin Aminnaseri, Pouya Pezeshkpour, Estevam Hruschka,
Abstract要約: Reflective Prompt Tuning (RPT)は、人間のプロンプトエンジニアの反復的なワークフローをシミュレートするフレームワークである。 RPTは、最初のプロンプトを最大12.9ポイント改善し、最先端技術と競争し続け、信頼性の校正を改善している。解析の結果,RTPはマルチホップや数学的推論に特に有効であることがわかった。
参考スコア（独自算出の注目度）: 16.552558967042312
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) have become increasingly capable of following instructions and complex reasoning, making prompting a flexible interface for adapting models without parameter updates. Yet prompt design remains labor-intensive and highly sensitive to formatting, phrasing, and instruction order, motivating automated prompt optimization methods that reduce manual effort while preserving inference-time flexibility. However, existing methods often search over prompt candidates or use fixed critique-refine pipelines driven by individual examples or small batches, limiting their ability to capture systematic error patterns and make targeted edits grounded in failure history. We propose Reflective Prompt Tuning (RPT), a framework that uses LLM function calling to simulate the iterative workflow of human prompt engineers. An LLM optimizer calls a diagnostic function that evaluates the target model over an entire optimization set, summarizes recurring failure modes, and returns a structured diagnostic report. The optimizer uses this report, together with an accumulated memory of prior reports, to revise the prompt for the next iteration. RPT further supports confidence-aware optimization by using calibration signals in diagnostic feedback and final prompt selection. Across three reasoning tasks, RPT improves over initial prompts by up to 12.9 points, remains competitive with state of the art, and improves confidence calibration. Our analyses show that RPT is especially effective on multi-hop and mathematical reasoning, producing targeted prompt revisions that align with diagnosed failure patterns and lead to gains in task performance and calibration.
Abstract（参考訳）: 大規模言語モデル(LLM)は、命令や複雑な推論に従う能力が増し、パラメータを更新せずにモデルに適応するための柔軟なインターフェースを推進している。しかし、プロンプト設計は労働集約的で、フォーマッティング、言い換え、命令順序に非常に敏感であり、推論時の柔軟性を維持しながら手作業を減らす自動プロンプト最適化手法を動機付けている。しかしながら、既存のメソッドは、プロンプト候補を検索したり、個々の例や小さなバッチによって駆動される固定された批判的なパイプラインを使用したりすることで、システマティックなエラーパターンをキャプチャし、ターゲットとする編集を障害履歴に根ざさせる能力を制限することが多い。リフレクティブ・プロンプト・チューニング(RPT)は,人間のプロンプト・エンジニアの反復的ワークフローをシミュレートするためにLLM関数呼び出しを使用するフレームワークである。 LLMオプティマイザは、目標モデルを最適化セット全体にわたって評価し、繰り返し発生する障害モードを要約し、構造化された診断レポートを返す診断関数を呼び出します。オープティマイザは、このレポートと前回のレポートの蓄積したメモリを使用して、次のイテレーションのプロンプトを更新する。 RPTは、診断フィードバックと最終プロンプト選択にキャリブレーション信号を用いることで、信頼性に配慮した最適化もサポートする。 3つの推論タスク全体で、RTTは最初のプロンプトを最大12.9ポイント改善し、最先端と競争し続け、信頼性の校正を改善している。解析の結果、RTPは特にマルチホップや数学的推論に有効であり、診断された故障パターンと一致し、タスク性能とキャリブレーションが向上するターゲットのプロンプトリビジョンを生成することがわかった。

関連論文リスト

Optimizing LLM Prompt Engineering with DSPy Based Declarative Learning [0.0]
大規模言語モデル(LLM)は、幅広い自然言語処理タスクにおいて、高いパフォーマンスを示している。それらの効果は、素早い設計、構造、組込み推論に大きく依存している。本稿では,DSPyに基づく宣言型学習の体系的研究を行い,迅速な最適化を提案する。
論文参考訳（メタデータ） (2026-04-06T17:17:57Z)
RASPRef: Retrieval-Augmented Self-Supervised Prompt Refinement for Large Reasoning Models [0.0]
本稿では,人間のアノテーションやタスク固有の監督を必要とせず,プロンプトを改善するフレームワークであるRetrieval-Augmented Self-Supervised Prompt Refinement (RASPRef)を紹介する。 RASPRefは、プロンプトを最適化ターゲットとして直接扱い、反復的な検索誘導処理により改善する。
論文参考訳（メタデータ） (2026-03-27T21:49:21Z)
Modular Prompt Optimization: Optimizing Structured Prompts with Section-Local Textual Gradients [0.8604557306886812]
本稿では,プロンプトを固定的なセマンティックセクションで構成される構造化オブジェクトとして扱うスキーマベースのプロンプト最適化フレームワークを提案する。 LLaMA-3 8B-Instruct と Mistral-7B-Instruct をソルバモデルとして用いて, ARC-Challenge と MMLU の2つの推論ベンチマークでMPOを評価した。
論文参考訳（メタデータ） (2026-01-07T16:20:08Z)
Improving Large Language Models Function Calling and Interpretability via Guided-Structured Templates [56.73907811047611]
大規模言語モデル(LLM)は強力な推論とツール使用能力を示している。 LLMは、誤ったパラメータ化、悪いツールの選択、ユーザーの意図の誤解釈によって、現実世界のツールインタラクションで失敗することが多い。我々は、構造化推論テンプレートを利用して、関数呼び出しを生成するためのより故意なステップバイステップ命令を通してLCMをガイドするカリキュラムに着想を得たフレームワークを提案する。
論文参考訳（メタデータ） (2025-09-22T17:55:14Z)
Rethinking Prompt Optimization: Reinforcement, Diversification, and Migration in Blackbox LLMs [10.434732630519377]
本稿では,フィードバック機構の強化を主眼とした新しい自動プロンプト最適化(APO)フレームワークを提案する。 LLM生成したフィードバックに固有のノイズを軽減するため,フィードバックの多様化という手法を導入する。我々のアプローチは、強いベースラインを一貫して上回り、大幅な精度の向上、より高速な収束、計算コストの低減を実現している。
論文参考訳（メタデータ） (2025-07-14T00:20:14Z)
Can Prompt Difficulty be Online Predicted for Accelerating RL Finetuning of Reasoning Models? [65.18157595903124]
本研究では任意のプロンプトの反復的近似評価について検討する。 Model Predictive Prompt Selection (MoPPS)はベイズにおけるリスク予測フレームワークである。 MoPPSは迅速な困難を確実に予測し、ロールアウトを大幅に削減したトレーニングを加速する。
論文参考訳（メタデータ） (2025-07-07T03:20:52Z)
In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-04T03:39:28Z)
Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。 In-Context Learning (ICL) など。効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。下流タスクへのLLM。我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文参考訳（メタデータ） (2024-09-30T10:48:20Z)
Are Large Language Models Good Prompt Optimizers? [65.48910201816223]
我々は,LLMに基づくPrompt Optimizationの実際のメカニズムを明らかにするために研究を行っている。以上の結果から, LLMは, 反射中の誤差の真の原因を特定するのに苦慮し, 自己の事前知識に偏っていることが明らかとなった。我々は、より制御可能な方法でターゲットモデルの振舞いを直接最適化する新しい「自動振舞い最適化」パラダイムを導入する。
論文参考訳（メタデータ） (2024-02-03T09:48:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。