論文の概要: Prompt Stability Matters: Evaluating and Optimizing Auto-Generated Prompt in General-Purpose Systems
- arxiv url: http://arxiv.org/abs/2505.13546v1
- Date: Mon, 19 May 2025 03:28:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.388451
- Title: Prompt Stability Matters: Evaluating and Optimizing Auto-Generated Prompt in General-Purpose Systems
- Title(参考訳): プロンプト安定性問題:汎用システムにおけるオートジェネレーション・プロンプトの評価と最適化
- Authors: Ke Chen, Yufei Zhou, Xitong Zhang, Haohan Wang,
- Abstract要約: モデル応答の応答一貫性を評価するための基準としてセマンティック安定性を導入する。
安定性に配慮した汎用的なプロンプト生成システムを開発した。
私たちの研究は、より信頼性の高い汎用システムを構築するための実践的なツールとして、迅速な設計に関する新たな視点を提供しています。
- 参考スコア(独自算出の注目度): 19.59294293070619
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic prompt generation plays a crucial role in enabling general-purpose multi-agent systems to perform diverse tasks autonomously. Existing methods typically evaluate prompts based on their immediate task performance, overlooking the intrinsic qualities that determine their reliability. This outcome-centric view not only limits interpretability but also fails to account for the inherent stochasticity of large language models (LLMs). In this work, we bring attention to prompt stability-the consistency of model responses across repeated executions-as a key factor for building robust and effective prompt generation systems. To quantify this, we propose semantic stability as a criterion for assessing the response consistency of prompts, and fine-tune a LLaMA-based evaluator to measure it automatically across tasks. These components have enabled us to develop the first stability-aware general-purpose prompt generation system that leverages stability feedback to iteratively enhance both prompt quality and system-level performance. Furthermore, we establish a logical chain between prompt stability and task success by analyzing the structural dependencies within our system, proving stability as a necessary condition for effective system-level execution. Empirical results across general and domain-specific tasks demonstrate that our stability-aware framework improves both accuracy and output consistency. By shifting the focus from one-off results to persistent reliability, our work offers a new perspective on prompt design and contributes practical tools for building more trustworthy general-purpose systems.
- Abstract(参考訳): 汎用マルチエージェントシステムにおいて,多様なタスクを自律的に実行可能にする上で,自動プロンプト生成が重要な役割を担っている。
既存の手法は、通常、その即時的なタスクパフォーマンスに基づいて、その信頼性を決定する本質的な品質を見越して、プロンプトを評価する。
この結果中心の視点は、解釈可能性を制限するだけでなく、大きな言語モデル(LLM)の固有の確率性を考慮できない。
本研究では,頑健かつ効果的な生成システム構築の鍵となる要因として,繰り返し実行におけるモデル応答の安定性と一貫性に注意を向ける。
これの定量化のために,本論文では,プロンプトの応答整合性を評価するための基準として意味的安定性を提案し,タスク間で自動的に測定するためにLLaMAベースの評価器を微調整する。
これらのコンポーネントにより、安定性フィードバックを活用して、迅速な品質とシステムレベルの性能の両方を反復的に向上する、初めての安定性を考慮した汎用的なプロンプト生成システムの開発が可能となった。
さらに、システム内の構造的依存関係を分析し、システムレベルの効率的な実行に必要な条件として安定性を証明することにより、迅速な安定性とタスク成功の間の論理的連鎖を確立する。
一般およびドメイン固有のタスクに対する実証的な結果から、我々の安定性に配慮したフレームワークは、精度と出力の整合性の両方を改善していることを示す。
ワンオフ結果から永続的な信頼性へと焦点を移すことで、当社の作業は、より信頼性の高い汎用システムを構築するための実践的なツールとして、迅速な設計に新たな視点を与えてくれます。
関連論文リスト
- Advancing Embodied Agent Security: From Safety Benchmarks to Input Moderation [52.83870601473094]
エンボディード・エージェントは、複数のドメインにまたがって大きな潜在能力を示す。
既存の研究は主に、一般的な大言語モデルのセキュリティに重点を置いている。
本稿では, エンボディエージェントの保護を目的とした新しい入力モデレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-22T08:34:35Z) - Probabilistic Stability Guarantees for Feature Attributions [20.58023369482214]
本稿では,非自明かつ解釈可能な帰属法保証を与えるモデル非依存,サンプル効率の安定度保証アルゴリズム(SCA)を提案する。
軽度な平滑化は精度と安定性のトレードオフをより良好に達成し、事前の認証手法による攻撃的な妥協を回避することを示します。
論文 参考訳(メタデータ) (2025-04-18T16:39:08Z) - Firm or Fickle? Evaluating Large Language Models Consistency in Sequential Interactions [8.069858557211132]
大きな言語モデル(LLM)は、様々なタスクにまたがって顕著な能力を示していますが、高い領域への展開には、複数のインタラクションラウンドで一貫したパフォーマンスが必要です。
本稿では,LLM応答整合性の評価と改善のための総合的なフレームワークを紹介し,その3つの重要な貢献について述べる。
論文 参考訳(メタデータ) (2025-03-28T11:49:56Z) - Enhancing LLM Reliability via Explicit Knowledge Boundary Modeling [48.15636223774418]
大きな言語モデル(LLM)は、不一致の自己認識のためにしばしば幻覚する。
既存のアプローチは、不確実性推定やクエリの拒否を通じて幻覚を緩和する。
高速かつ低速な推論システムを統合するための明示的知識境界モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-04T03:16:02Z) - Trustworthiness for an Ultra-Wideband Localization Service [2.4979362117484714]
本稿では,超広帯域自己ローカライゼーションのための総合的信頼性評価フレームワークを提案する。
我々の目標は、客観的な証拠に基づいてシステムの信頼性を評価するためのガイダンスを提供することである。
我々のアプローチは、結果の信頼性指標が、選択された現実世界の脅威に対応することを保証します。
論文 参考訳(メタデータ) (2024-08-10T11:57:10Z) - Stability-Certified Learning of Control Systems with Quadratic
Nonlinearities [9.599029891108229]
この研究は、主に低次元の力学モデルを構築することを目的とした演算子推論手法に焦点を当てている。
本研究の目的は,本質的な安定性を保証する2次制御力学系の推論を容易にする手法を開発することである。
論文 参考訳(メタデータ) (2024-03-01T16:26:47Z) - Algorithmic Robustness [18.406992961818368]
ロバスト性は、計算システムに関する公共政策決定の文脈でしばしば引用される他の目標の重要な有効性である。
この文書はアルゴリズム的堅牢性の概念に関するいくつかの概念と既存の研究に関する簡単なロードマップを提供する。
論文 参考訳(メタデータ) (2023-10-17T17:51:12Z) - ASSERT: Automated Safety Scenario Red Teaming for Evaluating the
Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。
このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。
統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文 参考訳(メタデータ) (2023-10-14T17:10:28Z) - Efficient Empowerment Estimation for Unsupervised Stabilization [75.32013242448151]
エンパワーメント原理は 直立位置での 力学系の教師なし安定化を可能にする
本稿では,ガウスチャネルとして動的システムのトレーニング可能な表現に基づく代替解を提案する。
提案手法は, サンプルの複雑さが低く, 訓練時より安定であり, エンパワーメント機能の本質的特性を有し, 画像からエンパワーメントを推定できることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:10:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。