論文の概要: Prompt Stability Matters: Evaluating and Optimizing Auto-Generated Prompt in General-Purpose Systems
- arxiv url: http://arxiv.org/abs/2505.13546v1
- Date: Mon, 19 May 2025 03:28:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.388451
- Title: Prompt Stability Matters: Evaluating and Optimizing Auto-Generated Prompt in General-Purpose Systems
- Title(参考訳): プロンプト安定性問題:汎用システムにおけるオートジェネレーション・プロンプトの評価と最適化
- Authors: Ke Chen, Yufei Zhou, Xitong Zhang, Haohan Wang,
- Abstract要約: モデル応答の応答一貫性を評価するための基準としてセマンティック安定性を導入する。
安定性に配慮した汎用的なプロンプト生成システムを開発した。
私たちの研究は、より信頼性の高い汎用システムを構築するための実践的なツールとして、迅速な設計に関する新たな視点を提供しています。
- 参考スコア(独自算出の注目度): 19.59294293070619
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic prompt generation plays a crucial role in enabling general-purpose multi-agent systems to perform diverse tasks autonomously. Existing methods typically evaluate prompts based on their immediate task performance, overlooking the intrinsic qualities that determine their reliability. This outcome-centric view not only limits interpretability but also fails to account for the inherent stochasticity of large language models (LLMs). In this work, we bring attention to prompt stability-the consistency of model responses across repeated executions-as a key factor for building robust and effective prompt generation systems. To quantify this, we propose semantic stability as a criterion for assessing the response consistency of prompts, and fine-tune a LLaMA-based evaluator to measure it automatically across tasks. These components have enabled us to develop the first stability-aware general-purpose prompt generation system that leverages stability feedback to iteratively enhance both prompt quality and system-level performance. Furthermore, we establish a logical chain between prompt stability and task success by analyzing the structural dependencies within our system, proving stability as a necessary condition for effective system-level execution. Empirical results across general and domain-specific tasks demonstrate that our stability-aware framework improves both accuracy and output consistency. By shifting the focus from one-off results to persistent reliability, our work offers a new perspective on prompt design and contributes practical tools for building more trustworthy general-purpose systems.
- Abstract(参考訳): 汎用マルチエージェントシステムにおいて,多様なタスクを自律的に実行可能にする上で,自動プロンプト生成が重要な役割を担っている。
既存の手法は、通常、その即時的なタスクパフォーマンスに基づいて、その信頼性を決定する本質的な品質を見越して、プロンプトを評価する。
この結果中心の視点は、解釈可能性を制限するだけでなく、大きな言語モデル(LLM)の固有の確率性を考慮できない。
本研究では,頑健かつ効果的な生成システム構築の鍵となる要因として,繰り返し実行におけるモデル応答の安定性と一貫性に注意を向ける。
これの定量化のために,本論文では,プロンプトの応答整合性を評価するための基準として意味的安定性を提案し,タスク間で自動的に測定するためにLLaMAベースの評価器を微調整する。
これらのコンポーネントにより、安定性フィードバックを活用して、迅速な品質とシステムレベルの性能の両方を反復的に向上する、初めての安定性を考慮した汎用的なプロンプト生成システムの開発が可能となった。
さらに、システム内の構造的依存関係を分析し、システムレベルの効率的な実行に必要な条件として安定性を証明することにより、迅速な安定性とタスク成功の間の論理的連鎖を確立する。
一般およびドメイン固有のタスクに対する実証的な結果から、我々の安定性に配慮したフレームワークは、精度と出力の整合性の両方を改善していることを示す。
ワンオフ結果から永続的な信頼性へと焦点を移すことで、当社の作業は、より信頼性の高い汎用システムを構築するための実践的なツールとして、迅速な設計に新たな視点を与えてくれます。
関連論文リスト
- Efficient Self-Evaluation for Diffusion Language Models via Sequence Regeneration [48.19579266939883]
拡散大言語モデル (dLLMs) は多様性、制御可能性、並列性を高める能力において大きな注目を集めている。
我々は,dLLMの簡易かつ効果的な自己評価信頼度定量化法であるDiSEを提案する。
論文 参考訳(メタデータ) (2026-03-03T08:58:20Z) - ARLArena: A Unified Framework for Stable Agentic Reinforcement Learning [75.73135757250806]
エージェント強化学習(ARL)は、複雑で多段階の対話的なタスクを解決するためのトレーニングエージェントにとって有望なパラダイムとして急速に注目を集めている。
初期の成果を奨励しているにもかかわらず、ARLは非常に不安定であり、しばしばトレーニングの崩壊につながる。
本稿では,制御された再現可能な環境下でのトレーニング安定性を検証した,安定したトレーニングレシピと系統的分析フレームワークであるARLArenaを提案する。
論文 参考訳(メタデータ) (2026-02-25T03:43:34Z) - Rubric-Conditioned LLM Grading: Alignment, Uncertainty, and Robustness [4.129847064263056]
ルーブリックをベースとした短問合せ学習における大規模言語モデルの性能を体系的に評価する。
二つのタスクに対してアライメントは強いが、粗い粒度が増すにつれて劣化する。
実験により、モデルが注射に抵抗性がある一方で、同義置換に敏感であることが判明した。
論文 参考訳(メタデータ) (2025-12-21T05:22:04Z) - OmniQuality-R: Advancing Reward Models Through All-Encompassing Quality Assessment [55.59322229889159]
我々は,マルチタスク品質推論を連続的かつ解釈可能な報酬信号に変換する統一報酬モデリングフレームワークOmniQuality-Rを提案する。
我々は、推論強化報酬モデルデータセットを使用して、教師付き微調整のための信頼性の高いチェーンオブ思考データセットを構築します。
OmniQuality-Rは,美的品質評価,技術的品質評価,テキスト画像アライメントという3つの重要なIQAタスクで評価する。
論文 参考訳(メタデータ) (2025-10-12T13:46:28Z) - Prompt Stability in Code LLMs: Measuring Sensitivity across Emotion- and Personality-Driven Variations [40.12950482269347]
本稿では,感情テンプレートと人格テンプレートを用いた意味論的に等価なプロンプト変種を生成するフレームワークであるPromptSEを提案する。
本研究は、性能と安定性が、主に分離された最適化目標として振る舞うことを示す。
PromptSEは、デプロイとモデル選択のためのパフォーマンス安定性トレードオフの定量化を可能にする。
論文 参考訳(メタデータ) (2025-09-17T04:17:42Z) - An Empirical Analysis of VLM-based OOD Detection: Mechanisms, Advantages, and Sensitivity [104.05991573442805]
VLM (Vision-Language Models) は、卓越したゼロショット・アウト・オブ・ディストリビューション(OOD)検出能力を示した。
In-distribution (ID) と OOD プロンプトを用いた VLM を用いた OOD 検出の系統的実験的検討を行った。
論文 参考訳(メタデータ) (2025-09-16T06:11:02Z) - Aurora: Are Android Malware Classifiers Reliable and Stable under Distribution Shift? [51.12297424766236]
AURORAは、その信頼性と運用上のレジリエンスに基づいて、マルウェア分類器を評価するためのフレームワークである。
AURORAは、ポイント・イン・タイムのパフォーマンスを超えるように設計されたメトリクスのセットによって補完される。
さまざまなドリフトのデータセットにわたるSOTAフレームワークの脆弱性は、ホワイトボードへの復帰の必要性を示唆している。
論文 参考訳(メタデータ) (2025-05-28T20:22:43Z) - Re-evaluation of Logical Specification in Behavioural Verification [0.0]
本研究では,行動モデルに対する自動論理仕様法を実証的に検証する。
自動推論における適応的性能不規則性の必要性を示唆する性能不規則性を特定する。
自己最適化解法によってこれらの非効率に対処することは、自動推論の安定性を高めることができる。
論文 参考訳(メタデータ) (2025-05-23T14:46:39Z) - Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards [67.86091419220816]
大規模言語モデル(LLM)は複雑な推論において非常に有望である。
一般的な問題は表面的な自己回帰であり、モデルが自身の出力をしっかりと検証できない。
本稿では、RISE(Reinforce Reasoning with Self-Verification)という新しいオンラインRLフレームワークについて紹介する。
論文 参考訳(メタデータ) (2025-05-19T17:59:31Z) - Advancing Embodied Agent Security: From Safety Benchmarks to Input Moderation [52.83870601473094]
エンボディード・エージェントは、複数のドメインにまたがって大きな潜在能力を示す。
既存の研究は主に、一般的な大言語モデルのセキュリティに重点を置いている。
本稿では, エンボディエージェントの保護を目的とした新しい入力モデレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-22T08:34:35Z) - Probabilistic Stability Guarantees for Feature Attributions [20.58023369482214]
本稿では,非自明かつ解釈可能な帰属法保証を与えるモデル非依存,サンプル効率の安定度保証アルゴリズム(SCA)を提案する。
軽度な平滑化は精度と安定性のトレードオフをより良好に達成し、事前の認証手法による攻撃的な妥協を回避することを示します。
論文 参考訳(メタデータ) (2025-04-18T16:39:08Z) - Firm or Fickle? Evaluating Large Language Models Consistency in Sequential Interactions [8.069858557211132]
大きな言語モデル(LLM)は、様々なタスクにまたがって顕著な能力を示していますが、高い領域への展開には、複数のインタラクションラウンドで一貫したパフォーマンスが必要です。
本稿では,LLM応答整合性の評価と改善のための総合的なフレームワークを紹介し,その3つの重要な貢献について述べる。
論文 参考訳(メタデータ) (2025-03-28T11:49:56Z) - Enhancing LLM Reliability via Explicit Knowledge Boundary Modeling [48.15636223774418]
大きな言語モデル(LLM)は、不一致の自己認識のためにしばしば幻覚する。
既存のアプローチは、不確実性推定やクエリの拒否を通じて幻覚を緩和する。
高速かつ低速な推論システムを統合するための明示的知識境界モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-04T03:16:02Z) - Trustworthiness for an Ultra-Wideband Localization Service [2.4979362117484714]
本稿では,超広帯域自己ローカライゼーションのための総合的信頼性評価フレームワークを提案する。
我々の目標は、客観的な証拠に基づいてシステムの信頼性を評価するためのガイダンスを提供することである。
我々のアプローチは、結果の信頼性指標が、選択された現実世界の脅威に対応することを保証します。
論文 参考訳(メタデータ) (2024-08-10T11:57:10Z) - Stability-Certified Learning of Control Systems with Quadratic
Nonlinearities [9.599029891108229]
この研究は、主に低次元の力学モデルを構築することを目的とした演算子推論手法に焦点を当てている。
本研究の目的は,本質的な安定性を保証する2次制御力学系の推論を容易にする手法を開発することである。
論文 参考訳(メタデータ) (2024-03-01T16:26:47Z) - Algorithmic Robustness [18.406992961818368]
ロバスト性は、計算システムに関する公共政策決定の文脈でしばしば引用される他の目標の重要な有効性である。
この文書はアルゴリズム的堅牢性の概念に関するいくつかの概念と既存の研究に関する簡単なロードマップを提供する。
論文 参考訳(メタデータ) (2023-10-17T17:51:12Z) - ASSERT: Automated Safety Scenario Red Teaming for Evaluating the
Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。
このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。
統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文 参考訳(メタデータ) (2023-10-14T17:10:28Z) - Efficient Empowerment Estimation for Unsupervised Stabilization [75.32013242448151]
エンパワーメント原理は 直立位置での 力学系の教師なし安定化を可能にする
本稿では,ガウスチャネルとして動的システムのトレーニング可能な表現に基づく代替解を提案する。
提案手法は, サンプルの複雑さが低く, 訓練時より安定であり, エンパワーメント機能の本質的特性を有し, 画像からエンパワーメントを推定できることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:10:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。