論文の概要: Prompt Stability in Code LLMs: Measuring Sensitivity across Emotion- and Personality-Driven Variations
- arxiv url: http://arxiv.org/abs/2509.13680v1
- Date: Wed, 17 Sep 2025 04:17:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.71202
- Title: Prompt Stability in Code LLMs: Measuring Sensitivity across Emotion- and Personality-Driven Variations
- Title(参考訳): コードLLMにおけるプロンプト安定性:感情と個人性による変動に対する感度の測定
- Authors: Wei Ma, Yixiao Yang, Jingquan Ge, Xiaofei Xie, Lingxiao Jiang,
- Abstract要約: 本稿では,感情テンプレートと人格テンプレートを用いた意味論的に等価なプロンプト変種を生成するフレームワークであるPromptSEを提案する。
本研究は、性能と安定性が、主に分離された最適化目標として振る舞うことを示す。
PromptSEは、デプロイとモデル選択のためのパフォーマンス安定性トレードオフの定量化を可能にする。
- 参考スコア(独自算出の注目度): 40.12950482269347
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code generation models are widely used in software development, yet their sensitivity to prompt phrasing remains under-examined. Identical requirements expressed with different emotions or communication styles can yield divergent outputs, while most benchmarks emphasize only peak performance. We present PromptSE (Prompt Sensitivity Evaluation), a framework that creates semantically equivalent prompt variants with emotion and personality templates, and that evaluates stability using probability aware continuous scoring or using binary pass rates when logits are unavailable. The results are aggregated into a proposed area under curve metric (AUC-E) for cross model comparison. Across 14 models from three families (Llama, Qwen, and DeepSeek), our study shows that performance and stability behave as largely decoupled optimization objectives, and it reveals architectural and scale related patterns that challenge common assumptions about model robustness. The framework supports rapid screening for closed-source models as well as detailed stability analysis in research settings. PromptSE enables practitioners to quantify performance stability trade offs for deployment and model selection, positioning prompt stability as a complementary evaluation dimension alongside performance and fairness, and contributing to more trustworthy AI-assisted software development tools.
- Abstract(参考訳): コード生成モデルはソフトウェア開発で広く使われているが、その表現の迅速化に対する感度は未検討のままである。
異なる感情やコミュニケーションスタイルで表現される明確な要求は、異なる出力が得られるが、ほとんどのベンチマークはピークパフォーマンスのみを強調する。
PromptSE(Prompt Sensitivity Evaluation, PromptSE)は,感情や人格テンプレートを用いた意味論的に等価なプロンプト変種を生成するフレームワークであり,ロジットが利用できない場合の確率認識連続スコアやバイナリパスレートを用いて安定性を評価する。
この結果は, クロスモデル比較のための曲線計量(AUC-E)に基づく提案領域に集約される。
Llama、Qwen、DeepSeekの3つのファミリーから14モデルにわたって、パフォーマンスと安定性が大部分が分離された最適化目標として振る舞うことを示し、モデルロバスト性に関する一般的な仮定に挑戦するアーキテクチャおよびスケール関連パターンを明らかにした。
このフレームワークは、クローズドソースモデルの高速スクリーニングと、研究環境における詳細な安定性解析をサポートする。
PromptSEにより、実践者は、デプロイメントとモデル選択のためのパフォーマンス安定性のトレードオフを定量化し、迅速な安定性をパフォーマンスと公正性の相補的な評価次元として位置づけ、より信頼できるAI支援ソフトウェア開発ツールに寄与することができる。
関連論文リスト
- SALMAN: Stability Analysis of Language Models Through the Maps Between Graph-based Manifolds [11.373585987937913]
本研究では,内部パラメータの変更や複雑な摂動に頼らずにモデル安定性を評価する統一的局所(サンプルレベル)ロバストネスフレームワーク(SALMAN)を提案する。
提案手法の中心となるのがDMD(Distance Mapping Distortion)尺度である。
攻撃効率とロバストトレーニングの大幅な向上を示すことによって、我々は、トランスフォーマーベースのNLPシステムの信頼性を向上させるための実用的、モデルに依存しないツールとして、我々のフレームワークを位置づける。
論文 参考訳(メタデータ) (2025-08-23T02:50:55Z) - Stochastic Encodings for Active Feature Acquisition [100.47043816019888]
Active Feature Acquisitionは、インスタンスワイドでシーケンシャルな意思決定問題である。
目的は、テストインスタンスごとに独立して、現在の観測に基づいて計測する機能を動的に選択することである。
一般的なアプローチは強化学習(Reinforcement Learning)であり、トレーニングの困難を経験する。
我々は、教師付きで訓練された潜在変数モデルを導入し、潜在空間における観測不能な実現の可能性の多くにまたがる特徴を推論することで獲得する。
論文 参考訳(メタデータ) (2025-08-03T23:48:46Z) - RoHOI: Robustness Benchmark for Human-Object Interaction Detection [78.18946529195254]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、コンテキスト認識支援を可能にするロボット・ヒューマン・アシストに不可欠である。
HOI検出のための最初のベンチマークを導入し、様々な課題下でモデルのレジリエンスを評価する。
我々のベンチマークであるRoHOIは、HICO-DETとV-COCOデータセットに基づく20の汚職タイプと、新しいロバストネスにフォーカスしたメトリクスを含んでいる。
論文 参考訳(メタデータ) (2025-07-12T01:58:04Z) - Test-Time Consistency in Vision Language Models [26.475993408532304]
VLM(Vision-Language Models)は、様々なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。
MM-R3のような最近のベンチマークでは、最先端のVLMでさえ意味論的に等価な入力にまたがって分岐予測をもたらすことが強調されている。
教師付き再学習なしにセマンティックな一貫性を高める,シンプルで効果的なテスト時間一貫性フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-27T17:09:44Z) - Statistical Runtime Verification for LLMs via Robustness Estimation [0.0]
ランタイムクリティカルなアプリケーションにLLM(Large Language Models)を安全にデプロイするためには、逆の堅牢性検証が不可欠である。
ブラックボックス配置環境におけるLCMのオンライン実行時ロバスト性モニタとしての可能性を評価するために,RoMA統計検証フレームワークを適応・拡張するケーススタディを提案する。
論文 参考訳(メタデータ) (2025-04-24T16:36:19Z) - Breach in the Shield: Unveiling the Vulnerabilities of Large Language Models [13.216398753024182]
大規模言語モデル(LLMs)と視覚言語モデル(VLMs)は、幅広いタスクで素晴らしいパフォーマンスを実現しています。
本研究では,このような摂動の影響を受けやすいパラメータや入力次元を同定することにより,この脆弱性の原因を特定することを目的とする。
我々は、情報幾何学に根ざし、個々のパラメータと入力次元の感度を定量化する、textbfFI, textbf First order local textbfInfluence という安定性尺度を提案する。
論文 参考訳(メタデータ) (2025-03-28T16:23:59Z) - On the Robustness of Aspect-based Sentiment Analysis: Rethinking Model,
Data, and Training [109.9218185711916]
アスペクトベースの感情分析(ABSA)は、ソーシャルメディアのテキストやレビューの背後にある製品やサービスの特定の側面に対して、特定の感情の極性を自動的に推測することを目的としている。
我々は、モデル、データ、トレーニングを含むあらゆる可能な角度からボトルネックを体系的に再考することで、ABSAの堅牢性を高めることを提案する。
論文 参考訳(メタデータ) (2023-04-19T11:07:43Z) - Model Stability with Continuous Data Updates [2.439909645714735]
機械学習(ML)モデルの「安定性」を,大規模で複雑なNLPシステムのコンテキスト内で研究する。
ネットワークアーキテクチャや入力表現を含むモデル設計の選択は、安定性に重大な影響を与える。
モデリングの選択を行う際に、MLモデルデザイナが正確さとジッタのトレードオフを考慮に入れることを推奨する。
論文 参考訳(メタデータ) (2022-01-14T22:11:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。