論文の概要: Prompt Engineering for Scale Development in Generative Psychometrics
- arxiv url: http://arxiv.org/abs/2603.15909v1
- Date: Mon, 16 Mar 2026 20:55:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:06.98532
- Title: Prompt Engineering for Scale Development in Generative Psychometrics
- Title(参考訳): ジェネレーティブ心理学における尺度開発のためのプロンプト工学
- Authors: Lara Lee Russell-Lasalandra, Hudson Golino,
- Abstract要約: このモンテカルロシミュレーションは,工学的戦略が大規模言語モデル(LLM)の品質をどのように形成するかを考察する。
ビッグファイブの特徴をターゲットとしたアイテムプールは、複数のプロンプト設計を使用して生成される。
プロンプトの設計は、プレ・アンド・ポストのアイテムの品質に大きな影響を与えた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This Monte Carlo simulation examines how prompt engineering strategies shape the quality of large language model (LLM)--generated personality assessment items within the AI-GENIE framework for generative psychometrics. Item pools targeting the Big Five traits were generated using multiple prompting designs (zero-shot, few-shot, persona-based, and adaptive), model temperatures, and LLMs, then evaluated and reduced using network psychometric methods. Across all conditions, AI-GENIE reliably improved structural validity following reduction, with the magnitude of its incremental contribution inversely related to the quality of the incoming item pool. Prompt design exerted a substantial influence on both pre- and post-reduction item quality. Adaptive prompting consistently outperformed non-adaptive strategies by sharply reducing semantic redundancy, elevating pre-reduction structural validity, and preserving substantially larger item pool, particularly when paired with newer, higher-capacity models. These gains were robust across temperature settings for most models, indicating that adaptive prompting mitigates common trade-offs between creativity and psychometric coherence. An exception was observed for the GPT-4o model at high temperatures, suggesting model-specific sensitivity to adaptive constraints at elevated stochasticity. Overall, the findings demonstrate that adaptive prompting is the strongest approach in this context, and that its benefits scale with model capability, motivating continued investigation of model--prompt interactions in generative psychometric pipelines.
- Abstract(参考訳): このモンテカルロシミュレーションは、生成心理学のためのAI-GENIEフレームワークにおいて、工学的戦略が大規模言語モデル(LLM)の生成する人格評価項目の質をどのように形成するかを考察する。
ビッグファイブの特徴をターゲットとしたアイテムプールは、複数のプロンプト設計(ゼロショット、少数ショット、ペルソナベース、適応)、モデル温度、LCMを用いて生成され、ネットワーク心理測定法を用いて評価・縮小された。
あらゆる条件において、AI-GENIEは、そのインクリメンタルコントリビューションの規模が、入力アイテムプールの品質に逆らうように、削減後の構造的妥当性を確実に改善した。
プロンプトの設計は、プレ・アンド・ポストのアイテムの品質に大きな影響を与えた。
適応的プロンプトは、セマンティック冗長性を著しく低減し、事前還元構造の有効性を高め、特に新しい高容量モデルと組み合わせた場合、かなり大きなアイテムプールを保存することで、一貫して非適応的戦略より優れている。
これらの利得は、ほとんどのモデルで温度設定において堅牢であり、適応的刺激が創造性と心理学的コヒーレンスの間の共通のトレードオフを緩和することを示している。
高温ではGPT-4oモデルに例外が認められ, 高い確率性では適応性制約に対するモデル特異的感受性が示唆された。
全体として、適応的プロンプトは、この文脈で最強のアプローチであり、その利点がモデル能力とスケールすることを示し、生成的心理測定パイプラインにおけるモデル-プロンプト相互作用の継続的な研究を動機付けている。
関連論文リスト
- ARISE: An Adaptive Resolution-Aware Metric for Test-Time Scaling Evaluation in Large Reasoning Models [102.4511331368587]
ARISE(Adaptive Resolution-Aware Scaling Evaluation)は、大規模推論モデルの試験時間スケーリングの有効性を評価するために設計された新しい尺度である。
我々は、様々な領域にわたる最先端の推論モデルを評価する包括的な実験を行う。
論文 参考訳(メタデータ) (2025-10-07T15:10:51Z) - TCPO: Thought-Centric Preference Optimization for Effective Embodied Decision-making [75.29820290660065]
本稿では,効果的な具体的意思決定のための思考中心推論最適化(TCPO)を提案する。
モデルの中間的推論プロセスの整合性を強調し、モデル劣化の問題を緩和する。
ALFWorld環境での実験では、平均成功率は26.67%であり、RL4VLMよりも6%向上している。
論文 参考訳(メタデータ) (2025-09-10T11:16:21Z) - Bayesian Models for Joint Selection of Features and Auto-Regressive Lags: Theory and Applications in Environmental and Financial Forecasting [0.9208007322096533]
自動相関誤差を伴う線形回帰における変数選択のためのベイズ的フレームワークを開発する。
本フレームワークは,MSPEの低減,真のモデル成分同定の改善,自動相関ノイズとの整合性の向上を実現している。
既存の手法と比較して,本フレームワークはより低いMSPEを実現し,真のモデル成分の同定が向上し,自動相関ノイズとの整合性が向上する。
論文 参考訳(メタデータ) (2025-08-12T18:44:36Z) - High-Fidelity Scientific Simulation Surrogates via Adaptive Implicit Neural Representations [51.90920900332569]
入射神経表現(INR)は空間的に構造化されたデータをモデリングするためのコンパクトで連続的なフレームワークを提供する。
近年のアプローチでは、剛性幾何学的構造に沿った付加的な特徴を導入することでこの問題に対処している。
機能適応型INR(FA-INR)を提案する。
論文 参考訳(メタデータ) (2025-06-07T16:45:17Z) - Model Hemorrhage and the Robustness Limits of Large Language Models [119.46442117681147]
大規模言語モデル(LLM)は、自然言語処理タスク全体で強力なパフォーマンスを示すが、デプロイメント用に修正された場合、大幅なパフォーマンス低下を経験する。
この現象をモデル出血(パラメータ変更とアーキテクチャ変更によるパフォーマンス低下)と定義する。
論文 参考訳(メタデータ) (2025-03-31T10:16:03Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - A PAC-Bayesian Perspective on the Interpolating Information Criterion [54.548058449535155]
補間系の性能に影響を及ぼす要因を特徴付ける一般モデルのクラスに対して,PAC-Bayes境界がいかに得られるかを示す。
オーバーパラメータ化モデルに対するテスト誤差が、モデルとパラメータの初期化スキームの組み合わせによって課される暗黙の正規化の品質に依存するかの定量化を行う。
論文 参考訳(メタデータ) (2023-11-13T01:48:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。