Fugu-MT 論文翻訳(概要): Improving Alignment Between Human and Machine Codes: An Empirical Assessment of Prompt Engineering for Construct Identification in Psychology

論文の概要: Improving Alignment Between Human and Machine Codes: An Empirical Assessment of Prompt Engineering for Construct Identification in Psychology

arxiv url: http://arxiv.org/abs/2512.03818v1
Date: Wed, 03 Dec 2025 14:07:42 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-04 20:02:55.32688
Title: Improving Alignment Between Human and Machine Codes: An Empirical Assessment of Prompt Engineering for Construct Identification in Psychology
Title（参考訳）: 人間と機械のアライメントを改善する:心理学における同定のためのプロンプト工学の実証評価
Authors: Kylie L. Anglin, Stephanie Milan, Brittney Hernandez, Claudia Ventura,
Abstract要約: 本稿では,テキスト中のコンストラクタをインシデントエンジニアリングで識別するために,インシデント性能を最適化するための実証的フレームワークを提案する。提案手法は,コードブックによる経験的プロンプト選択,自動プロンプトエンジニアリング,ペルソナプロンプト,チェーンオブ思考推論,説明的プロンプトという5つのプロンプト戦略を実験的に評価した。 3つの構成と2つのモデルで、分類は専門家の判断に最も適しており、コードブックに誘導された経験的プロンプト選択と自動プロンプトエンジニアリングを組み合わせた数発のプロンプトから生まれた。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Due to their architecture and vast pre-training data, large language models (LLMs) demonstrate strong text classification performance. However, LLM output - here, the category assigned to a text - depends heavily on the wording of the prompt. While literature on prompt engineering is expanding, few studies focus on classification tasks, and even fewer address domains like psychology, where constructs have precise, theory-driven definitions that may not be well represented in pre-training data. We present an empirical framework for optimizing LLM performance for identifying constructs in texts via prompt engineering. We experimentally evaluate five prompting strategies --codebook-guided empirical prompt selection, automatic prompt engineering, persona prompting, chain-of-thought reasoning, and explanatory prompting - with zero-shot and few-shot classification. We find that persona, chain-of-thought, and explanations do not fully address performance loss accompanying a badly worded prompt. Instead, the most influential features of a prompt are the construct definition, task framing, and, to a lesser extent, the examples provided. Across three constructs and two models, the classifications most aligned with expert judgments resulted from a few-shot prompt combining codebook-guided empirical prompt selection with automatic prompt engineering. Based on our findings, we recommend that researchers generate and evaluate as many prompt variants as feasible, whether human-crafted, automatically generated, or ideally both, and select prompts and examples based on empirical performance in a training dataset, validating the final approach in a holdout set. This procedure offers a practical, systematic, and theory-driven method for optimizing LLM prompts in settings where alignment with expert judgment is critical.
Abstract（参考訳）: アーキテクチャと膨大な事前学習データにより、大きな言語モデル(LLM)は強力なテキスト分類性能を示す。しかし、LLM出力(ここでは、テキストに割り当てられたカテゴリ)はプロンプトのワード化に大きく依存する。素早い工学に関する文献は増えつつあるが、分類タスクに焦点をあてる研究はほとんどなく、また、構造体が精密で理論駆動的な定義を持ち、事前学習データではうまく表現されない心理学のようなアドレス領域も少なくなっている。本稿では,テキスト中のコンストラクトをインシデントエンジニアリングにより識別するためのLLM性能を最適化するための実証的フレームワークを提案する。我々は,コードブックによる経験的プロンプト選択,自動プロンプトエンジニアリング,ペルソナプロンプト,連鎖推論,説明的プロンプトという5つのプロンプト戦略を,ゼロショットと少数ショットの分類で実験的に評価した。ペルソナやチェーン・オブ・シークレット,説明などは,言葉の悪いプロンプトを伴うパフォーマンス損失に完全に対処するものではない。その代わり、プロンプトの最も影響力のある特徴は、構成定義、タスクフレーミング、そしてより少ない範囲で提供される例である。 3つの構成と2つのモデルで、分類は専門家の判断に最も適しており、コードブックに誘導された経験的プロンプト選択と自動プロンプトエンジニアリングを組み合わせた数発のプロンプトから生まれた。そこで,本研究では,人為的,自動生成的,あるいは理想的のいずれかにおいて,可能な限り多くのプロンプト変種を生成・評価し,学習データセットにおける経験的パフォーマンスに基づいてプロンプトと例を選択し,最後のアプローチをホールドアウトセットで検証することを推奨する。この手順は、専門家の判断と整合性が重要な設定において、LCMプロンプトを最適化するための実用的で体系的で理論駆動の手法を提供する。

関連論文リスト

Grammar-Guided Evolutionary Search for Discrete Prompt Optimisation [63.97051732013936]
本稿では,2段階からなる離散的な自動最適化に対する進化的探索手法を提案する。第1段階では、文法誘導型遺伝的プログラミングが実行され、プロンプト生成プログラムを合成する。第2段階では、局所探索を用いて、最高のパフォーマンスプログラムの周辺を探索する。
論文参考訳（メタデータ） (2025-07-14T14:34:15Z)
Automatic Prompt Optimization for Knowledge Graph Construction: Insights from an Empirical Study [8.482898222291206]
テキストからのトリプル(オブジェクト-リレーショナルオブジェクト)抽出は、KG構築の基本的な構成要素である。 NLPタスク(例えば自律生成)における最近の作業では、この課題に対処するために自動的なプロンプト最適化/エンジニアリングを使用している。我々は、(a)プロンプト戦略、(b)プロンプト最適化とタスク実行に使用されるLLM、(c)スキーマにおける標準関係の数、(d)入力テキストの長さと多様性、(e)プロンプト最適化に使用されるメトリック、および(f)トレーニングとテストに使用されるデータセットを変更することで異なる設定を評価する。
論文参考訳（メタデータ） (2025-06-24T16:38:49Z)
A Sequential Optimal Learning Approach to Automated Prompt Engineering in Large Language Models [14.483240353801074]
本稿では,自動プロンプトエンジニアリングのための最適学習フレームワークを提案する。限られた評価予算を効率的に割り当てつつ、効果的なプロンプト機能を逐次識別するように設計されている。私たちのフレームワークは、より広い範囲のアプリケーションに自動プロンプトエンジニアリングをデプロイするためのソリューションを提供します。
論文参考訳（メタデータ） (2025-01-07T03:51:10Z)
Enhancing LLM-Based Text Classification in Political Science: Automatic Prompt Optimization and Dynamic Exemplar Selection for Few-Shot Learning [1.6967824074619953]
大型言語モデル (LLMs) は、政治学におけるテキスト分類をかなり約束する。本フレームワークは,自動プロンプト最適化,動的指数選択,コンセンサス機構を通じてLLM性能を向上させる。オープンソースのPythonパッケージ(PoliPrompt)がGitHubで公開されている。
論文参考訳（メタデータ） (2024-09-02T21:05:31Z)
Task Facet Learning: A Structured Approach to Prompt Optimization [13.423478909210353]
本稿では,タスクの複数の面をトレーニング例から学習するアルゴリズムを提案する。提案アルゴリズムであるUniPromptは、入力空間をクラスタ化し、クラスタ化されたバッチを使用する。複数のデータセットと実世界のタスクに対する経験的評価は、ショートネームを用いて生成されたプロンプトが、人間のチューニングしたプロンプトと最先端の手法によるプロンプトよりも高い精度が得られることを示している。
論文参考訳（メタデータ） (2024-06-15T04:54:26Z)
Prompt Optimization with EASE? Efficient Ordering-aware Automated Selection of Exemplars [66.823588073584]
大規模言語モデル(LLM)は、現実世界のアプリケーションで印象的な機能を示している。これらの卓越した作品の品質は、パフォーマンスに大きな影響を与えます。既存の方法は、先行注文がパフォーマンスに与える影響を適切に説明できない。
論文参考訳（メタデータ） (2024-05-25T08:23:05Z)
Efficient Prompting Methods for Large Language Models: A Survey [50.82812214830023]
効率的なプロンプティング手法は幅広い注目を集めている。本稿では,異なるプロンプト成分に対する自動プロンプトエンジニアリングと連続空間および離散空間におけるプロンプト圧縮について論じる。
論文参考訳（メタデータ） (2024-04-01T12:19:08Z)
Intent-based Prompt Calibration: Enhancing prompt optimization with synthetic boundary cases [2.6159111710501506]
本稿では,ユーザ意図に対するプロンプトを反復的に洗練するキャリブレーションプロセスを用いて,自動プロンプトエンジニアリングの新しい手法を提案する。我々は,モデレーションや生成といった現実的なタスクにおいて,強力なプロプライエタリなモデルに対して,本手法の有効性を示す。
論文参考訳（メタデータ） (2024-02-05T15:28:43Z)
AutoHint: Automatic Prompt Optimization with Hint Generation [11.737818328656735]
本稿では,大規模言語モデル(LLM)の自動プロンプトエンジニアリングと最適化のための新しいフレームワークであるAutoHintを提案する。本稿では,インテキスト学習とゼロショット学習の両方の利点を継承する枠組みを提案する。エンリッチメントをヒントと呼び、ラベル付きデータからヒントを自動的に生成するフレームワークを提案する。
論文参考訳（メタデータ） (2023-07-13T00:49:27Z)
MetricPrompt: Prompting Model as a Relevance Metric for Few-shot Text Classification [65.51149771074944]
MetricPromptは、数発のテキスト分類タスクをテキストペア関連性推定タスクに書き換えることで、言語設計の難易度を緩和する。広範に使われている3つのテキスト分類データセットを4つのショット・セッティングで実験する。結果から,MetricPromptは,手動弁証法や自動弁証法よりも優れた性能を示した。
論文参考訳（メタデータ） (2023-06-15T06:51:35Z)
TEMPERA: Test-Time Prompting via Reinforcement Learning [57.48657629588436]
強化学習(TEMPERA)を用いたテスト時間プロンプト編集を提案する。従来のプロンプト生成手法とは対照的に、TEMPERAは事前知識を効率的に活用することができる。本手法は従来の微調整法と比較して試料効率の平均改善率を5.33倍に向上させる。
論文参考訳（メタデータ） (2022-11-21T22:38:20Z)
LASP: Text-to-Text Optimization for Language-Aware Soft Prompting of Vision & Language Models [67.19124099815645]
ベースクラスオーバーフィットを軽減するために,Language-Aware Soft Prompting (LASP) 学習手法を提案する。 LASPは本質的に、トレーニング中に仮想クラス、すなわちビジュアルサンプルが使用できないクラス名を含むことができる。 LASPは、手作りのプロンプトとCLIPによる11のテストデータセットのうち8つの新しいクラスの精度が初めて一致し、上回っている。
論文参考訳（メタデータ） (2022-10-03T17:56:35Z)
RLPrompt: Optimizing Discrete Text Prompts With Reinforcement Learning [84.75064077323098]
本稿では、強化学習(RL)を用いた離散的高速最適化手法RLPromptを提案する。 RLPromptは、マスク付きジベリッシュ(例:grammaBERT)や左から右へのモデル(例:GPT)など、様々な種類のLMに柔軟に適用可能である。少数ショット分類と教師なしテキストスタイル転送の実験は、既存のファインタニングやプロンプト手法よりも優れた性能を示す。
論文参考訳（メタデータ） (2022-05-25T07:50:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。