論文の概要: Prompting in the Dark: Assessing Human Performance in Prompt Engineering for Data Labeling When Gold Labels Are Absent
- arxiv url: http://arxiv.org/abs/2502.11267v1
- Date: Sun, 16 Feb 2025 20:54:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:17:00.820777
- Title: Prompting in the Dark: Assessing Human Performance in Prompt Engineering for Data Labeling When Gold Labels Are Absent
- Title(参考訳): 暗黒でのプロンプティング:金ラベルが無くなったときのデータラベル作成のためのプロンプトエンジニアリングにおける人的パフォーマンスの評価
- Authors: Zeyu He, Saniya Naphade, Ting-Hao 'Kenneth' Huang,
- Abstract要約: 本稿では,ユーザが手動でラベル付けされたベンチマークを使わずに,大規模言語モデル(LLM)にデータをラベル付けするシナリオについて検討する。
われわれはGoogle SheetsアドオンであるPromptingSheetを開発した。
その結果,4回以上の反復でラベル付け精度が向上したのは,暗黒でのプロンプトが信頼性の低い9名のみであった。
- 参考スコア(独自算出の注目度): 9.50572374662018
- License:
- Abstract: Millions of users prompt large language models (LLMs) for various tasks, but how good are people at prompt engineering? Do users actually get closer to their desired outcome over multiple iterations of their prompts? These questions are crucial when no gold-standard labels are available to measure progress. This paper investigates a scenario in LLM-powered data labeling, "prompting in the dark," where users iteratively prompt LLMs to label data without using manually-labeled benchmarks. We developed PromptingSheet, a Google Sheets add-on that enables users to compose, revise, and iteratively label data through spreadsheets. Through a study with 20 participants, we found that prompting in the dark was highly unreliable-only 9 participants improved labeling accuracy after four or more iterations. Automated prompt optimization tools like DSPy also struggled when few gold labels were available. Our findings highlight the importance of gold labels and the needs, as well as the risks, of automated support in human prompt engineering, providing insights for future tool design.
- Abstract(参考訳): 何百万というユーザが,さまざまなタスクのために大規模言語モデル(LLM)をプロンプトしています。
ユーザは、プロンプトの繰り返しよりも、実際に望ましい結果に近づきますか?
これらの疑問は、ゴールドスタンダードラベルが進捗を測ることができない場合に重要となる。
本稿では,LSMを用いたデータラベリングのシナリオとして,手動でラベル付けしたベンチマークを使わずに,LCMにデータラベリングを反復的に促す手法について検討する。
われわれはGoogle SheetsアドオンであるPromptingSheetを開発した。
被験者20名を対象に調査を行い,4回以上の反復でラベル付け精度が向上し,暗黒でのプロンプトが信頼できないのは9名のみであった。
DSPyのような自動プロンプト最適化ツールも、ゴールドラベルがほとんどなかったため苦労した。
本研究は, 金のラベルの重要性と, 人為的技術における自動サポートのリスクを強調し, 今後のツール設計への洞察を提供するものである。
関連論文リスト
- On Unsupervised Prompt Learning for Classification with Black-box Language Models [71.60563181678323]
大規模言語モデル(LLM)は、テキスト形式学習問題において顕著な成功を収めた。
LLMは、熟練した人間のアノテータよりも品質の高いデータセットをラベル付けすることができる。
本稿では,ブラックボックス LLM を用いた分類のための教師なしのプロンプト学習を提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z) - Zero-to-Strong Generalization: Eliciting Strong Capabilities of Large Language Models Iteratively without Gold Labels [75.77877889764073]
大規模言語モデル(LLM)は,ゴールドラベルを用いた教師付き微調整やテキスト内学習を通じて,顕著な性能を示した。
本研究では,ラベルのないデータのみを利用することで,強力なモデル機能を実現することができるかどうかを考察する。
ゼロ・ツー・ストロング一般化と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2024-09-19T02:59:44Z) - Keeping Humans in the Loop: Human-Centered Automated Annotation with Generative AI [0.0]
我々は、GPT-4を使用して、パスワードで保護された11のデータセットに27のアノテーションタスクを複製する。
各タスクについて,人間の注釈付き接地木ラベルに対するGPT-4アノテーションと,人為的ラベルに微調整された教師付き分類モデルからのアノテーションを比較した。
本研究は,人間中心のワークフローと注意深い評価基準の重要性を裏付けるものである。
論文 参考訳(メタデータ) (2024-09-14T15:27:43Z) - Prompt Design Matters for Computational Social Science Tasks but in Unpredictable Ways [3.779027297957693]
我々は,迅速な設計が社会科学アノテーションの遵守と正確性に与える影響を検証した。
以上の結果から,LSMのコンプライアンスと精度は極めて素早い依存性があることが示唆された。
この研究は、研究者や実践者の警告と実践のガイドとして機能する。
論文 参考訳(メタデータ) (2024-06-17T18:01:43Z) - GLaPE: Gold Label-agnostic Prompt Evaluation and Optimization for Large Language Model [59.495717939664246]
我々は,ゴールドラベルへの依存を軽減するため,ゴールドラベルに依存しないプロンプト評価(GLaPE)を提案する。
GLaPEは,ゴールドラベルが存在しない場合でも,精度よく信頼性の高い評価を行う。
一般的な6つの推論タスクにおいて、GLaPEベースのプロンプト最適化により、精度ベースのプロンプトに匹敵する効果的なプロンプトが得られる。
論文 参考訳(メタデータ) (2024-02-04T08:57:54Z) - Automatic Prompt Optimization with "Gradient Descent" and Beam Search [64.08364384823645]
大きな言語モデル(LLM)は汎用エージェントとして優れたパフォーマンスを示しているが、その能力はプロンプトに大きく依存している。
この問題に対する単純で非パラメトリックな解である自動プロンプト最適化(APO)を提案する。
APOはデータのミニバッチを使用して、現在のプロンプトを批判する自然言語「段階的」を形成する。
次に、勾配の反対の意味方向のプロンプトを編集することで、勾配をプロンプトに「伝播」する。
論文 参考訳(メタデータ) (2023-05-04T15:15:22Z) - Exploring Structured Semantic Prior for Multi Label Recognition with
Incomplete Labels [60.675714333081466]
不完全なラベルを持つマルチラベル認識(MLR)は非常に難しい。
最近の研究は、視覚言語モデルであるCLIPにおける画像とラベルの対応を探り、不十分なアノテーションを補うことを目指している。
我々は,MLRにおけるラベル管理の欠如を,構造化されたセマンティクスを導出することにより,不完全なラベルで修復することを提唱する。
論文 参考訳(メタデータ) (2023-03-23T12:39:20Z) - Toward Human Readable Prompt Tuning: Kubrick's The Shining is a good
movie, and a good prompt too? [84.91689960190054]
大規模言語モデルは、自然言語のプロンプトが与えられた場合、ゼロショットで新しいタスクを実行することができる。
特にプロンプトが自然言語である場合、どの要因がプロンプトを効果的にするかは明らかにされていない。
論文 参考訳(メタデータ) (2022-12-20T18:47:13Z) - PromptDA: Label-guided Data Augmentation for Prompt-based Few-shot
Learners [15.130992223266734]
本稿では,データ拡張のためのラベルの豊富なセマンティック情報を利用する新しいラベル誘導型データ拡張フレームワークであるPromptDAを提案する。
本研究は, 提案フレームワークの優れた性能を示すために, テキスト分類タスクを数ショットで行う実験である。
論文 参考訳(メタデータ) (2022-05-18T22:15:20Z) - Automatic Multi-Label Prompting: Simple and Interpretable Few-Shot
Classification [15.575483080819563]
本稿では,自動マルチラベルプロンプト(AMuLaP)を提案する。
提案手法は,1対多のラベルマッピングと統計に基づくアルゴリズムを用いて,プロンプトテンプレートを付与したラベルマッピングを選択する。
実験の結果,AMuLaPは人的労力や外部リソースを使わずにGLUEベンチマーク上での競合性能を実証した。
論文 参考訳(メタデータ) (2022-04-13T11:15:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。