Fugu-MT 論文翻訳(概要): Prompt Stability Scoring for Text Annotation with Large Language Models

論文の概要: Prompt Stability Scoring for Text Annotation with Large Language Models

arxiv url: http://arxiv.org/abs/2407.02039v1
Date: Tue, 2 Jul 2024 08:11:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-03 16:14:40.392449
Title: Prompt Stability Scoring for Text Annotation with Large Language Models
Title（参考訳）: 大規模言語モデルを用いたテキストアノテーションのプロンプト安定スコーリング
Authors: Christopher Barrie, Elli Palaiologou, Petter Törnberg,
Abstract要約: 研究者たちは、テキストアノテーションに言語モデル(LM)をますます利用している。これらのアプローチは、一連の命令に従って与えられた出力を返すようモデルに指示するプロンプトにのみ依存する。これは分類ルーチンの複製可能性に疑問を投げかける。この問題に対処するため、研究者は通常、我々が「急速安定」と呼ぶものを決定するために、意味論的に類似した様々なプロンプトをテストしてきた。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Researchers are increasingly using language models (LMs) for text annotation. These approaches rely only on a prompt telling the model to return a given output according to a set of instructions. The reproducibility of LM outputs may nonetheless be vulnerable to small changes in the prompt design. This calls into question the replicability of classification routines. To tackle this problem, researchers have typically tested a variety of semantically similar prompts to determine what we call "prompt stability." These approaches remain ad-hoc and task specific. In this article, we propose a general framework for diagnosing prompt stability by adapting traditional approaches to intra- and inter-coder reliability scoring. We call the resulting metric the Prompt Stability Score (PSS) and provide a Python package PromptStability for its estimation. Using six different datasets and twelve outcomes, we classify >150k rows of data to: a) diagnose when prompt stability is low; and b) demonstrate the functionality of the package. We conclude by providing best practice recommendations for applied researchers.
Abstract（参考訳）: 研究者たちは、テキストアノテーションに言語モデル(LM)をますます利用している。これらのアプローチは、一連の命令に従って与えられた出力を返すようモデルに指示するプロンプトにのみ依存する。 LM出力の再現性は、にもかかわらず、プロンプト設計の小さな変更に対して脆弱である。これは分類ルーチンの複製可能性に疑問を投げかける。この問題に対処するため、研究者は通常、我々が「急速安定」と呼ぶものを決定するために、意味論的に類似した様々なプロンプトをテストしてきた。これらのアプローチは、アドホックかつタスク固有のままである。本稿では,コーダ内およびコーダ間信頼性スコアリングに従来のアプローチを適用することにより,迅速な安定性を診断するための一般的な枠組みを提案する。得られたメトリクスをPSS(Prompt Stability Score)と呼び、その推定のためにPythonパッケージのPromptStabilityを提供する。 6つの異なるデータセットと12の結果を使って、データの150k行を次のように分類します。 a) 迅速な安定性が低いときに診断すること、及び b) パッケージの機能を示す。我々は、応用研究者にベストプラクティスの勧告を提供することで結論付ける。

関連論文リスト

CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文参考訳（メタデータ） (2025-08-05T17:55:24Z)
Beyond the Next Token: Towards Prompt-Robust Zero-Shot Classification via Efficient Multi-Token Prediction [12.92060812931049]
プロンプトの微妙な変化は、モデルの性能に重大な違いをもたらす可能性がある。複数位置にわたるトークン確率を予測する新しい手法であるPlaceholding Parallel Prediction (P3)を提案する。実験では精度が向上し、プロンプト間の標準偏差が最大98%減少した。
論文参考訳（メタデータ） (2025-04-04T04:39:51Z)
AutoBencher: Towards Declarative Benchmark Construction [74.54640925146289]
AutoBencherを使って、数学、多言語性、知識、安全性のためのデータセットを作成しています。 AutoBencherのスケーラビリティにより、詳細なカテゴリ知識をテストでき、既存のベンチマークよりも22%のモデルエラー(難易度)を誘発するデータセットを作成することができる。
論文参考訳（メタデータ） (2024-07-11T10:03:47Z)
ELCoRec: Enhance Language Understanding with Co-Propagation of Numerical and Categorical Features for Recommendation [38.64175351885443]
大規模言語モデルは自然言語処理(NLP)領域で栄えている。レコメンデーション指向の微調整モデルによって示された知性にもかかわらず、LLMはユーザーの行動パターンを完全に理解するのに苦労している。既存の作業は、その重要な情報を導入することなく、与えられたテキストデータに対してのみLLMを微調整するだけである。
論文参考訳（メタデータ） (2024-06-27T01:37:57Z)
PrExMe! Large Scale Prompt Exploration of Open Source LLMs for Machine Translation and Summarization Evaluation [22.650575388026752]
大規模言語モデル(LLM)はNLP研究に革命をもたらした。インコンテキスト学習は、自然言語生成の評価指標としての使用を可能にする。我々は,機械翻訳(MT)と要約データセットに基づいて,オープンソースのLCMベースのメトリクスに対して,720以上のプロンプトテンプレートを評価した。
論文参考訳（メタデータ） (2024-06-26T17:56:29Z)
StablePT: Towards Stable Prompting for Few-shot Learning via Input Separation [14.341806875791288]
sysnameは最先端の手法を6.97%精度で上回り、標準偏差を平均1.92倍に下げる。テストは、さまざまなタスクをカバーする8つのデータセットの堅牢性と安定性を強調している。
論文参考訳（メタデータ） (2024-04-30T08:01:49Z)
Align Your Prompts: Test-Time Prompting with Distribution Alignment for Zero-Shot Generalization [64.62570402941387]
テスト領域のギャップを埋めるために、機能分散シフトを最小限にして、テスト時にマルチモーダルプロンプトを適用するために、単一のテストサンプルを使用します。提案手法は,既存のプロンプト学習技術以上のゼロショットトップ1精度を向上し,ベースラインのMaPLeよりも3.08%向上した。
論文参考訳（メタデータ） (2023-11-02T17:59:32Z)
Evaluation of Faithfulness Using the Longest Supported Subsequence [52.27522262537075]
本稿では,文脈によって支持される請求項の最長不連続性を計算し,機械生成テキストの忠実さを評価する新しい手法を提案する。新しい人間アノテーション付きデータセットを使用して、モデルを微調整してLongest Supported Subsequence(LSS)を生成する。提案手法は,我々のデータセットの忠実度に対する最先端のメトリクスよりも18%向上していることを示す。
論文参考訳（メタデータ） (2023-08-23T14:18:44Z)
Boosted Prompt Ensembles for Large Language Models [38.402161594793775]
チェーン・オブ・ソート・プロンプトや自己整合性といった手法は、追加のトレーニングを伴わずに、言語モデル推論のパフォーマンスのフロンティアを押し上げている。大規模言語モデルのためのプロンプトアンサンブル手法を提案する。これは、小さなデータセットを用いて、強化されたプロンプトアンサンブルを構成する一連のショットプロンプトを構成する。」これにより,GSM8kおよびAQuAデータセットにおいて,単一プロンプトの出力空間アンサンブルとタグ付きプロンプト空間アンサンブルより優れることを示す。
論文参考訳（メタデータ） (2023-04-12T16:47:15Z)
Evaluating the Robustness of Discrete Prompts [27.919548466481583]
我々は離散的なプロンプトの堅牢性について体系的な研究を行う。 2つの自然言語推論(NLI)データセットでそれらの性能を測定する。提案手法は,NLI入力に対する摂動に対して比較的頑健であるが,シャッフルやプロンプトの削除といった他の種類の摂動に対して非常に敏感である。
論文参考訳（メタデータ） (2023-02-11T07:01:53Z)
Bayesian Prompt Learning for Image-Language Model Generalization [64.50204877434878]
我々はベイズ法の正規化能力を用いて、変分推論問題としてプロンプト学習をフレーム化する。提案手法は,プロンプト空間を正規化し,目に見えないプロンプトへの過剰適合を低減し,目に見えないプロンプトのプロンプト一般化を改善する。ベイジアン・プロンプト学習がプロンプト空間の適切なカバレッジを提供する15のベンチマークを実証的に示す。
論文参考訳（メタデータ） (2022-10-05T17:05:56Z)
Explaining Patterns in Data with Language Models via Interpretable Autoprompting [143.4162028260874]
本稿では,データを説明する自然言語文字列を生成するアルゴリズムである,解釈可能なオートプロンプト(iPrompt)を提案する。 iPromptは、基盤となるデータセット記述を正確に見つけることで、意味のある洞察を得ることができる。 fMRIデータセットを用いた実験は、iPromptが科学的発見に役立つ可能性を示している。
論文参考訳（メタデータ） (2022-10-04T18:32:14Z)
Prompt Consistency for Zero-Shot Task Generalization [118.81196556175797]
本稿では,ラベルのないデータを用いてゼロショット性能を向上させる手法について検討する。具体的には,複数のプロンプトを使ってひとつのタスクを指定できることを利用して,プロンプトの一貫性を規則化する手法を提案する。我々のアプローチは、4つのNLPタスクにまたがる11のデータセットのうち9つにおいて、最先端のゼロショット学習者であるT0を精度で最大10.6の絶対点で上回ります。
論文参考訳（メタデータ） (2022-04-29T19:18:37Z)
AES Systems Are Both Overstable And Oversensitive: Explaining Why And Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文参考訳（メタデータ） (2021-09-24T03:49:38Z)
KnowPrompt: Knowledge-aware Prompt-tuning with Synergistic Optimization for Relation Extraction [111.74812895391672]
シナジスティック最適化(KnowPrompt)を用いた知識認識型Promptチューニング手法を提案する。関係ラベルに含まれる潜在知識をインジェクトして,学習可能な仮想型語と解答語で構築する。
論文参考訳（メタデータ） (2021-04-15T17:57:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。