論文の概要: Evaluation is all you need. Prompting Generative Large Language Models
for Annotation Tasks in the Social Sciences. A Primer using Open Models
- arxiv url: http://arxiv.org/abs/2401.00284v1
- Date: Sat, 30 Dec 2023 17:22:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 18:05:44.201378
- Title: Evaluation is all you need. Prompting Generative Large Language Models
for Annotation Tasks in the Social Sciences. A Primer using Open Models
- Title(参考訳): 評価は必要なだけです。
社会科学におけるアノテーションタスクのための生成型大規模言語モデルの提案
オープンモデルを用いたプライマー
- Authors: Maximilian Weber, Merle Reichardt
- Abstract要約: この研究は、プライバシの懸念が限定されているなど、プロプライエタリなモデルに関連する課題を強調している。
この研究は、独立したデバイスで操作できるオープン(オープンソース)モデルの採用を提唱している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper explores the use of open generative Large Language Models (LLMs)
for annotation tasks in the social sciences. The study highlights the
challenges associated with proprietary models, such as limited reproducibility
and privacy concerns, and advocates for the adoption of open (source) models
that can be operated on independent devices. Two examples of annotation tasks,
sentiment analysis in tweets and identification of leisure activities in
childhood aspirational essays are provided. The study evaluates the performance
of different prompting strategies and models (neural-chat-7b-v3-2,
Starling-LM-7B-alpha, openchat_3.5, zephyr-7b-alpha and zephyr-7b-beta). The
results indicate the need for careful validation and tailored prompt
engineering. The study highlights the advantages of open models for data
privacy and reproducibility.
- Abstract(参考訳): 本稿では,open generative large language model (llms) を社会科学におけるアノテーションタスクに利用することを検討する。
この研究は、限定的な再現性やプライバシの懸念など、プロプライエタリなモデルに関連する課題を強調し、独立したデバイスで操作可能なオープン(オープンソース)モデルの採用を提唱している。
アノテーションタスクの2つの例,つぶやきの感情分析,幼児期の経験的エッセイにおけるレジャー活動の同定について述べる。
この研究は、異なるプロンプト戦略とモデル(neural-chat-7b-v3-2, Starling-LM-7B-alpha, openchat_3.5, zephyr-7b-alpha, zephyr-7b-beta)の性能を評価する。
結果は、注意深い検証と調整済みのプロンプトエンジニアリングの必要性を示している。
この研究は、データプライバシと再現性に対するオープンモデルの利点を強調している。
関連論文リスト
- Generative Active Learning for Image Synthesis Personalization [57.01364199734464]
本稿では,伝統的に識別モデルを用いて研究されてきた能動的学習の生成モデルへの応用について検討する。
生成モデル上でアクティブな学習を行う上での最大の課題は、クエリのオープンな性質にある。
問合せ処理を半開問題に変換するために,アンカー方向の概念を導入する。
論文 参考訳(メタデータ) (2024-03-22T06:45:45Z) - Baichuan2-Sum: Instruction Finetune Baichuan2-7B Model for Dialogue Summarization [12.45299260235282]
本稿では,役割指向のダイアグルージュ要約のための命令微調整モデルBaichuan2-Sumを提案する。
異なる役割に対して異なる命令を設定することで、モデルは対話相互作用から学び、期待される要約を出力することができる。
実験により、提案モデルが2つの公開対話要約データセット上で、最先端の新たな結果を達成することを示す。
論文 参考訳(メタデータ) (2024-01-27T20:20:39Z) - Text Summarization Using Large Language Models: A Comparative Study of
MPT-7b-instruct, Falcon-7b-instruct, and OpenAI Chat-GPT Models [0.0]
Leveraging Large Language Models (LLMs) は、要約技術の強化において、顕著な将来性を示している。
本稿では,MPT-7b-instruct,falcon-7b-instruct,OpenAI ChatGPT text-davinci-003 モデルなど,多種多様な LLM を用いたテキスト要約について検討する。
論文 参考訳(メタデータ) (2023-10-16T14:33:02Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - INSTRUCTEVAL: Towards Holistic Evaluation of Instruction-Tuned Large
Language Models [39.46610170563634]
INSTRUCTEVALは、命令調整された大規模言語モデルのために特別に設計された、より包括的な評価スイートである。
我々は,事前学習の基礎,指導指導データ,訓練方法など,モデル性能に影響を与える諸要因を総合的に分析する。
その結果, モデル性能のスケーリングにおいて, 命令データの品質が最も重要な要因であることが判明した。
論文 参考訳(メタデータ) (2023-06-07T20:12:29Z) - Foundation models in brief: A historical, socio-technical focus [2.5991265608180396]
ディープラーニングをスケールアップすることで、将来のAI開発には、ファンデーションモデルが破壊的になる可能性がある。
モデルは自然言語処理やコンピュータビジョンといった分野における様々なタスクにおいて最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-12-17T22:11:33Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Estimating the Personality of White-Box Language Models [0.589889361990138]
大規模なテキストコーパスで訓練された大規模言語モデルは、至る所で広範囲のアプリケーションで使用されている。
既存の研究は、これらのモデルが人間の偏見を捉え、捉えていることを示している。
これらのバイアス、特に害を引き起こす可能性のあるバイアスの多くは、十分に調査されている。
しかし、これらのモデルによって受け継がれた人間の性格特性を推測し、変化させる研究は、ほとんど、あるいは存在しない。
論文 参考訳(メタデータ) (2022-04-25T23:53:53Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - When Can Models Learn From Explanations? A Formal Framework for
Understanding the Roles of Explanation Data [84.87772675171412]
個々のデータポイントの説明がモデリング性能を向上させる状況について検討する。
e-SNLI、TACRED、SemEvalの3つの既存のデータセットを使って説明します。
論文 参考訳(メタデータ) (2021-02-03T18:57:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。