論文の概要: Do we still need Human Annotators? Prompting Large Language Models for Aspect Sentiment Quad Prediction
- arxiv url: http://arxiv.org/abs/2502.13044v1
- Date: Tue, 18 Feb 2025 16:56:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:02:35.010437
- Title: Do we still need Human Annotators? Prompting Large Language Models for Aspect Sentiment Quad Prediction
- Title(参考訳): 人間のアノテーションはまだ必要か? 知覚四分法予測のための大規模言語モデルの提案
- Authors: Nils Constantin Hellwig, Jakob Fehle, Udo Kruschwitz, Christian Wolff,
- Abstract要約: 本稿では,ASQPタスクにおけるゼロおよび少数ショット学習のための大規模言語モデルの能力について検討する。
F1スコアは最先端の微調整モデルよりわずかに低いが,従来報告されていたゼロショットと少数ショットのパフォーマンスを上回っている。
- 参考スコア(独自算出の注目度): 2.2999148299770047
- License:
- Abstract: Aspect sentiment quadruple prediction (ASQP) facilitates a detailed understanding of opinions expressed in a text by identifying the opinion term, aspect term, aspect category and sentiment polarity for each opinion. However, annotating a full set of training examples to fine-tune models for ASQP is a resource-intensive process. In this study, we explore the capabilities of large language models (LLMs) for zero- and few-shot learning on the ASQP task across five diverse datasets. We report F1 scores slightly below those obtained with state-of-the-art fine-tuned models but exceeding previously reported zero- and few-shot performance. In the 40-shot setting on the Rest16 restaurant domain dataset, LLMs achieved an F1 score of 52.46, compared to 60.39 by the best-performing fine-tuned method MVP. Additionally, we report the performance of LLMs in target aspect sentiment detection (TASD), where the F1 scores were also close to fine-tuned models, achieving 66.03 on Rest16 in the 40-shot setting, compared to 72.76 with MVP. While human annotators remain essential for achieving optimal performance, LLMs can reduce the need for extensive manual annotation in ASQP tasks.
- Abstract(参考訳): Aspect sentiment quadruple Prediction (ASQP) は、各意見に対する意見項、アスペクト項、アスペクトカテゴリー、感情極性を特定することによって、テキストで表される意見の詳細な理解を促進する。
しかし、ASQPのファインチューンモデルにトレーニング例の完全なセットをアノテートすることは、リソース集約的なプロセスである。
本研究では,5つの多種多様なデータセットを対象としたASQPタスクにおいて,ゼロおよび少数ショット学習のための大規模言語モデル(LLM)の機能について検討する。
F1スコアは最先端の微調整モデルよりわずかに低いが,従来報告されていたゼロショットと少数ショットのパフォーマンスを上回っている。
Rest16レストランのドメインデータセットの40ショット設定では、LDMはF1スコアが52.46で、最高パフォーマンスの精巧なMVPでは60.39だった。
さらに,ターゲットアスペクト感情検出(TASD)におけるLLMの性能を報告し,F1スコアは細調整モデルに近く,Rest16では66.03,MVPでは72.76であった。
ヒトのアノテータは最適なパフォーマンスを達成するのに必須であるが、LSMはASQPタスクにおける広範囲な手動アノテーションの必要性を減らすことができる。
関連論文リスト
- Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。
我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。
GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z) - Low-resource classification of mobility functioning information in
clinical sentences using large language models [0.0]
本研究は,臨床ノートから機能的情報の存在を正確に識別する,公開可能な大規模言語モデル(LLM)の能力を評価するものである。
我々は,n2c2臨床ノートから算出したモビリティNERデータセットから,1000文のバランスの取れたバイナリ分類データセットを収集した。
論文 参考訳(メタデータ) (2023-12-15T20:59:17Z) - Large language models for aspect-based sentiment analysis [0.0]
GPT-4 と GPT-3.5 の性能をゼロショット, 少ないショット, 微調整で評価した。
微調整 GPT-3.5 は、共同アスペクト項抽出と極性分類タスクにおいて最先端の F1 スコア 83.8 を達成する。
論文 参考訳(メタデータ) (2023-10-27T10:03:21Z) - Exploring Small Language Models with Prompt-Learning Paradigm for
Efficient Domain-Specific Text Classification [2.410463233396231]
小型言語モデル(SLM)は、ドメイン固有のタスクに対して、大幅なカスタマイズ性、適応性、コスト効率を提供する。
プロンプトベースのモデル微調整が可能となる場合、T5ベースは220Mパラメータを持つ典型的なSLMであり、ラベル付きデータで約75%の精度が得られる。
固定モデルを用いたゼロショット設定では、約154Bのパラメータを備えたGPT-3.5-turboが55.16%の精度を持つにもかかわらず、よく設計されたプロンプトのパワーが明らかになるという重要な観察結果が得られた。
論文 参考訳(メタデータ) (2023-09-26T09:24:46Z) - LIMA: Less Is More for Alignment [112.93890201395477]
65B パラメータ LLaMa 言語モデル LIMA のトレーニングを行う。
LIMAは、非常に強力なパフォーマンスを示し、少数の例から特定のレスポンスフォーマットに従うことを学ぶ。
制御されたヒトの研究では、LIMAからの反応は43%の症例において、GPT-4に等しいか、厳格に好まれる。
論文 参考訳(メタデータ) (2023-05-18T17:45:22Z) - Text Classification via Large Language Models [63.1874290788797]
テキスト分類に関わる複雑な言語現象に対処するために、Clue And Reasoning Prompting (CARP)を導入する。
注目すべきは、CARPが5つの広く使用されているテキスト分類ベンチマークのうち4つで新しいSOTAパフォーマンスを得ることだ。
さらに重要なのは、CARPが低リソースとドメイン適応のセットアップで素晴らしい能力を提供します。
論文 参考訳(メタデータ) (2023-05-15T06:24:45Z) - Scaling Instruction-Finetuned Language Models [126.4789306516927]
命令として表現されたデータセットの集合上での言語モデルの微調整は、モデル性能を改善することが示されている。
命令の微調整により,様々なモデルクラスの性能が劇的に向上することがわかった。
論文 参考訳(メタデータ) (2022-10-20T16:58:32Z) - Few-shot Instruction Prompts for Pretrained Language Models to Detect
Social Biases [55.45617404586874]
我々は、事前訓練された言語モデル(LM)を誘導する数ショットの命令ベース手法を提案する。
大規模なLMは、微調整モデルとよく似た精度で、異なる種類の細粒度バイアスを検出できることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:19:52Z) - FewshotQA: A simple framework for few-shot learning of question
answering tasks using pre-trained text-to-text models [0.0]
現在の最先端の事前訓練モデルでは、良い結果を得るためには、何万ものサンプルを微調整する必要がある。
本稿では,事前学習したテキスト・テキスト・モデルを利用した簡易な微調整フレームワークを提案する。
我々のモデルでは、XLM-Roberta-largeを最大40F1ポイント、平均33F1ポイントで上回ります。
論文 参考訳(メタデータ) (2021-09-04T23:08:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。