論文の概要: Benchmarking zero-shot stance detection with FlanT5-XXL: Insights from
training data, prompting, and decoding strategies into its near-SoTA
performance
- arxiv url: http://arxiv.org/abs/2403.00236v1
- Date: Fri, 1 Mar 2024 02:33:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 18:24:58.145370
- Title: Benchmarking zero-shot stance detection with FlanT5-XXL: Insights from
training data, prompting, and decoding strategies into its near-SoTA
performance
- Title(参考訳): FlanT5-XXLによるゼロショットスタンス検出のベンチマーク:トレーニングデータ、プロンプト、デコード戦略からSoTAに近いパフォーマンスへの洞察
- Authors: Rachith Aiyappa, Shruthi Senthilmani, Jisun An, Haewoon Kwak,
Yong-Yeol Ahn
- Abstract要約: 我々は、SemEval 2016 Tasks 6A, 6B, P-Stanceデータセットを備えた、命令調整のオープンソースLLMであるFlanT5-XXLを使用している。
ゼロショットアプローチは、微調整されたモデルを含む最先端のベンチマークと一致し、性能が良くなることを示す。
- 参考スコア(独自算出の注目度): 7.036744911062111
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate the performance of LLM-based zero-shot stance detection on
tweets. Using FlanT5-XXL, an instruction-tuned open-source LLM, with the
SemEval 2016 Tasks 6A, 6B, and P-Stance datasets, we study the performance and
its variations under different prompts and decoding strategies, as well as the
potential biases of the model. We show that the zero-shot approach can match or
outperform state-of-the-art benchmarks, including fine-tuned models. We provide
various insights into its performance including the sensitivity to instructions
and prompts, the decoding strategies, the perplexity of the prompts, and to
negations and oppositions present in prompts. Finally, we ensure that the LLM
has not been trained on test datasets, and identify a positivity bias which may
partially explain the performance differences across decoding strategie
- Abstract(参考訳): ツイートにおけるLDMに基づくゼロショット位置検出の性能について検討する。
SemEval 2016 Tasks 6A, 6B, P-Stance データセットを用いた, 命令調整型オープンソース LLM である FlanT5-XXL を用いて, 異なるプロンプトおよびデコード戦略の下での性能とその変動, およびモデルの潜在的なバイアスについて検討した。
ゼロショットアプローチは、微調整されたモデルを含む最先端のベンチマークと一致または性能が良くなることを示す。
我々は,指示やプロンプトに対する感受性,デコード戦略,プロンプトの複雑度,プロンプトに存在する否定や反対点など,パフォーマンスに関するさまざまな洞察を提供する。
最後に、LLMがテストデータセットでトレーニングされていないことを保証し、デコード戦略間の性能差を部分的に説明できる肯定バイアスを特定する。
関連論文リスト
- Exploring Large Language Models for Product Attribute Value Identification [25.890927969633196]
製品属性値識別(PAVI)は、製品情報から属性とその値を自動的に識別する。
既存の手法は、BARTやT5のような微調整済みの言語モデルに依存している。
本稿では, LLaMA や Mistral などの大規模言語モデル (LLM) をデータ効率・ロバストなPAVI 代替品として検討する。
論文 参考訳(メタデータ) (2024-09-19T12:09:33Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Misconfidence-based Demonstration Selection for LLM In-Context Learning [0.0]
大規模言語モデル(LLM)を用いたインコンテキスト学習は、様々なタスクに迅速に適応する上で優れている。
この問題に対する現在のアプローチは、難易度の高い外部監視に依存するか、LLMとの頻繁な相互作用を必要とするかのいずれかである。
In-Context Reflection (ICR) と呼ばれる新しい手法を提案し、これらの課題を克服する。
論文 参考訳(メタデータ) (2024-01-12T00:11:24Z) - Investigating Data Contamination in Modern Benchmarks for Large Language Models [27.479260572913724]
近年の観測は、膨らませたベンチマークスコアとLLMの実際の性能の相違を裏付けている。
我々は,オープンソースのLLMとプロプライエタリなLLMの両方に適した2つの手法を提案し,データ汚染について検討した。
いくつかの商用LCMは、様々なテストセットに欠けているオプションを驚くほど推測できる。
論文 参考訳(メタデータ) (2023-11-16T11:03:04Z) - Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization [132.25202059478065]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。
本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文 参考訳(メタデータ) (2023-11-15T18:25:26Z) - Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning [79.32236399694077]
トレーニングセットの低品質データは、通常、チューニングのチューニングに有害である。
我々は「反射チューニング」と呼ばれる新しい手法を提案する。
このアプローチでは、オラクルLSMを使用して、データ内の命令や応答の質を検査し、向上することで、元のトレーニングデータをリサイクルする。
論文 参考訳(メタデータ) (2023-10-18T05:13:47Z) - LLMRec: Benchmarking Large Language Models on Recommendation Task [54.48899723591296]
推奨領域におけるLarge Language Models (LLMs) の適用について, 十分に検討されていない。
我々は、評価予測、シーケンシャルレコメンデーション、直接レコメンデーション、説明生成、レビュー要約を含む5つのレコメンデーションタスクにおいて、市販のLLMをベンチマークする。
ベンチマークの結果,LLMは逐次的・直接的推薦といった精度に基づくタスクにおいて適度な熟練度しか示さないことがわかった。
論文 参考訳(メタデータ) (2023-08-23T16:32:54Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。