論文の概要: Benchmarking zero-shot stance detection with FlanT5-XXL: Insights from
training data, prompting, and decoding strategies into its near-SoTA
performance
- arxiv url: http://arxiv.org/abs/2403.00236v1
- Date: Fri, 1 Mar 2024 02:33:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 18:24:58.145370
- Title: Benchmarking zero-shot stance detection with FlanT5-XXL: Insights from
training data, prompting, and decoding strategies into its near-SoTA
performance
- Title(参考訳): FlanT5-XXLによるゼロショットスタンス検出のベンチマーク:トレーニングデータ、プロンプト、デコード戦略からSoTAに近いパフォーマンスへの洞察
- Authors: Rachith Aiyappa, Shruthi Senthilmani, Jisun An, Haewoon Kwak,
Yong-Yeol Ahn
- Abstract要約: 我々は、SemEval 2016 Tasks 6A, 6B, P-Stanceデータセットを備えた、命令調整のオープンソースLLMであるFlanT5-XXLを使用している。
ゼロショットアプローチは、微調整されたモデルを含む最先端のベンチマークと一致し、性能が良くなることを示す。
- 参考スコア(独自算出の注目度): 7.036744911062111
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate the performance of LLM-based zero-shot stance detection on
tweets. Using FlanT5-XXL, an instruction-tuned open-source LLM, with the
SemEval 2016 Tasks 6A, 6B, and P-Stance datasets, we study the performance and
its variations under different prompts and decoding strategies, as well as the
potential biases of the model. We show that the zero-shot approach can match or
outperform state-of-the-art benchmarks, including fine-tuned models. We provide
various insights into its performance including the sensitivity to instructions
and prompts, the decoding strategies, the perplexity of the prompts, and to
negations and oppositions present in prompts. Finally, we ensure that the LLM
has not been trained on test datasets, and identify a positivity bias which may
partially explain the performance differences across decoding strategie
- Abstract(参考訳): ツイートにおけるLDMに基づくゼロショット位置検出の性能について検討する。
SemEval 2016 Tasks 6A, 6B, P-Stance データセットを用いた, 命令調整型オープンソース LLM である FlanT5-XXL を用いて, 異なるプロンプトおよびデコード戦略の下での性能とその変動, およびモデルの潜在的なバイアスについて検討した。
ゼロショットアプローチは、微調整されたモデルを含む最先端のベンチマークと一致または性能が良くなることを示す。
我々は,指示やプロンプトに対する感受性,デコード戦略,プロンプトの複雑度,プロンプトに存在する否定や反対点など,パフォーマンスに関するさまざまな洞察を提供する。
最後に、LLMがテストデータセットでトレーニングされていないことを保証し、デコード戦略間の性能差を部分的に説明できる肯定バイアスを特定する。
関連論文リスト
- Metric-aware LLM inference for regression and scoring [52.764328080398805]
大規模言語モデル(LLM)は、様々なNLPタスクに対して強い結果を示してきた。
我々は,この推論戦略が,様々な回帰・スコアリングタスクや関連する評価指標に最適であることを示す。
我々は、カスタム回帰を最適化し、推定時にメトリクスをスコアリングする決定論的アプローチである、意識的距離 LLM 推論を提案する。
論文 参考訳(メタデータ) (2024-03-07T03:24:34Z) - Zero-Shot Chain-of-Thought Reasoning Guided by Evolutionary Algorithms
in Large Language Models [11.967815199202203]
大規模言語モデル(LLM)は、ゼロショット・チェーン・オブ・ソート(CoT)のプロンプトを適用することで、様々なタスクにまたがる顕著なパフォーマンスを示している。
既存のゼロショットCoTプロンプトメソッドは、すべてのタスクインスタンスに対して同じCoTプロンプトを使用するのが最適ではないかもしれない。
進化的アルゴリズムを利用してLLMの多様なプロンプトを動的に生成するゼロショットプロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-02-08T03:17:38Z) - Misconfidence-based Demonstration Selection for LLM In-Context Learning [0.0]
大規模言語モデル(LLM)を用いたインコンテキスト学習は、様々なタスクに迅速に適応する上で優れている。
この問題に対する現在のアプローチは、難易度の高い外部監視に依存するか、LLMとの頻繁な相互作用を必要とするかのいずれかである。
In-Context Reflection (ICR) と呼ばれる新しい手法を提案し、これらの課題を克服する。
論文 参考訳(メタデータ) (2024-01-12T00:11:24Z) - Speak Like a Native: Prompting Large Language Models in a Native Style [53.84738665918496]
In-context Learning (ICL) with large language model (LLMs) は、多くの自然言語処理タスクにおいて近代的なツールとなっている。
本稿では, LLMの推論能力を向上させるために, textbfAlignedCoT という新しい効果的手法を提案する。
数学的質問答え、常識的推論、テキスト理解に関するいくつかのベンチマークにおいて、広範囲かつ包括的な実験を行う。
論文 参考訳(メタデータ) (2023-11-22T17:24:21Z) - Investigating Data Contamination in Modern Benchmarks for Large Language Models [27.479260572913724]
近年の観測は、膨らませたベンチマークスコアとLLMの実際の性能の相違を裏付けている。
我々は,オープンソースのLLMとプロプライエタリなLLMの両方に適した2つの手法を提案し,データ汚染について検討した。
いくつかの商用LCMは、様々なテストセットに欠けているオプションを驚くほど推測できる。
論文 参考訳(メタデータ) (2023-11-16T11:03:04Z) - Benchmarking Generation and Evaluation Capabilities of Large Language
Models for Instruction Controllable Summarization [136.18825814573208]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。
本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文 参考訳(メタデータ) (2023-11-15T18:25:26Z) - Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning [79.32236399694077]
トレーニングセットの低品質データは、通常、チューニングのチューニングに有害である。
我々は「反射チューニング」と呼ばれる新しい手法を提案する。
このアプローチでは、オラクルLSMを使用して、データ内の命令や応答の質を検査し、向上することで、元のトレーニングデータをリサイクルする。
論文 参考訳(メタデータ) (2023-10-18T05:13:47Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。