論文の概要: Rumour Evaluation with Very Large Language Models
- arxiv url: http://arxiv.org/abs/2404.16859v1
- Date: Thu, 11 Apr 2024 19:38:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-05 18:14:01.182476
- Title: Rumour Evaluation with Very Large Language Models
- Title(参考訳): 極大言語モデルを用いたRumour評価
- Authors: Dahlia Shehata, Robin Cohen, Charles Clarke,
- Abstract要約: 本研究は,誤報に対処するために,プロンプトに依存しない大規模言語モデルの進歩を活用することを提案する。
我々は2つのRumourEvalサブタスクを拡張するために2つのプロンプトベースのLLM変種を用いる。
精度予測のために、GPT変種ごとに3つの分類スキームが実験され、各スキームはゼロ、ワンショット、および少数ショット設定で試験される。
スタンス分類では、プロンプトベースのアパッチは先行結果に匹敵する性能を示し、微調整法に比較して改善はない。
- 参考スコア(独自算出の注目度): 2.6861033447765217
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conversational prompt-engineering-based large language models (LLMs) have enabled targeted control over the output creation, enhancing versatility, adaptability and adhoc retrieval. From another perspective, digital misinformation has reached alarming levels. The anonymity, availability and reach of social media offer fertile ground for rumours to propagate. This work proposes to leverage the advancement of prompting-dependent LLMs to combat misinformation by extending the research efforts of the RumourEval task on its Twitter dataset. To the end, we employ two prompting-based LLM variants (GPT-3.5-turbo and GPT-4) to extend the two RumourEval subtasks: (1) veracity prediction, and (2) stance classification. For veracity prediction, three classifications schemes are experimented per GPT variant. Each scheme is tested in zero-, one- and few-shot settings. Our best results outperform the precedent ones by a substantial margin. For stance classification, prompting-based-approaches show comparable performance to prior results, with no improvement over finetuning methods. Rumour stance subtask is also extended beyond the original setting to allow multiclass classification. All of the generated predictions for both subtasks are equipped with confidence scores determining their trustworthiness degree according to the LLM, and post-hoc justifications for explainability and interpretability purposes. Our primary aim is AI for social good.
- Abstract(参考訳): 対話型プロンプトエンジニアリングに基づく大規模言語モデル(LLM)は、出力生成のターゲット制御を可能にし、汎用性、適応性、アドホック検索の強化を実現している。
別の見方では、デジタル誤報は警戒レベルに達している。
匿名性、可用性、ソーシャルメディアのリーチは、噂を広めるための肥大した土台を提供する。
本研究は,RumourEvalタスクの研究成果をTwitterデータセットに拡張することにより,インタプライズ依存型LLMの進化を誤情報対策に活用することを提案する。
最後に,(1)精度予測,(2)姿勢分類という2つのRumourEvalサブタスクを拡張するために,プロンプトベースのLLM変種(GPT-3.5-turboとGPT-4)を用いる。
精度予測のために、3つの分類スキームをGPT変種ごとに実験する。
各スキームはゼロ、ワンショット、および数ショット設定でテストされる。
我々の最良の成果は、前例よりもかなりの差で上回っている。
スタンス分類では、プロンプトベースのアパッチは先行結果に匹敵する性能を示し、微調整法に比較して改善はない。
ルマースタンス・サブタスクは、もともとのセッティングを超えて拡張され、マルチクラス分類が可能である。
両サブタスクで生成された予測はすべて、LCMに従って信頼度を決定する信頼スコアと、説明可能性と解釈可能性のためのポストホックの正当化を備える。
私たちの主な目的は、社会的善のためのAIです。
関連論文リスト
- Heuristic-enhanced Candidates Selection strategy for GPTs tackle Few-Shot Aspect-Based Sentiment Analysis [1.5020330976600738]
本論文は、ヒューリスティック・エンハンスド・候補選択戦略を設計し、それに基づくオール・イン・ワン(AiO)モデルを提案する。
このモデルは2段階で動作し、PLMの精度と一般化の能力を同時に調節する。
実験の結果,提案手法は複数のサブタスクに適応し,GPTを直接利用する手法よりも優れていた。
論文 参考訳(メタデータ) (2024-04-09T07:02:14Z) - Ranking Large Language Models without Ground Truth [24.751931637152524]
大規模言語モデル(LLM)の評価とランキングは,これらのモデルの普及に伴って重要な問題となっている。
我々は、プロンプトのデータセットが与えられた場合、根拠となる真実や参照応答にアクセスせずにそれらをランク付けする、新しい視点を提供する。
この考え方を繰り返し適用し、LLMをランク付けする2つの方法を提案する。
論文 参考訳(メタデータ) (2024-02-21T00:49:43Z) - BOOST: Harnessing Black-Box Control to Boost Commonsense in LMs'
Generation [60.77990074569754]
本稿では,凍結した事前学習言語モデルを,より汎用的な生成に向けて操る,計算効率のよいフレームワークを提案する。
具体的には、まず、文に常識的スコアを割り当てる参照なし評価器を構築する。
次に、スコアラをコモンセンス知識のオラクルとして使用し、NADOと呼ばれる制御可能な生成法を拡張して補助ヘッドを訓練する。
論文 参考訳(メタデータ) (2023-10-25T23:32:12Z) - Making Pre-trained Language Models both Task-solvers and
Self-calibrators [52.98858650625623]
プレトレーニング言語モデル(PLM)は、様々な現実世界のシステムのバックボーンとして機能する。
以前の研究は、余分なキャリブレーションタスクを導入することでこの問題を緩和できることを示している。
課題に対処するためのトレーニングアルゴリズムLM-TOASTを提案する。
論文 参考訳(メタデータ) (2023-07-21T02:51:41Z) - Embroid: Unsupervised Prediction Smoothing Can Improve Few-Shot
Classification [20.85088711770188]
ラベル付きデータを追加せずに即時学習を改善することができることを示す。
組込み関数の異なるデータセットの複数の表現を演算するEmbroidを提案する。
Embroidはオリジナルのプロンプトよりも性能が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2023-07-20T17:07:28Z) - Is ChatGPT Good at Search? Investigating Large Language Models as
Re-Ranking Agents [56.104476412839944]
大規模言語モデル(LLM)は、様々な言語関連タスクにまたがる顕著なゼロショットの一般化を実証している。
本稿では、情報検索(IR)における関連性ランキングのためのジェネレーティブLLMについて検討する。
LLMのデータ汚染に関する懸念に対処するため,我々はNovereEvalという新しいテストセットを収集した。
実世界のアプリケーションの効率を向上させるため、ChatGPTのランキング能力を小さな特殊モデルに蒸留する可能性を探る。
論文 参考訳(メタデータ) (2023-04-19T10:16:03Z) - Prompting as Probing: Using Language Models for Knowledge Base
Construction [1.6050172226234583]
我々は,2020年にOpenAIが提案した大規模言語モデルであるGPT-3を利用したProP(Prompting as Probing)を提案する。
ProPは、様々なプロンプト技術を組み合わせてこれを実現するマルチステップアプローチを実装している。
評価の結果,提案手法は最終的な予測精度を大幅に向上させることが可能であることが示唆された。
論文 参考訳(メタデータ) (2022-08-23T16:03:50Z) - A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。
本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。
提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-04-11T18:31:53Z) - L2R2: Leveraging Ranking for Abductive Reasoning [65.40375542988416]
学習システムの帰納的推論能力を評価するために,帰納的自然言語推論タスク(alpha$NLI)を提案する。
新たな$L2R2$アプローチは、Learning-to-rankフレームワークの下で提案されている。
ARTデータセットの実験は、公開リーダボードの最先端に到達します。
論文 参考訳(メタデータ) (2020-05-22T15:01:23Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。