論文の概要: SHROOM-INDElab at SemEval-2024 Task 6: Zero- and Few-Shot LLM-Based Classification for Hallucination Detection
- arxiv url: http://arxiv.org/abs/2404.03732v1
- Date: Thu, 4 Apr 2024 18:01:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-08 17:35:40.884297
- Title: SHROOM-INDElab at SemEval-2024 Task 6: Zero- and Few-Shot LLM-Based Classification for Hallucination Detection
- Title(参考訳): SHROOM-INDElab at SemEval-2024 Task 6: Zero- and Few-Shot LLM based Classification for Hallucination Detection
- Authors: Bradley P. Allen, Fina Polat, Paul Groth,
- Abstract要約: SHROOM-INDElabシステムは、幻覚検出のための分類器を構築するために、プロンプトプログラミングとインコンテキスト学習を使った以前の研究に基づいている。
タスク、役割、ターゲット概念のコンテキスト固有の定義を取り入れ、数発のプロンプトアプローチで使用するためのサンプルの自動生成を通じて、作業を拡張する。
その結果,タスク6のモデル非依存トラックとモデル認識トラックにおいて,第4位と第6位を達成した。
- 参考スコア(独自算出の注目度): 1.3886978730184498
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We describe the University of Amsterdam Intelligent Data Engineering Lab team's entry for the SemEval-2024 Task 6 competition. The SHROOM-INDElab system builds on previous work on using prompt programming and in-context learning with large language models (LLMs) to build classifiers for hallucination detection, and extends that work through the incorporation of context-specific definition of task, role, and target concept, and automated generation of examples for use in a few-shot prompting approach. The resulting system achieved fourth-best and sixth-best performance in the model-agnostic track and model-aware tracks for Task 6, respectively, and evaluation using the validation sets showed that the system's classification decisions were consistent with those of the crowd-sourced human labellers. We further found that a zero-shot approach provided better accuracy than a few-shot approach using automatically generated examples. Code for the system described in this paper is available on Github.
- Abstract(参考訳): 本稿では,アムステルダム大学Intelligent Data Engineering LabのSemEval-2024 Task 6コンペティションへの参加について述べる。
SHROOM-INDElabシステムは、幻覚検出のための分類器を構築するために、大規模な言語モデル(LLM)を用いたプロンプトプログラミングとインコンテキストラーニングを使用して、以前の研究に基づいており、その作業は、タスク、ロール、ターゲット概念のコンテキスト固有の定義の組み入れ、数発のプロンプトアプローチで使用するためのサンプルの自動生成を通じて拡張されている。
その結果,タスク6のモデル非依存トラックとモデル認識トラックでは,それぞれ第4位と第6位を達成し,検証セットを用いた評価の結果,システムの分類決定はクラウドソースの人間ラベルラーと一致していることがわかった。
さらに, ゼロショット法は, 自動生成例を用いた数ショット法よりも精度が高いことがわかった。
本論文で説明したシステムのコードはGithubで公開されている。
関連論文リスト
- SmurfCat at SemEval-2024 Task 6: Leveraging Synthetic Data for Hallucination Detection [51.99159169107426]
本稿では,SemEval-2024幻覚検出タスクのための新しいシステムを提案する。
我々の調査は、モデル予測と基準基準を比較するための様々な戦略にまたがっている。
強力なパフォーマンス指標を示す3つの異なる方法を紹介します。
論文 参考訳(メタデータ) (2024-04-09T09:03:44Z) - AISPACE at SemEval-2024 task 8: A Class-balanced Soft-voting System for Detecting Multi-generator Machine-generated Text [0.0]
SemEval-2024 Task 8は、人書きテキストと機械生成テキストを検出するための課題を提供する。
本稿では,主にSubtask Bを扱うシステムを提案する。
これは、与えられた全文が人間によって書かれたか、あるいは、実際にはマルチクラスのテキスト分類タスクである特定のLarge Language Model (LLM)によって生成されるかを検出することを目的としている。
論文 参考訳(メタデータ) (2024-04-01T06:25:47Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - The Eval4NLP 2023 Shared Task on Prompting Large Language Models as
Explainable Metrics [36.52897053496835]
生成型大規模言語モデル (LLM) は、タスクに関連する最小あるいは全くの例でタスクを解く顕著な能力を示している。
Eval4NLP 2023共有タスクを導入し、参加者に対して機械翻訳(MT)と要約評価のためのプロンプトとスコア抽出について検討する。
本稿では,参加者のアプローチの概要を述べるとともに,MTと要約データセットの3つの言語対にまたがる新しい参照なしテストセットについて評価する。
論文 参考訳(メタデータ) (2023-10-30T17:55:08Z) - IUST_NLP at SemEval-2023 Task 10: Explainable Detecting Sexism with
Transformers and Task-adaptive Pretraining [0.0]
本稿ではSemEval-2023 Task 10: Explainable Detection of Online Sexism (EDOS)について述べる。
本稿では,タスク適応型事前学習とアンサンブル学習を用いたトランスフォーマーに基づく事前学習モデルを提案する。
テストデータセットでは,サブタスクA,B,CのF1スコアが83%,64%,47%であった。
論文 参考訳(メタデータ) (2023-05-11T15:29:04Z) - Large Language Models in the Workplace: A Case Study on Prompt
Engineering for Job Type Classification [58.720142291102135]
本研究では,実環境における職種分類の課題について検討する。
目標は、英語の求職が卒業生やエントリーレベルの地位に適切かどうかを判断することである。
論文 参考訳(メタデータ) (2023-03-13T14:09:53Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - Bias-Eliminated Semantic Refinement for Any-Shot Learning [27.374052527155623]
我々は、任意のショット学習タスクの粗粒度意味記述を洗練する。
セマンティック・リファインメント(セマンティック・リファインメント)のワッサーシュタイン生成逆数ネットワーク(SRWGAN)モデルが設計されている。
6つのベンチマークデータセットでモデル性能を広範囲に評価した。
論文 参考訳(メタデータ) (2022-02-10T04:15:50Z) - CAiRE in DialDoc21: Data Augmentation for Information-Seeking Dialogue
System [55.43871578056878]
DialDoc21コンペティションでは,サブタスク1で74.95 F1スコア,60.74 Exact Matchスコア,サブタスク2で37.72 SacreBLEUスコアを達成した。
論文 参考訳(メタデータ) (2021-06-07T11:40:55Z) - RethinkCWS: Is Chinese Word Segmentation a Solved Task? [81.11161697133095]
中国語の単語(CWS)システムの性能は、ディープニューラルネットワークの急速な発展とともに、徐々に高水準に達している。
本稿では、私たちが達成した事柄の株式を取得し、CWSタスクに残されている事柄を再考する。
論文 参考訳(メタデータ) (2020-11-13T11:07:08Z) - Yseop at SemEval-2020 Task 5: Cascaded BERT Language Model for
Counterfactual Statement Analysis [0.0]
我々は、分類タスクにBERTベースモデルを使用し、シーケンス識別タスクを処理するために、ハイブリッドBERTマルチ層パーセプトロンシステムを構築した。
本実験により, 構文的・意味的特徴の導入は, 分類タスクにおけるシステム改善にはほとんど寄与しないが, それらの特徴を線形入力として用いて, モデルのシーケンス決定能力を微調整することにより, 2次タスクにおいてBiLSTM-CRFのような他の類似の複雑なシステムよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-18T08:19:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。