論文の概要: SHROOM-INDElab at SemEval-2024 Task 6: Zero- and Few-Shot LLM-Based Classification for Hallucination Detection
- arxiv url: http://arxiv.org/abs/2404.03732v1
- Date: Thu, 4 Apr 2024 18:01:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-08 17:35:40.884297
- Title: SHROOM-INDElab at SemEval-2024 Task 6: Zero- and Few-Shot LLM-Based Classification for Hallucination Detection
- Title(参考訳): SHROOM-INDElab at SemEval-2024 Task 6: Zero- and Few-Shot LLM based Classification for Hallucination Detection
- Authors: Bradley P. Allen, Fina Polat, Paul Groth,
- Abstract要約: SHROOM-INDElabシステムは、幻覚検出のための分類器を構築するために、プロンプトプログラミングとインコンテキスト学習を使った以前の研究に基づいている。
タスク、役割、ターゲット概念のコンテキスト固有の定義を取り入れ、数発のプロンプトアプローチで使用するためのサンプルの自動生成を通じて、作業を拡張する。
その結果,タスク6のモデル非依存トラックとモデル認識トラックにおいて,第4位と第6位を達成した。
- 参考スコア(独自算出の注目度): 1.3886978730184498
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We describe the University of Amsterdam Intelligent Data Engineering Lab team's entry for the SemEval-2024 Task 6 competition. The SHROOM-INDElab system builds on previous work on using prompt programming and in-context learning with large language models (LLMs) to build classifiers for hallucination detection, and extends that work through the incorporation of context-specific definition of task, role, and target concept, and automated generation of examples for use in a few-shot prompting approach. The resulting system achieved fourth-best and sixth-best performance in the model-agnostic track and model-aware tracks for Task 6, respectively, and evaluation using the validation sets showed that the system's classification decisions were consistent with those of the crowd-sourced human labellers. We further found that a zero-shot approach provided better accuracy than a few-shot approach using automatically generated examples. Code for the system described in this paper is available on Github.
- Abstract(参考訳): 本稿では,アムステルダム大学Intelligent Data Engineering LabのSemEval-2024 Task 6コンペティションへの参加について述べる。
SHROOM-INDElabシステムは、幻覚検出のための分類器を構築するために、大規模な言語モデル(LLM)を用いたプロンプトプログラミングとインコンテキストラーニングを使用して、以前の研究に基づいており、その作業は、タスク、ロール、ターゲット概念のコンテキスト固有の定義の組み入れ、数発のプロンプトアプローチで使用するためのサンプルの自動生成を通じて拡張されている。
その結果,タスク6のモデル非依存トラックとモデル認識トラックでは,それぞれ第4位と第6位を達成し,検証セットを用いた評価の結果,システムの分類決定はクラウドソースの人間ラベルラーと一致していることがわかった。
さらに, ゼロショット法は, 自動生成例を用いた数ショット法よりも精度が高いことがわかった。
本論文で説明したシステムのコードはGithubで公開されている。
関連論文リスト
- Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark [62.58869921806019]
GPT-4oに基づくタスク分解評価フレームワークを提案し、新しいトレーニングデータセットを自動構築する。
我々は、GPT-4oの評価能力を7BオープンソースMLLM、MiniCPM-V-2.6に効果的に蒸留するための革新的なトレーニング戦略を設計する。
実験結果から,我々の蒸留したオープンソースMLLMは,現在のGPT-4oベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2024-11-23T08:06:06Z) - Instructive Code Retriever: Learn from Large Language Model's Feedback for Code Intelligence Tasks [10.867880635762395]
Instructive Code Retriever (ICR) という新しいアプローチを導入する。
ICRは、さまざまなコードインテリジェンスタスクやデータセットにわたるモデル推論を強化するサンプルを取得するように設計されている。
我々は,コード要約,プログラム合成,バグ修正など,様々なタスクにおけるモデルの有効性を評価する。
論文 参考訳(メタデータ) (2024-10-15T05:44:00Z) - The OCON model: an old but gold solution for distributable supervised classification [0.28675177318965045]
本稿では,教師付き分類タスクに対するワンクラスアプローチとワンクラスネットワークモデルの構造的応用について紹介する。
現在の複雑なアーキテクチャ(90.0~93.7%)に匹敵する分類精度を実現する。
論文 参考訳(メタデータ) (2024-10-05T09:15:01Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - SmurfCat at SemEval-2024 Task 6: Leveraging Synthetic Data for Hallucination Detection [51.99159169107426]
本稿では,SemEval-2024幻覚検出タスクのための新しいシステムを提案する。
我々の調査は、モデル予測と基準基準を比較するための様々な戦略にまたがっている。
強力なパフォーマンス指標を示す3つの異なる方法を紹介します。
論文 参考訳(メタデータ) (2024-04-09T09:03:44Z) - AISPACE at SemEval-2024 task 8: A Class-balanced Soft-voting System for Detecting Multi-generator Machine-generated Text [0.0]
SemEval-2024 Task 8は、人書きテキストと機械生成テキストを検出するための課題を提供する。
本稿では,主にSubtask Bを扱うシステムを提案する。
これは、与えられた全文が人間によって書かれたか、あるいは、実際にはマルチクラスのテキスト分類タスクである特定のLarge Language Model (LLM)によって生成されるかを検出することを目的としている。
論文 参考訳(メタデータ) (2024-04-01T06:25:47Z) - IUST_NLP at SemEval-2023 Task 10: Explainable Detecting Sexism with
Transformers and Task-adaptive Pretraining [0.0]
本稿ではSemEval-2023 Task 10: Explainable Detection of Online Sexism (EDOS)について述べる。
本稿では,タスク適応型事前学習とアンサンブル学習を用いたトランスフォーマーに基づく事前学習モデルを提案する。
テストデータセットでは,サブタスクA,B,CのF1スコアが83%,64%,47%であった。
論文 参考訳(メタデータ) (2023-05-11T15:29:04Z) - Large Language Models in the Workplace: A Case Study on Prompt
Engineering for Job Type Classification [58.720142291102135]
本研究では,実環境における職種分類の課題について検討する。
目標は、英語の求職が卒業生やエントリーレベルの地位に適切かどうかを判断することである。
論文 参考訳(メタデータ) (2023-03-13T14:09:53Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - RethinkCWS: Is Chinese Word Segmentation a Solved Task? [81.11161697133095]
中国語の単語(CWS)システムの性能は、ディープニューラルネットワークの急速な発展とともに、徐々に高水準に達している。
本稿では、私たちが達成した事柄の株式を取得し、CWSタスクに残されている事柄を再考する。
論文 参考訳(メタデータ) (2020-11-13T11:07:08Z) - Yseop at SemEval-2020 Task 5: Cascaded BERT Language Model for
Counterfactual Statement Analysis [0.0]
我々は、分類タスクにBERTベースモデルを使用し、シーケンス識別タスクを処理するために、ハイブリッドBERTマルチ層パーセプトロンシステムを構築した。
本実験により, 構文的・意味的特徴の導入は, 分類タスクにおけるシステム改善にはほとんど寄与しないが, それらの特徴を線形入力として用いて, モデルのシーケンス決定能力を微調整することにより, 2次タスクにおいてBiLSTM-CRFのような他の類似の複雑なシステムよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-18T08:19:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。