論文の概要: SemEval-2024 Shared Task 6: SHROOM, a Shared-task on Hallucinations and Related Observable Overgeneration Mistakes
- arxiv url: http://arxiv.org/abs/2403.07726v3
- Date: Fri, 29 Mar 2024 17:59:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 18:02:49.980039
- Title: SemEval-2024 Shared Task 6: SHROOM, a Shared-task on Hallucinations and Related Observable Overgeneration Mistakes
- Title(参考訳): SemEval-2024 Shared Task 6: SHROOM, Shared-task on Hallucinations and Related Observable Overgeneration misstakes
- Authors: Timothee Mickus, Elaine Zosa, Raúl Vázquez, Teemu Vahtola, Jörg Tiedemann, Vincent Segonne, Alessandro Raganato, Marianna Apidianaki,
- Abstract要約: 本稿では,幻覚検出に焦点をあてた共有タスクであるSHROOMの結果について述べる。
このアプローチをどのように取り組んだかについて、いくつかの重要なトレンドを観察します。
チームの大多数が提案したベースラインシステムより優れていますが、トップスコアシステムのパフォーマンスは依然として、より困難なアイテムのランダムなハンドリングと一致しています。
- 参考スコア(独自算出の注目度): 48.83290963506378
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents the results of the SHROOM, a shared task focused on detecting hallucinations: outputs from natural language generation (NLG) systems that are fluent, yet inaccurate. Such cases of overgeneration put in jeopardy many NLG applications, where correctness is often mission-critical. The shared task was conducted with a newly constructed dataset of 4000 model outputs labeled by 5 annotators each, spanning 3 NLP tasks: machine translation, paraphrase generation and definition modeling. The shared task was tackled by a total of 58 different users grouped in 42 teams, out of which 27 elected to write a system description paper; collectively, they submitted over 300 prediction sets on both tracks of the shared task. We observe a number of key trends in how this approach was tackled -- many participants rely on a handful of model, and often rely either on synthetic data for fine-tuning or zero-shot prompting strategies. While a majority of the teams did outperform our proposed baseline system, the performances of top-scoring systems are still consistent with a random handling of the more challenging items.
- Abstract(参考訳): 本稿では, 自然言語生成システム(NLG)から生成した, 流動的で不正確である幻覚の検出に焦点をあてた共有タスクであるSHROOMの結果について述べる。
オーバージェネレーションのケースは、しばしばミッションクリティカルである多くのNLGアプリケーションに危険を及ぼす。
共有タスクは、機械翻訳、パラフレーズ生成、定義モデリングという3つのNLPタスクにまたがる5つのアノテータによってラベル付けされた4000モデル出力のデータセットを新たに構築した。
共有タスクは、42チームでグループ化された58の異なるユーザによって取り組まれ、そのうち27人がシステム記述紙の執筆に選ばれ、合計で、共有タスクの両トラックに300以上の予測セットが提出された。
多くの参加者は少数のモデルに依存しており、しばしば微調整やゼロショットのプロンプト戦略のために合成データに依存しています。
チームの大多数が提案したベースラインシステムより優れていますが、トップスコアシステムのパフォーマンスは依然として、より困難なアイテムのランダムなハンドリングと一致しています。
関連論文リスト
- Heidelberg-Boston @ SIGTYP 2024 Shared Task: Enhancing Low-Resource Language Analysis With Character-Aware Hierarchical Transformers [2.3020018305241337]
この研究は、13の歴史的言語に対するPoSタグ、形態的タグ付け、および補題化に焦点を当てている。
我々は、Sunなど(2023年)の階層的トークン化手法を適用し、DeBERTa-V3アーキテクチャの利点と組み合わせる。
私たちのモデルは制約付きサブタスクで1位を獲得し、制約のないタスクの勝者のパフォーマンスレベルにほぼ到達しました。
論文 参考訳(メタデータ) (2024-05-30T15:23:34Z) - SHROOM-INDElab at SemEval-2024 Task 6: Zero- and Few-Shot LLM-Based Classification for Hallucination Detection [1.3886978730184498]
SHROOM-INDElabシステムは、幻覚検出のための分類器を構築するために、プロンプトプログラミングとインコンテキスト学習を使った以前の研究に基づいている。
タスク、役割、ターゲット概念のコンテキスト固有の定義を取り入れ、数発のプロンプトアプローチで使用するためのサンプルの自動生成を通じて、作業を拡張する。
その結果,タスク6のモデル非依存トラックとモデル認識トラックにおいて,第4位と第6位を達成した。
論文 参考訳(メタデータ) (2024-04-04T18:01:21Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - The Eval4NLP 2023 Shared Task on Prompting Large Language Models as
Explainable Metrics [36.52897053496835]
生成型大規模言語モデル (LLM) は、タスクに関連する最小あるいは全くの例でタスクを解く顕著な能力を示している。
Eval4NLP 2023共有タスクを導入し、参加者に対して機械翻訳(MT)と要約評価のためのプロンプトとスコア抽出について検討する。
本稿では,参加者のアプローチの概要を述べるとともに,MTと要約データセットの3つの言語対にまたがる新しい参照なしテストセットについて評価する。
論文 参考訳(メタデータ) (2023-10-30T17:55:08Z) - Dynamic-SUPERB: Towards A Dynamic, Collaborative, and Comprehensive Instruction-Tuning Benchmark for Speech [107.81472531864195]
テキスト言語モデルは、よく整形された命令が与えられたときに、目に見えないタスクに一般化する際、顕著なゼロショット能力を示している。
ゼロショット方式で複数のタスクを実行するための命令チューニングを活用できるユニバーサル音声モデルを構築するためのベンチマークであるDynamic-SUPERBを提案する。
論文 参考訳(メタデータ) (2023-09-18T06:43:30Z) - Pushing the Limits of ChatGPT on NLP Tasks [79.17291002710517]
ChatGPTの成功にもかかわらず、ほとんどのNLPタスクのパフォーマンスは教師付きベースラインよりかなり低い。
そこで本研究では,原因を調べた結果,以下の要因が原因であることが判明した。
NLPタスクにおけるChatGPTの限界を押し上げるために,これらの問題に対処する汎用モジュールの集合を提案する。
論文 参考訳(メタデータ) (2023-06-16T09:40:05Z) - Musketeer: Joint Training for Multi-task Vision Language Model with Task Explanation Prompts [75.75548749888029]
本稿では,全てのタスクに対してパラメータを共同で訓練し,複数の異種タスク間で完全に共有する視覚言語モデルを提案する。
単一のモデルで、Musteteerは単一のタスクでトレーニングされた強いベースラインに匹敵する結果を得る。
論文 参考訳(メタデータ) (2023-05-11T17:57:49Z) - Effective Cross-Task Transfer Learning for Explainable Natural Language
Inference with T5 [50.574918785575655]
2つのタスクのパフォーマンス向上という文脈において、逐次微調整とマルチタスク学習のモデルを比較した。
この結果から,2つのタスクのうち,第1のタスクにおいて逐次マルチタスク学習は良好に調整できるが,第2のタスクでは性能が低下し,過度な適合に苦しむことが明らかとなった。
論文 参考訳(メタデータ) (2022-10-31T13:26:08Z) - Nowruz at SemEval-2022 Task 7: Tackling Cloze Tests with Transformers
and Ordinal Regression [1.9078991171384017]
本稿では,チームがSemEval 2022 Task 7に参加したシステムについて概説する。
論文 参考訳(メタデータ) (2022-04-01T16:36:10Z) - SATLab at SemEval-2022 Task 4: Trying to Detect Patronizing and
Condescending Language with only Character and Word N-grams [0.0]
SemEval-2022タスク4において,文字と単語n-gramのみを入力したロジスティック回帰モデルを提案する。
タスクに関する知識を使わずに推測しようとするシステムのパフォーマンスをはるかに上回る平均的なレベルのパフォーマンスを得たが、最高のチームよりもはるかに低い。
論文 参考訳(メタデータ) (2022-03-10T13:09:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。