論文の概要: SemEval-2024 Shared Task 6: SHROOM, a Shared-task on Hallucinations and
Related Observable Overgeneration Mistakes
- arxiv url: http://arxiv.org/abs/2403.07726v1
- Date: Tue, 12 Mar 2024 15:06:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 21:03:31.593712
- Title: SemEval-2024 Shared Task 6: SHROOM, a Shared-task on Hallucinations and
Related Observable Overgeneration Mistakes
- Title(参考訳): semeval-2024 shared task 6: shroom、幻覚と関連する可観測オーバージェネレーションに関する共有タスク
- Authors: Timothee Mickus, Elaine Zosa, Ra\'ul V\'azquez, Teemu Vahtola, J\"org
Tiedemann, Vincent Segonne, Alessandro Raganato, Marianna Apidianaki
- Abstract要約: 本稿では,幻覚検出に焦点をあてた共有タスクであるSHROOMの結果について述べる。
このアプローチをどのように取り組んだかについて、いくつかの重要なトレンドを観察します。
チームの大多数が提案したベースラインシステムより優れていますが、トップスコアシステムのパフォーマンスは依然として、より困難なアイテムのランダムなハンドリングと一致しています。
- 参考スコア(独自算出の注目度): 49.97855996078954
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents the results of the SHROOM, a shared task focused on
detecting hallucinations: outputs from natural language generation (NLG)
systems that are fluent, yet inaccurate. Such cases of overgeneration put in
jeopardy many NLG applications, where correctness is often mission-critical.
The shared task was conducted with a newly constructed dataset of 4000 model
outputs labeled by 5 annotators each, spanning 3 NLP tasks: machine
translation, paraphrase generation and definition modeling.
The shared task was tackled by a total of 58 different users grouped in 42
teams, out of which 27 elected to write a system description paper;
collectively, they submitted over 300 prediction sets on both tracks of the
shared task. We observe a number of key trends in how this approach was tackled
-- many participants rely on a handful of model, and often rely either on
synthetic data for fine-tuning or zero-shot prompting strategies. While a
majority of the teams did outperform our proposed baseline system, the
performances of top-scoring systems are still consistent with a random handling
of the more challenging items.
- Abstract(参考訳): 本稿では,自然言語生成 (nlg) システムからの出力を,不正確で不正確な幻覚の検出に焦点をあてた共有タスクである shroom の結果について述べる。
オーバージェネレーションのケースは、しばしばミッションクリティカルである多くのNLGアプリケーションに危険を及ぼす。
共有タスクは、機械翻訳、パラフレーズ生成、定義モデリングという3つのNLPタスクにまたがる5つのアノテータによってラベル付けされた4000モデル出力のデータセットを新たに構築した。
共有タスクは、42のチームからなる58の異なるユーザによって取り組まれ、そのうち27人がシステム記述の論文を書くように選ばれ、合計で、共有タスクの両トラックに300以上の予測セットを提出した。
多くの参加者は少数のモデルに依存しており、しばしば微調整やゼロショットのプロンプト戦略のために合成データに依存しています。
大部分のチームが提案するベースラインシステムよりも優れていますが、トップスコーリングシステムのパフォーマンスは、より困難な項目のランダムな処理といまだに一致しています。
関連論文リスト
- MALTO at SemEval-2024 Task 6: Leveraging Synthetic Data for LLM
Hallucination Detection [3.049887057143419]
自然言語生成(NLG)では、現代のLarge Language Models(LLM)がいくつかの課題に直面している。
これはしばしば「幻覚」を示すニューラルネットワークにつながる
SHROOMチャレンジは、生成されたテキストでこれらの幻覚を自動的に識別することに焦点を当てている。
論文 参考訳(メタデータ) (2024-03-01T20:31:10Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - The Eval4NLP 2023 Shared Task on Prompting Large Language Models as
Explainable Metrics [36.52897053496835]
生成型大規模言語モデル (LLM) は、タスクに関連する最小あるいは全くの例でタスクを解く顕著な能力を示している。
Eval4NLP 2023共有タスクを導入し、参加者に対して機械翻訳(MT)と要約評価のためのプロンプトとスコア抽出について検討する。
本稿では,参加者のアプローチの概要を述べるとともに,MTと要約データセットの3つの言語対にまたがる新しい参照なしテストセットについて評価する。
論文 参考訳(メタデータ) (2023-10-30T17:55:08Z) - BLP-2023 Task 2: Sentiment Analysis [7.725694295666573]
本稿では,第1回BLP2023ワークショップの一環として編成されたBLP知覚共有タスクの概要を紹介する。
このタスクは、ソーシャルメディアのテキストの特定の部分における感情の検出として定義される。
本稿では,データセット開発と評価設定を含むタスク設定の詳細な説明を行う。
論文 参考訳(メタデータ) (2023-10-24T21:00:41Z) - UniverSLU: Universal Spoken Language Understanding for Diverse
Classification and Sequence Generation Tasks with a Single Network [57.94075999363722]
我々は様々な音声言語理解タスクを共同で行うモデルを構築した。
個別のプロンプトとして様々なタスクやデータセットの仕様化を行う。
その結果、UniverSLUは競争性能を達成し、タスク固有のモデルを超えていることがわかった。
論文 参考訳(メタデータ) (2023-10-04T17:10:23Z) - Pushing the Limits of ChatGPT on NLP Tasks [79.17291002710517]
ChatGPTの成功にもかかわらず、ほとんどのNLPタスクのパフォーマンスは教師付きベースラインよりかなり低い。
そこで本研究では,原因を調べた結果,以下の要因が原因であることが判明した。
NLPタスクにおけるChatGPTの限界を押し上げるために,これらの問題に対処する汎用モジュールの集合を提案する。
論文 参考訳(メタデータ) (2023-06-16T09:40:05Z) - USB: A Unified Summarization Benchmark Across Tasks and Domains [68.82726887802856]
ウィキペディア由来のベンチマークを導入し、クラウドソースアノテーションの豊富なセットを補完し、8ドルの相互関連タスクをサポートする。
このベンチマークで様々な手法を比較し、複数のタスクにおいて、中程度の大きさの微調整されたモデルが、より大きな数発の言語モデルよりも一貫して優れていることを発見した。
論文 参考訳(メタデータ) (2023-05-23T17:39:54Z) - Effective Cross-Task Transfer Learning for Explainable Natural Language
Inference with T5 [50.574918785575655]
2つのタスクのパフォーマンス向上という文脈において、逐次微調整とマルチタスク学習のモデルを比較した。
この結果から,2つのタスクのうち,第1のタスクにおいて逐次マルチタスク学習は良好に調整できるが,第2のタスクでは性能が低下し,過度な適合に苦しむことが明らかとなった。
論文 参考訳(メタデータ) (2022-10-31T13:26:08Z) - Nowruz at SemEval-2022 Task 7: Tackling Cloze Tests with Transformers
and Ordinal Regression [1.9078991171384017]
本稿では,チームがSemEval 2022 Task 7に参加したシステムについて概説する。
論文 参考訳(メタデータ) (2022-04-01T16:36:10Z) - SATLab at SemEval-2022 Task 4: Trying to Detect Patronizing and
Condescending Language with only Character and Word N-grams [0.0]
SemEval-2022タスク4において,文字と単語n-gramのみを入力したロジスティック回帰モデルを提案する。
タスクに関する知識を使わずに推測しようとするシステムのパフォーマンスをはるかに上回る平均的なレベルのパフォーマンスを得たが、最高のチームよりもはるかに低い。
論文 参考訳(メタデータ) (2022-03-10T13:09:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。