Fugu-MT 論文翻訳(概要): SemEval-2024 Shared Task 6: SHROOM, a Shared-task on Hallucinations and Related Observable Overgeneration Mistakes

論文の概要: SemEval-2024 Shared Task 6: SHROOM, a Shared-task on Hallucinations and Related Observable Overgeneration Mistakes

arxiv url: http://arxiv.org/abs/2403.07726v1
Date: Tue, 12 Mar 2024 15:06:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-13 21:03:31.593712
Title: SemEval-2024 Shared Task 6: SHROOM, a Shared-task on Hallucinations and Related Observable Overgeneration Mistakes
Title（参考訳）: semeval-2024 shared task 6: shroom、幻覚と関連する可観測オーバージェネレーションに関する共有タスク
Authors: Timothee Mickus, Elaine Zosa, Ra\'ul V\'azquez, Teemu Vahtola, J\"org Tiedemann, Vincent Segonne, Alessandro Raganato, Marianna Apidianaki
Abstract要約: 本稿では,幻覚検出に焦点をあてた共有タスクであるSHROOMの結果について述べる。このアプローチをどのように取り組んだかについて、いくつかの重要なトレンドを観察します。チームの大多数が提案したベースラインシステムより優れていますが、トップスコアシステムのパフォーマンスは依然として、より困難なアイテムのランダムなハンドリングと一致しています。
参考スコア（独自算出の注目度）: 49.97855996078954
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper presents the results of the SHROOM, a shared task focused on detecting hallucinations: outputs from natural language generation (NLG) systems that are fluent, yet inaccurate. Such cases of overgeneration put in jeopardy many NLG applications, where correctness is often mission-critical. The shared task was conducted with a newly constructed dataset of 4000 model outputs labeled by 5 annotators each, spanning 3 NLP tasks: machine translation, paraphrase generation and definition modeling. The shared task was tackled by a total of 58 different users grouped in 42 teams, out of which 27 elected to write a system description paper; collectively, they submitted over 300 prediction sets on both tracks of the shared task. We observe a number of key trends in how this approach was tackled -- many participants rely on a handful of model, and often rely either on synthetic data for fine-tuning or zero-shot prompting strategies. While a majority of the teams did outperform our proposed baseline system, the performances of top-scoring systems are still consistent with a random handling of the more challenging items.
Abstract（参考訳）: 本稿では,自然言語生成 (nlg) システムからの出力を,不正確で不正確な幻覚の検出に焦点をあてた共有タスクである shroom の結果について述べる。オーバージェネレーションのケースは、しばしばミッションクリティカルである多くのNLGアプリケーションに危険を及ぼす。共有タスクは、機械翻訳、パラフレーズ生成、定義モデリングという3つのNLPタスクにまたがる5つのアノテータによってラベル付けされた4000モデル出力のデータセットを新たに構築した。共有タスクは、42のチームからなる58の異なるユーザによって取り組まれ、そのうち27人がシステム記述の論文を書くように選ばれ、合計で、共有タスクの両トラックに300以上の予測セットを提出した。多くの参加者は少数のモデルに依存しており、しばしば微調整やゼロショットのプロンプト戦略のために合成データに依存しています。大部分のチームが提案するベースラインシステムよりも優れていますが、トップスコーリングシステムのパフォーマンスは、より困難な項目のランダムな処理といまだに一致しています。

関連論文リスト

The Avengers: A Simple Recipe for Uniting Smaller Language Models to Challenge Proprietary Giants [66.6636608563034]
より小さなモデルの集合的知性を活用するシンプルなレシピであるAvengersを紹介します。 10のオープンソースモデルで、Avengersは15の多様なデータセットの平均パフォーマンスをGPT-4o、4.1、4.5を上回っている。特に数学タスクでは GPT-4.1 を 18.21% 、コードタスクでは 7.46% で上回っている。
論文参考訳（メタデータ） (2025-05-26T10:29:42Z)
SemEval-2025 Task 7: Multilingual and Crosslingual Fact-Checked Claim Retrieval [29.85035370846946]
オンラインの偽情報の普及は世界的な課題であり、機械学習は潜在的な解決策として広く研究されてきた。このギャップに対処するため,SemEval 2025において多言語クレーム検索の共有タスクを行った。両サブトラックにまたがる最良性能システムと、最も一般的かつ最も効果的なアプローチについて報告する。
論文参考訳（メタデータ） (2025-05-15T23:04:46Z)
SemEval-2025 Task 3: Mu-SHROOM, the Multilingual Shared Task on Hallucinations and Related Observable Overgeneration Mistakes [72.61348252096413]
そこで本研究では,M Mu-SHROOM共有タスクを提案する。このタスクは,命令調整型大規模言語モデル(LLM)の出力における幻覚やその他の過剰生成ミスの検出に重点を置いている。 Mu-SHROOMは14言語で汎用LLMに対処し、幻覚検出問題をスパンラベルタスクとしてフレーム化する。私たちは43の参加チームから2,618件の提出を受けました。
論文参考訳（メタデータ） (2025-04-16T11:15:26Z)
Heidelberg-Boston @ SIGTYP 2024 Shared Task: Enhancing Low-Resource Language Analysis With Character-Aware Hierarchical Transformers [2.3020018305241337]
この研究は、13の歴史的言語に対するPoSタグ、形態的タグ付け、および補題化に焦点を当てている。我々は、Sunなど(2023年)の階層的トークン化手法を適用し、DeBERTa-V3アーキテクチャの利点と組み合わせる。私たちのモデルは制約付きサブタスクで1位を獲得し、制約のないタスクの勝者のパフォーマンスレベルにほぼ到達しました。
論文参考訳（メタデータ） (2024-05-30T15:23:34Z)
SHROOM-INDElab at SemEval-2024 Task 6: Zero- and Few-Shot LLM-Based Classification for Hallucination Detection [1.3886978730184498]
SHROOM-INDElabシステムは、幻覚検出のための分類器を構築するために、プロンプトプログラミングとインコンテキスト学習を使った以前の研究に基づいている。タスク、役割、ターゲット概念のコンテキスト固有の定義を取り入れ、数発のプロンプトアプローチで使用するためのサンプルの自動生成を通じて、作業を拡張する。その結果,タスク6のモデル非依存トラックとモデル認識トラックにおいて,第4位と第6位を達成した。
論文参考訳（メタデータ） (2024-04-04T18:01:21Z)
Interactive Planning Using Large Language Models for Partially Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。 LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文参考訳（メタデータ） (2023-12-11T22:54:44Z)
The Eval4NLP 2023 Shared Task on Prompting Large Language Models as Explainable Metrics [36.52897053496835]
生成型大規模言語モデル (LLM) は、タスクに関連する最小あるいは全くの例でタスクを解く顕著な能力を示している。 Eval4NLP 2023共有タスクを導入し、参加者に対して機械翻訳(MT)と要約評価のためのプロンプトとスコア抽出について検討する。本稿では,参加者のアプローチの概要を述べるとともに,MTと要約データセットの3つの言語対にまたがる新しい参照なしテストセットについて評価する。
論文参考訳（メタデータ） (2023-10-30T17:55:08Z)
Dynamic-SUPERB: Towards A Dynamic, Collaborative, and Comprehensive Instruction-Tuning Benchmark for Speech [107.81472531864195]
テキスト言語モデルは、よく整形された命令が与えられたときに、目に見えないタスクに一般化する際、顕著なゼロショット能力を示している。ゼロショット方式で複数のタスクを実行するための命令チューニングを活用できるユニバーサル音声モデルを構築するためのベンチマークであるDynamic-SUPERBを提案する。
論文参考訳（メタデータ） (2023-09-18T06:43:30Z)
Pushing the Limits of ChatGPT on NLP Tasks [79.17291002710517]
ChatGPTの成功にもかかわらず、ほとんどのNLPタスクのパフォーマンスは教師付きベースラインよりかなり低い。そこで本研究では,原因を調べた結果,以下の要因が原因であることが判明した。 NLPタスクにおけるChatGPTの限界を押し上げるために,これらの問題に対処する汎用モジュールの集合を提案する。
論文参考訳（メタデータ） (2023-06-16T09:40:05Z)
Musketeer: Joint Training for Multi-task Vision Language Model with Task Explanation Prompts [75.75548749888029]
本稿では,全てのタスクに対してパラメータを共同で訓練し,複数の異種タスク間で完全に共有する視覚言語モデルを提案する。単一のモデルで、Musteteerは単一のタスクでトレーニングされた強いベースラインに匹敵する結果を得る。
論文参考訳（メタデータ） (2023-05-11T17:57:49Z)
Effective Cross-Task Transfer Learning for Explainable Natural Language Inference with T5 [50.574918785575655]
2つのタスクのパフォーマンス向上という文脈において、逐次微調整とマルチタスク学習のモデルを比較した。この結果から,2つのタスクのうち,第1のタスクにおいて逐次マルチタスク学習は良好に調整できるが,第2のタスクでは性能が低下し,過度な適合に苦しむことが明らかとなった。
論文参考訳（メタデータ） (2022-10-31T13:26:08Z)
Nowruz at SemEval-2022 Task 7: Tackling Cloze Tests with Transformers and Ordinal Regression [1.9078991171384017]
本稿では,チームがSemEval 2022 Task 7に参加したシステムについて概説する。
論文参考訳（メタデータ） (2022-04-01T16:36:10Z)
SATLab at SemEval-2022 Task 4: Trying to Detect Patronizing and Condescending Language with only Character and Word N-grams [0.0]
SemEval-2022タスク4において,文字と単語n-gramのみを入力したロジスティック回帰モデルを提案する。タスクに関する知識を使わずに推測しようとするシステムのパフォーマンスをはるかに上回る平均的なレベルのパフォーマンスを得たが、最高のチームよりもはるかに低い。
論文参考訳（メタデータ） (2022-03-10T13:09:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。