論文の概要: SemEval-2022 Task 7: Identifying Plausible Clarifications of Implicit
and Underspecified Phrases in Instructional Texts
- arxiv url: http://arxiv.org/abs/2309.12102v1
- Date: Thu, 21 Sep 2023 14:19:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 14:56:29.591402
- Title: SemEval-2022 Task 7: Identifying Plausible Clarifications of Implicit
and Underspecified Phrases in Instructional Texts
- Title(参考訳): semeval-2022タスク7 : 授業テキストにおける暗黙的・過明な句の明確化
- Authors: Michael Roth, Talita Anthonio, Anna Sauer
- Abstract要約: 本稿では,SemEval-2022 Task 7について述べる。
本課題のデータセットは手作業によるハウツーガイドの明確化からなり,その代替的明確化と人体可視性判定の収集を行った。
参加システムの課題は,各文脈における明確化の妥当性を自動決定することであった。
- 参考スコア(独自算出の注目度): 1.3586926359715774
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We describe SemEval-2022 Task 7, a shared task on rating the plausibility of
clarifications in instructional texts. The dataset for this task consists of
manually clarified how-to guides for which we generated alternative
clarifications and collected human plausibility judgements. The task of
participating systems was to automatically determine the plausibility of a
clarification in the respective context. In total, 21 participants took part in
this task, with the best system achieving an accuracy of 68.9%. This report
summarizes the results and findings from 8 teams and their system descriptions.
Finally, we show in an additional evaluation that predictions by the top
participating team make it possible to identify contexts with multiple
plausible clarifications with an accuracy of 75.2%.
- Abstract(参考訳): 本稿では,SemEval-2022 Task 7について述べる。
本課題のデータセットは手作業によるハウツーガイドの明確化からなり,その代替的明確化と人間の妥当性判断の収集を行う。
参加システムの課題は,各文脈における明確化の妥当性を自動決定することであった。
合計21人の参加者がこのタスクに参加し、最高のシステムは68.9%の精度を達成した。
本報告では8チームの結果と結果とシステム記述について要約する。
最後に、トップ参加チームによる予測により、75.2%の精度で複数の妥当な明確化でコンテキストを識別できることを示す。
関連論文リスト
- SemEval-2024 Shared Task 6: SHROOM, a Shared-task on Hallucinations and Related Observable Overgeneration Mistakes [48.83290963506378]
本稿では,幻覚検出に焦点をあてた共有タスクであるSHROOMの結果について述べる。
このアプローチをどのように取り組んだかについて、いくつかの重要なトレンドを観察します。
チームの大多数が提案したベースラインシステムより優れていますが、トップスコアシステムのパフォーマンスは依然として、より困難なアイテムのランダムなハンドリングと一致しています。
論文 参考訳(メタデータ) (2024-03-12T15:06:22Z) - Little Giants: Exploring the Potential of Small LLMs as Evaluation
Metrics in Summarization in the Eval4NLP 2023 Shared Task [53.163534619649866]
本稿では,大規模言語モデルに品質評価の課題を扱えるように,プロンプトベースの手法の有効性を評価することに焦点を当てる。
我々は,標準的なプロンプト,アノテータ命令によって通知されるプロンプト,イノベーティブなチェーン・オブ・シークレットプロンプトなど,様々なプロンプト技術を用いて,系統的な実験を行った。
我々の研究は、これらのアプローチを"小さな"オープンソースモデル(orca_mini_v3_7B)を使って組み合わせることで、競争結果が得られることを示した。
論文 参考訳(メタデータ) (2023-11-01T17:44:35Z) - BLP-2023 Task 2: Sentiment Analysis [7.725694295666573]
本稿では,第1回BLP2023ワークショップの一環として編成されたBLP知覚共有タスクの概要を紹介する。
このタスクは、ソーシャルメディアのテキストの特定の部分における感情の検出として定義される。
本稿では,データセット開発と評価設定を含むタスク設定の詳細な説明を行う。
論文 参考訳(メタデータ) (2023-10-24T21:00:41Z) - DecompEval: Evaluating Generated Texts as Unsupervised Decomposed
Question Answering [95.89707479748161]
自然言語生成タスク(NLG)の既存の評価指標は、一般化能力と解釈可能性の課題に直面している。
本稿では,NLG評価を命令型質問応答タスクとして定式化するDecompEvalというメトリクスを提案する。
本稿では,文の質を測る問合せに,文の質を問う指導スタイルの質問を分解する。
PLMが生成した回答を証拠として再検討し、評価結果を得る。
論文 参考訳(メタデータ) (2023-07-13T16:16:51Z) - X-PuDu at SemEval-2022 Task 7: A Replaced Token Detection Task
Pre-trained Model with Pattern-aware Ensembling for Identifying Plausible
Clarifications [13.945286351253717]
本稿では,SemEval 2022 Task 7: Identifying Plausible Clarifications of Implicit and Underspecificified Phrases in instructional textsについて述べる。
SubTask-A: Multi-class Classification と SubTask-B: Ranking のために、置換トークン検出事前訓練モデルを使用する。
本システムでは,SubTask-AとSubTask-Bのそれぞれ2.7と2.2%の差で,68.90%の精度スコアと0.8070のスピアマンのランク相関スコアが2位を突破した。
論文 参考訳(メタデータ) (2022-11-27T05:46:46Z) - SemEval-2022 Task 2: Multilingual Idiomaticity Detection and Sentence
Embedding [12.843166994677286]
本稿では,多言語性検出と文埋め込みにおける共通課題について述べる。
a) 文が慣用的表現を含むかどうかを識別することを目的とした二項分類と、(b) モデルが文脈における潜在的慣用的表現を適切に表現することを要求する意味的テキスト類似性に基づくタスクである。
約100人の登録参加者が参加し、それぞれ650名と150名以上の応募を行った。
論文 参考訳(メタデータ) (2022-04-21T12:20:52Z) - Nowruz at SemEval-2022 Task 7: Tackling Cloze Tests with Transformers
and Ordinal Regression [1.9078991171384017]
本稿では,チームがSemEval 2022 Task 7に参加したシステムについて概説する。
論文 参考訳(メタデータ) (2022-04-01T16:36:10Z) - The Eval4NLP Shared Task on Explainable Quality Estimation: Overview and
Results [20.15825350326367]
ソース変換ペアが与えられた場合、このタスクは、翻訳の全体的な品質を示す文レベルスコアを提供するだけでなく、翻訳品質に悪影響を及ぼす単語を識別することで、このスコアを説明する必要がある。
共有タスクのデータ, ガイドライン, 評価設定を提示し, 6つのシステムについて記述し, 結果を分析した。
論文 参考訳(メタデータ) (2021-10-08T21:57:08Z) - CAiRE in DialDoc21: Data Augmentation for Information-Seeking Dialogue
System [55.43871578056878]
DialDoc21コンペティションでは,サブタスク1で74.95 F1スコア,60.74 Exact Matchスコア,サブタスク2で37.72 SacreBLEUスコアを達成した。
論文 参考訳(メタデータ) (2021-06-07T11:40:55Z) - Reciprocal Feature Learning via Explicit and Implicit Tasks in Scene
Text Recognition [60.36540008537054]
本研究では,従来のテキスト認識における文字数カウントという暗黙のタスクを,追加的な注釈コストなしで発掘する。
両タスクの機能を適切に活用するために,2分岐の相反的特徴学習フレームワークを設計する。
7つのベンチマークの実験では、テキスト認識と新しい文字カウントタスクの両方において提案手法の利点が示されている。
論文 参考訳(メタデータ) (2021-05-13T12:27:35Z) - Generating Fact Checking Explanations [52.879658637466605]
まだ欠けているパズルの重要なピースは、プロセスの最も精巧な部分を自動化する方法を理解することです。
本稿では、これらの説明を利用可能なクレームコンテキストに基づいて自動生成する方法について、最初の研究を行う。
この結果から,個別に学習するのではなく,両目標を同時に最適化することで,事実確認システムの性能が向上することが示唆された。
論文 参考訳(メタデータ) (2020-04-13T05:23:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。