論文の概要: Overview of the PromptCBLUE Shared Task in CHIP2023
- arxiv url: http://arxiv.org/abs/2312.17522v1
- Date: Fri, 29 Dec 2023 09:05:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-02 10:14:28.474959
- Title: Overview of the PromptCBLUE Shared Task in CHIP2023
- Title(参考訳): CHIP2023におけるPromptCBLUE共有タスクの概要
- Authors: Wei Zhu, Xiaoling Wang, Mosha Chen, Buzhou Tang
- Abstract要約: 本稿では,CHIP-2023会議におけるPromptC BLUE共有タスクの概要について述べる。
一般的な医学自然言語処理において、中国のオープンドメインや医学ドメインの大規模言語モデル(LLM)に優れたテストベッドを提供する。
本稿では,タスク,データセット,評価指標,および両タスクの上位システムについて述べる。
- 参考スコア(独自算出の注目度): 26.56584015791646
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents an overview of the PromptCBLUE shared task
(http://cips-chip.org.cn/2023/eval1) held in the CHIP-2023 Conference. This
shared task reformualtes the CBLUE benchmark, and provide a good testbed for
Chinese open-domain or medical-domain large language models (LLMs) in general
medical natural language processing. Two different tracks are held: (a) prompt
tuning track, investigating the multitask prompt tuning of LLMs, (b) probing
the in-context learning capabilities of open-sourced LLMs. Many teams from both
the industry and academia participated in the shared tasks, and the top teams
achieved amazing test results. This paper describes the tasks, the datasets,
evaluation metrics, and the top systems for both tasks. Finally, the paper
summarizes the techniques and results of the evaluation of the various
approaches explored by the participating teams.
- Abstract(参考訳): 本稿では,CHIP-2023会議におけるPromptCBLUE共有タスク(http://cips-chip.org.cn/2023/eval1)の概要を紹介する。
この共有タスクはcblueベンチマークを改訂し、一般的な医学自然言語処理において、中国オープンドメインまたは医療ドメイン大規模言語モデル(llm)のための優れたテストベッドを提供する。
2つの異なる線がある。
(a)プロンプト・チューニング・トラック、LLMのマルチタスク・プロンプト・チューニングの調査
(b)オープンソースllmのコンテキスト内学習能力の検証。
業界と学界の両方の多くのチームが共有タスクに参加し、トップチームは素晴らしいテスト結果を得た。
本稿では,タスク,データセット,評価指標,および両タスクの上位システムについて述べる。
最後に,参加チームによる様々なアプローチの評価手法と結果について概説する。
関連論文リスト
- Narrative Action Evaluation with Prompt-Guided Multimodal Interaction [60.281405999483]
ナラティブ・アクション・アセスメント(NAE)は、行動の実行を評価する専門家のコメントを作成することを目的としている。
NAEは、物語の柔軟性と評価の厳格さの両方を必要とするため、より困難なタスクです。
本稿では,様々な情報モダリティ間のインタラクションを容易にするための,プロンプト誘導型マルチモーダルインタラクションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-22T17:55:07Z) - IITK at SemEval-2024 Task 1: Contrastive Learning and Autoencoders for Semantic Textual Relatedness in Multilingual Texts [4.78482610709922]
本稿では,SemEval-2024 Task 1: Semantic Textual Relatednessについて述べる。
この課題は、14言語における文のペア間の関連度を自動的に検出することに焦点を当てている。
論文 参考訳(メタデータ) (2024-04-06T05:58:42Z) - Benchmarking LLMs on the Semantic Overlap Summarization Task [9.656095701778975]
本稿では,セマンティック・オーバーラップ・サマリゼーション(SOS)タスクにおいて,Large Language Models (LLM) を包括的に評価する。
本稿では, ROUGE, BERTscore, SEM-F1$などの定評ある指標を, 2種類の代替物語のデータセット上で報告する。
論文 参考訳(メタデータ) (2024-02-26T20:33:50Z) - Distribution Matching for Multi-Task Learning of Classification Tasks: a
Large-Scale Study on Faces & Beyond [62.406687088097605]
マルチタスク学習(MTL)は、複数の関連するタスクを共同で学習し、共有表現空間から恩恵を受けるフレームワークである。
MTLは、ほとんど重複しない、あるいは重複しないアノテーションで分類タスクで成功することを示す。
本稿では,分散マッチングによるタスク間の知識交換を可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-02T14:18:11Z) - Rethinking and Improving Multi-task Learning for End-to-end Speech
Translation [51.713683037303035]
異なる時間とモジュールを考慮したタスク間の整合性について検討する。
テキストエンコーダは、主にクロスモーダル変換を容易にするが、音声におけるノイズの存在は、テキストと音声表現の一貫性を妨げる。
長さと表現の差を軽減し,モーダルギャップを橋渡しする,STタスクのための改良型マルチタスク学習(IMTL)手法を提案する。
論文 参考訳(メタデータ) (2023-11-07T08:48:46Z) - Little Giants: Exploring the Potential of Small LLMs as Evaluation
Metrics in Summarization in the Eval4NLP 2023 Shared Task [53.163534619649866]
本稿では,大規模言語モデルに品質評価の課題を扱えるように,プロンプトベースの手法の有効性を評価することに焦点を当てる。
我々は,標準的なプロンプト,アノテータ命令によって通知されるプロンプト,イノベーティブなチェーン・オブ・シークレットプロンプトなど,様々なプロンプト技術を用いて,系統的な実験を行った。
我々の研究は、これらのアプローチを"小さな"オープンソースモデル(orca_mini_v3_7B)を使って組み合わせることで、競争結果が得られることを示した。
論文 参考訳(メタデータ) (2023-11-01T17:44:35Z) - The Eval4NLP 2023 Shared Task on Prompting Large Language Models as
Explainable Metrics [36.52897053496835]
生成型大規模言語モデル (LLM) は、タスクに関連する最小あるいは全くの例でタスクを解く顕著な能力を示している。
Eval4NLP 2023共有タスクを導入し、参加者に対して機械翻訳(MT)と要約評価のためのプロンプトとスコア抽出について検討する。
本稿では,参加者のアプローチの概要を述べるとともに,MTと要約データセットの3つの言語対にまたがる新しい参照なしテストセットについて評価する。
論文 参考訳(メタデータ) (2023-10-30T17:55:08Z) - BLP-2023 Task 2: Sentiment Analysis [7.725694295666573]
本稿では,第1回BLP2023ワークショップの一環として編成されたBLP知覚共有タスクの概要を紹介する。
このタスクは、ソーシャルメディアのテキストの特定の部分における感情の検出として定義される。
本稿では,データセット開発と評価設定を含むタスク設定の詳細な説明を行う。
論文 参考訳(メタデータ) (2023-10-24T21:00:41Z) - ICL-D3IE: In-Context Learning with Diverse Demonstrations Updating for
Document Information Extraction [56.790794611002106]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて、文脈内学習による顕著な結果を示している。
ICL-D3IEと呼ばれるシンプルだが効果的なテキスト内学習フレームワークを提案する。
具体的には、ハードトレーニング文書から最も困難で独特なセグメントをハードデモとして抽出する。
論文 参考訳(メタデータ) (2023-03-09T06:24:50Z) - Multi-Task Learning for Dense Prediction Tasks: A Survey [87.66280582034838]
マルチタスク学習(MTL)技術は、性能、計算、メモリフットプリントに関する有望な結果を示している。
我々は、コンピュータビジョンにおけるMLLのための最先端のディープラーニングアプローチについて、よく理解された視点を提供する。
論文 参考訳(メタデータ) (2020-04-28T09:15:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。