Fugu-MT 論文翻訳(概要): Overview of the PromptCBLUE Shared Task in CHIP2023

論文の概要: Overview of the PromptCBLUE Shared Task in CHIP2023

arxiv url: http://arxiv.org/abs/2312.17522v1
Date: Fri, 29 Dec 2023 09:05:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-02 10:14:28.474959
Title: Overview of the PromptCBLUE Shared Task in CHIP2023
Title（参考訳）: CHIP2023におけるPromptCBLUE共有タスクの概要
Authors: Wei Zhu, Xiaoling Wang, Mosha Chen, Buzhou Tang
Abstract要約: 本稿では,CHIP-2023会議におけるPromptC BLUE共有タスクの概要について述べる。一般的な医学自然言語処理において、中国のオープンドメインや医学ドメインの大規模言語モデル(LLM)に優れたテストベッドを提供する。本稿では,タスク,データセット,評価指標,および両タスクの上位システムについて述べる。
参考スコア（独自算出の注目度）: 26.56584015791646
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper presents an overview of the PromptCBLUE shared task (http://cips-chip.org.cn/2023/eval1) held in the CHIP-2023 Conference. This shared task reformualtes the CBLUE benchmark, and provide a good testbed for Chinese open-domain or medical-domain large language models (LLMs) in general medical natural language processing. Two different tracks are held: (a) prompt tuning track, investigating the multitask prompt tuning of LLMs, (b) probing the in-context learning capabilities of open-sourced LLMs. Many teams from both the industry and academia participated in the shared tasks, and the top teams achieved amazing test results. This paper describes the tasks, the datasets, evaluation metrics, and the top systems for both tasks. Finally, the paper summarizes the techniques and results of the evaluation of the various approaches explored by the participating teams.
Abstract（参考訳）: 本稿では,CHIP-2023会議におけるPromptCBLUE共有タスク(http://cips-chip.org.cn/2023/eval1)の概要を紹介する。この共有タスクはcblueベンチマークを改訂し、一般的な医学自然言語処理において、中国オープンドメインまたは医療ドメイン大規模言語モデル(llm)のための優れたテストベッドを提供する。 2つの異なる線がある。 (a)プロンプト・チューニング・トラック、LLMのマルチタスク・プロンプト・チューニングの調査 (b)オープンソースllmのコンテキスト内学習能力の検証。業界と学界の両方の多くのチームが共有タスクに参加し、トップチームは素晴らしいテスト結果を得た。本稿では,タスク,データセット,評価指標,および両タスクの上位システムについて述べる。最後に,参加チームによる様々なアプローチの評価手法と結果について概説する。

関連論文リスト

Multi2: Multi-Agent Test-Time Scalable Framework for Multi-Document Processing [35.686125031177234]
MDS(Multi-Document Summarization)は,複数の文書から有用な情報を抽出・合成することに焦点を当てた課題である。本稿では,このタスクに推論時間スケーリングを利用する新しいフレームワークを提案する。また,新しい評価指標として Consistency-Aware Preference (CAP) スコアと LLM Atom-Content-Unit (ACU) スコアがある。
論文参考訳（メタデータ） (2025-02-27T23:34:47Z)
Collab-Overcooked: Benchmarking and Evaluating Large Language Models as Collaborative Agents [17.773801766612703]
大規模言語モデル(LLM)ベースのエージェントシステムは、従来のNLPタスクを超えて、現実世界のアプリケーションにおいて大きな進歩を遂げてきた。本稿では,インタラクティブ環境において,より適用性が高く,課題の多いOvercooked-AIゲーム上に構築された新しいベンチマークであるCollab-Overcookedを提案する。
論文参考訳（メタデータ） (2025-02-27T13:31:13Z)
GenAI Content Detection Task 1: English and Multilingual Machine-Generated Text Detection: AI vs. Human [71.42669028683741]
我々は,Coling 2025におけるGenAIワークショップの一環として,バイナリマシン生成テキスト検出における共有タスクを提案する。このタスクは、モノリンガル(英: Monolingual)とマルチリンガル(英: Multilingual)の2つのサブタスクから構成される。本稿では,データの包括的概要,結果の概要,参加システムの詳細な説明,提出内容の詳細な分析について述べる。
論文参考訳（メタデータ） (2025-01-19T11:11:55Z)
Retrieval or Global Context Understanding? On Many-Shot In-Context Learning for Long-Context Evaluation [10.500629810624769]
マルチショットインコンテキスト学習(ICL)による長文言語モデルの評価について検討する。 ICLタスクが必要とするスキルを特定し、それらに対するモデルの長期コンテキスト能力を調べる。我々は、LCLMの検索機能とグローバルコンテキスト理解機能を別々に特徴付けるために、新しいマルチショットICLベンチマークMANYICLBENCHを導入する。
論文参考訳（メタデータ） (2024-11-11T17:00:59Z)
Narrative Action Evaluation with Prompt-Guided Multimodal Interaction [60.281405999483]
ナラティブ・アクション・アセスメント(NAE)は、行動の実行を評価する専門家のコメントを作成することを目的としている。 NAEは、物語の柔軟性と評価の厳格さの両方を必要とするため、より困難なタスクです。本稿では,様々な情報モダリティ間のインタラクションを容易にするための,プロンプト誘導型マルチモーダルインタラクションフレームワークを提案する。
論文参考訳（メタデータ） (2024-04-22T17:55:07Z)
IITK at SemEval-2024 Task 1: Contrastive Learning and Autoencoders for Semantic Textual Relatedness in Multilingual Texts [4.78482610709922]
本稿では,SemEval-2024 Task 1: Semantic Textual Relatednessについて述べる。この課題は、14言語における文のペア間の関連度を自動的に検出することに焦点を当てている。
論文参考訳（メタデータ） (2024-04-06T05:58:42Z)
Benchmarking LLMs on the Semantic Overlap Summarization Task [9.656095701778975]
本稿では,セマンティック・オーバーラップ・サマリゼーション(SOS)タスクにおいて,Large Language Models (LLM) を包括的に評価する。本稿では, ROUGE, BERTscore, SEM-F1$などの定評ある指標を, 2種類の代替物語のデータセット上で報告する。
論文参考訳（メタデータ） (2024-02-26T20:33:50Z)
Distribution Matching for Multi-Task Learning of Classification Tasks: a Large-Scale Study on Faces & Beyond [62.406687088097605]
マルチタスク学習(MTL)は、複数の関連するタスクを共同で学習し、共有表現空間から恩恵を受けるフレームワークである。 MTLは、ほとんど重複しない、あるいは重複しないアノテーションで分類タスクで成功することを示す。本稿では,分散マッチングによるタスク間の知識交換を可能にする新しい手法を提案する。
論文参考訳（メタデータ） (2024-01-02T14:18:11Z)
Rethinking and Improving Multi-task Learning for End-to-end Speech Translation [51.713683037303035]
異なる時間とモジュールを考慮したタスク間の整合性について検討する。テキストエンコーダは、主にクロスモーダル変換を容易にするが、音声におけるノイズの存在は、テキストと音声表現の一貫性を妨げる。長さと表現の差を軽減し,モーダルギャップを橋渡しする,STタスクのための改良型マルチタスク学習(IMTL)手法を提案する。
論文参考訳（メタデータ） (2023-11-07T08:48:46Z)
Little Giants: Exploring the Potential of Small LLMs as Evaluation Metrics in Summarization in the Eval4NLP 2023 Shared Task [53.163534619649866]
本稿では,大規模言語モデルに品質評価の課題を扱えるように,プロンプトベースの手法の有効性を評価することに焦点を当てる。我々は,標準的なプロンプト,アノテータ命令によって通知されるプロンプト,イノベーティブなチェーン・オブ・シークレットプロンプトなど,様々なプロンプト技術を用いて,系統的な実験を行った。我々の研究は、これらのアプローチを"小さな"オープンソースモデル(orca_mini_v3_7B)を使って組み合わせることで、競争結果が得られることを示した。
論文参考訳（メタデータ） (2023-11-01T17:44:35Z)
The Eval4NLP 2023 Shared Task on Prompting Large Language Models as Explainable Metrics [36.52897053496835]
生成型大規模言語モデル (LLM) は、タスクに関連する最小あるいは全くの例でタスクを解く顕著な能力を示している。 Eval4NLP 2023共有タスクを導入し、参加者に対して機械翻訳(MT)と要約評価のためのプロンプトとスコア抽出について検討する。本稿では,参加者のアプローチの概要を述べるとともに,MTと要約データセットの3つの言語対にまたがる新しい参照なしテストセットについて評価する。
論文参考訳（メタデータ） (2023-10-30T17:55:08Z)
BLP-2023 Task 2: Sentiment Analysis [7.725694295666573]
本稿では,第1回BLP2023ワークショップの一環として編成されたBLP知覚共有タスクの概要を紹介する。このタスクは、ソーシャルメディアのテキストの特定の部分における感情の検出として定義される。本稿では,データセット開発と評価設定を含むタスク設定の詳細な説明を行う。
論文参考訳（メタデータ） (2023-10-24T21:00:41Z)
ICL-D3IE: In-Context Learning with Diverse Demonstrations Updating for Document Information Extraction [56.790794611002106]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて、文脈内学習による顕著な結果を示している。 ICL-D3IEと呼ばれるシンプルだが効果的なテキスト内学習フレームワークを提案する。具体的には、ハードトレーニング文書から最も困難で独特なセグメントをハードデモとして抽出する。
論文参考訳（メタデータ） (2023-03-09T06:24:50Z)
Multi-Task Learning for Dense Prediction Tasks: A Survey [87.66280582034838]
マルチタスク学習(MTL)技術は、性能、計算、メモリフットプリントに関する有望な結果を示している。我々は、コンピュータビジョンにおけるMLLのための最先端のディープラーニングアプローチについて、よく理解された視点を提供する。
論文参考訳（メタデータ） (2020-04-28T09:15:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。