Fugu-MT 論文翻訳(概要): Overview of the NLPCC 2025 Shared Task 4: Multi-modal, Multilingual, and Multi-hop Medical Instructional Video Question Answering Challenge

論文の概要: Overview of the NLPCC 2025 Shared Task 4: Multi-modal, Multilingual, and Multi-hop Medical Instructional Video Question Answering Challenge

arxiv url: http://arxiv.org/abs/2505.06814v1
Date: Sun, 11 May 2025 02:15:14 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-13 20:21:49.052051
Title: Overview of the NLPCC 2025 Shared Task 4: Multi-modal, Multilingual, and Multi-hop Medical Instructional Video Question Answering Challenge
Title（参考訳）: NLPCC 2025共有タスク4:マルチモーダル・マルチリンガル・マルチホップ医療教育ビデオ質問応答課題の概要
Authors: Bin Li, Shenxi Liu, Yixuan Weng, Yue Du, Yuhang Tian, Shoujun Zhou,
Abstract要約: M4IVQA課題は、医療指導ビデオからの情報を統合し、複数の言語を理解し、様々なモダリティの推論を必要とするマルチホップ質問に答えるモデルを評価することに焦点を当てている。 M4IVQAの参加者は、ビデオデータとテキストデータの両方を処理し、多言語クエリを理解し、マルチホップ医療質問に対する関連する回答を提供するアルゴリズムを開発することが期待されている。
参考スコア（独自算出の注目度）: 11.103332181075546
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Following the successful hosts of the 1-st (NLPCC 2023 Foshan) CMIVQA and the 2-rd (NLPCC 2024 Hangzhou) MMIVQA challenges, this year, a new task has been introduced to further advance research in multi-modal, multilingual, and multi-hop medical instructional question answering (M4IVQA) systems, with a specific focus on medical instructional videos. The M4IVQA challenge focuses on evaluating models that integrate information from medical instructional videos, understand multiple languages, and answer multi-hop questions requiring reasoning over various modalities. This task consists of three tracks: multi-modal, multilingual, and multi-hop Temporal Answer Grounding in Single Video (M4TAGSV), multi-modal, multilingual, and multi-hop Video Corpus Retrieval (M4VCR) and multi-modal, multilingual, and multi-hop Temporal Answer Grounding in Video Corpus (M4TAGVC). Participants in M4IVQA are expected to develop algorithms capable of processing both video and text data, understanding multilingual queries, and providing relevant answers to multi-hop medical questions. We believe the newly introduced M4IVQA challenge will drive innovations in multimodal reasoning systems for healthcare scenarios, ultimately contributing to smarter emergency response systems and more effective medical education platforms in multilingual communities. Our official website is https://cmivqa.github.io/
Abstract（参考訳）: 1st (NLPCC 2023 Foshan) CMIVQA と 2rd (NLPCC 2024 Hangzhou) MMIVQA のホストの成功に続いて,今年,M4IVQA (M4IVQA) システムにおけるマルチモーダル・マルチリンガル・マルチホップ医療指導質問応答(M4IVQA) のさらなる研究に向けた新たな課題が導入された。 M4IVQA課題は、医療指導ビデオからの情報を統合し、複数の言語を理解し、様々なモダリティの推論を必要とするマルチホップ質問に答えるモデルを評価することに焦点を当てている。このタスクは、マルチモーダル、マルチリンガル、マルチホップのTemporal Answer Grounding in Single Video (M4TAGSV)、マルチモーダル、マルチリンガル、マルチホップのVideo Corpus Retrieval (M4VCR)、マルチモーダル、マルチリンガル、マルチホップのTemporal Answer Grounding in Video Corpus (M4TAGVC)の3つのトラックで構成される。 M4IVQAの参加者は、ビデオデータとテキストデータの両方を処理し、多言語クエリを理解し、マルチホップ医療質問に対する関連する回答を提供するアルゴリズムを開発することが期待されている。新たに導入されたM4IVQA課題は、医療シナリオのマルチモーダル推論システムの革新を加速させ、最終的には、よりスマートな緊急対応システムや、多言語コミュニティにおけるより効果的な医療教育プラットフォームに寄与すると考えています。公式ウェブサイトはhttps://cmivqa.github.io/です。

関連論文リスト

M$^3$-Med: A Benchmark for Multi-lingual, Multi-modal, and Multi-hop Reasoning in Medical Instructional Video Understanding [13.721987547159715]
M3-Medは、医療ビデオ理解におけるマルチ言語、マルチモーダル、マルチホップ推論のための最初のベンチマークである。 M3-Medの重要な革新はマルチホップ推論タスクである。これは、テキスト内の重要なエンティティを特定し、ビデオ内の対応する視覚的証拠を見つけ、最終的に両方のモダリティにまたがって情報を合成して答えを導き出すモデルを必要とする。
論文参考訳（メタデータ） (2025-07-06T08:14:35Z)
Overview of TREC 2024 Medical Video Question Answering (MedVidQA) Track [19.06634510937997]
本稿では,医療ビデオの理解と,自然言語質問に対する視覚的回答を提供するシステム構築に向けた新たな課題を紹介する。これらのタスクは、公衆および医療専門家に利益をもたらす洗練された下流アプリケーションの開発を支援する可能性がある。
論文参考訳（メタデータ） (2024-12-15T05:18:01Z)
Towards Democratizing Multilingual Large Language Models For Medicine Through A Two-Stage Instruction Fine-tuning Approach [6.921012069327385]
オープンソースの多言語医療用大規模言語モデル (LLM) は、様々な地域において言語的に多様な人口を提供する可能性を秘めている。 6言語で200万以上の高品質な医療サンプルを含む2つの多言語命令微調整データセットを導入する。第1段階はMMed-IFTを用いて一般的な医療知識を注入し,第2段階はMMed-IFT-MCを用いたタスク固有の複数選択質問を行う。
論文参考訳（メタデータ） (2024-09-09T15:42:19Z)
M4U: Evaluating Multilingual Understanding and Reasoning for Large Multimodal Models [27.18427414844769]
M4Uは多分野多言語マルチモーダル理解と推論の能力を評価するための新しいベンチマークである。 M4Uには、科学、工学、医療の分野で6つの言語で64の分野をカバーする10kのサンプルが含まれている。 M4Uを用いて,LMM(Large Multimodal Model)とLLM(Large Language Model)を外部ツールで広範囲に評価する。
論文参考訳（メタデータ） (2024-05-24T15:25:28Z)
MediFact at MEDIQA-M3G 2024: Medical Question Answering in Dermatology with Multimodal Learning [0.0]
本稿では,オープンエンド医療質問応答(QA)のための弱教師付き学習アプローチを提案することによって,従来の手法の限界に対処する。本システムは,VGG16-CNN-SVMモデルを用いて,利用可能なMEDIQA-M3G画像を利用する。この研究は、医療QA研究を前進させ、臨床意思決定支援システムへの道を切り開き、最終的に医療提供を改善する。
論文参考訳（メタデータ） (2024-04-27T20:03:47Z)
MLaKE: Multilingual Knowledge Editing Benchmark for Large Language Models [65.10456412127405]
MLaKEは5言語にわたる知識編集手法の適応性のベンチマークである。 MLaKEは、ウィキペディアから言語にまたがるファクトチェーンを集約し、フリーフォームとマルチチョイスの両方で質問を生成する。 MLaKEにおける既存手法の多言語知識編集の一般化能力を評価する。
論文参考訳（メタデータ） (2024-04-07T15:23:28Z)
Towards Building Multilingual Language Model for Medicine [54.1382395897071]
6つの主要言語を含む約25.5Bトークンを含む多言語医療コーパスを構築した。 MMedBench と呼ばれる有理性を持つ多言語医療用多言語質問応答ベンチマークを提案する。我々の最終モデルであるMMed-Llama 3は、8Bパラメータしか持たないが、MMedBenchおよび英語ベンチマークの他のすべてのオープンソースモデルと比較して優れた性能が得られる。
論文参考訳（メタデータ） (2024-02-21T17:47:20Z)
M3Exam: A Multilingual, Multimodal, Multilevel Benchmark for Examining Large Language Models [76.88692952308084]
M3Examは、多言語、マルチモーダル、マルチレベルコンテキストにおける大規模言語モデル(LLM)を評価するためのベンチマークである。 M3Examには、9つの言語で12,317の質問があり、3つの教育レベルがある。我々は,M3Exam上でのLLMの性能評価を行い,GPT-4を含む現在のモデルが多言語テキストに苦戦していることを確認した。
論文参考訳（メタデータ） (2023-06-08T13:21:29Z)
MSCTD: A Multimodal Sentiment Chat Translation Dataset [66.81525961469494]
マルチモーダルチャット翻訳(MCT)という新しいタスクを導入する。 MCTは、関連する対話履歴と視覚的コンテキストの助けを借りて、より正確な翻訳を生成することを目的としている。本研究は,マルチモーダルチャット翻訳とマルチモーダル対話感情分析の両方の研究を容易にする。
論文参考訳（メタデータ） (2022-02-28T09:40:46Z)
xGQA: Cross-Lingual Visual Question Answering [100.35229218735938]
xGQAは視覚的質問応答タスクのための新しい多言語評価ベンチマークである。確立された英語GQAデータセットを7言語に拡張する。本稿では,マルチモーダルトランスフォーマーモデルに適応するアダプタベースの新しいアプローチを提案する。
論文参考訳（メタデータ） (2021-09-13T15:58:21Z)
M3P: Learning Universal Representations via Multitask Multilingual Multimodal Pre-training [119.16007395162431]
M3Pは、多言語事前訓練と多言語事前訓練を組み合わせた多言語マルチモーダル事前訓練モデルである。我々は,M3Pが英語に匹敵する結果が得られることを示す。
論文参考訳（メタデータ） (2020-06-04T03:54:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。