Fugu-MT 論文翻訳(概要): Two eyes, Two views, and finally, One summary! Towards Multi-modal Multi-tasking Knowledge-Infused Medical Dialogue Summarization

論文の概要: Two eyes, Two views, and finally, One summary! Towards Multi-modal Multi-tasking Knowledge-Infused Medical Dialogue Summarization

arxiv url: http://arxiv.org/abs/2407.15237v1
Date: Sun, 21 Jul 2024 18:00:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-23 18:39:18.877594
Title: Two eyes, Two views, and finally, One summary! Towards Multi-modal Multi-tasking Knowledge-Infused Medical Dialogue Summarization
Title（参考訳）: 2つの目、2つの視点、そして最後に1つの要約! マルチモーダルなマルチタスク知識融合医療対話の要約に向けて
Authors: Anisha Saha, Abhisek Tiwari, Sai Ruthvik, Sriparna Saha,
Abstract要約: 医学的懸念, 医師の印象, 全体像の要約を同時に生成する多面的アプローチの有効性について検討した。マルチモーダル・マルチタスク・知識注入型医療対話要約生成モデル(MMK-Summation)を提案する。モデルMMK-Summationは、対話を入力として取り、コンテキストに基づいて関連する外部知識を抽出し、対話から知識と視覚的手がかりをテキストコンテンツに統合し、最終的には簡潔な要約を生成する。
参考スコア（独自算出の注目度）: 12.953002469651938
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We often summarize a multi-party conversation in two stages: chunking with homogeneous units and summarizing the chunks. Thus, we hypothesize that there exists a correlation between homogeneous speaker chunking and overall summarization tasks. In this work, we investigate the effectiveness of a multi-faceted approach that simultaneously produces summaries of medical concerns, doctor impressions, and an overall view. We introduce a multi-modal, multi-tasking, knowledge-infused medical dialogue summary generation (MMK-Summation) model, which is incorporated with adapter-based fine-tuning through a gated mechanism for multi-modal information integration. The model, MMK-Summation, takes dialogues as input, extracts pertinent external knowledge based on the context, integrates the knowledge and visual cues from the dialogues into the textual content, and ultimately generates concise summaries encompassing medical concerns, doctor impressions, and a comprehensive overview. The introduced model surpasses multiple baselines and traditional summarization models across all evaluation metrics (including human evaluation), which firmly demonstrates the efficacy of the knowledge-guided multi-tasking, multimodal medical conversation summarization. The code is available at https://github.com/NLP-RL/MMK-Summation.
Abstract（参考訳）: 我々はしばしば、同質な単位でチャンクし、チャンクを要約する、多人数会話を2段階にまとめる。したがって、同種話者チャンキングと全体要約タスクの間には相関関係が存在するという仮説を立てる。本研究では,医学的懸念,医師の印象,全体像の要約を同時に生成する多面的アプローチの有効性について検討する。本稿では,マルチモーダル情報統合のためのゲート機構を通じて,アダプタベースの微調整を組み込んだマルチモーダル・マルチタスク・知識注入型医療対話要約生成(MMK-Summation)モデルを提案する。このモデルであるMMK-Summationは、対話を入力として取り、コンテキストに基づいて関連する外部知識を抽出し、対話から知識と視覚的手がかりをテキストコンテンツに統合し、最終的に医学的懸念、医師の印象、包括的概要を含む簡潔な要約を生成する。紹介されたモデルは、知識誘導型マルチタスク、マルチモーダル医療会話要約の有効性を確証した、すべての評価指標(人的評価を含む)にまたがる、複数のベースラインと従来の要約モデルを上回る。コードはhttps://github.com/NLP-RL/MMK-Summationで公開されている。

関連論文リスト

Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning [57.873833577058]
医療知識の豊富なマルチモーダルデータセットを構築した。次に医学専門のMLLMであるLingshuを紹介します。 Lingshuは、医療専門知識の組み込みとタスク解決能力の向上のために、マルチステージトレーニングを行っている。
論文参考訳（メタデータ） (2025-06-08T08:47:30Z)
The Curse of Multi-Modalities: Evaluating Hallucinations of Large Multimodal Models across Language, Visual, and Audio [118.75449542080746]
本稿では,大規模マルチモーダルモデル(LMM)における幻覚に関する最初の系統的研究について述べる。本研究は,幻覚に対する2つの重要な要因を明らかにした。私たちの研究は、モダリティ統合の不均衡やトレーニングデータからのバイアスなど、重要な脆弱性を強調し、モダリティ間のバランスの取れた学習の必要性を強調した。
論文参考訳（メタデータ） (2024-10-16T17:59:02Z)
MedViLaM: A multimodal large language model with advanced generalizability and explainability for medical data understanding and generation [40.9095393430871]
MedViLaMは、医用データの汎用モデルに向けた統合視覚言語モデルである。 MedViLaMは、臨床言語や画像など、様々な形の医療データを柔軟にエンコードし、解釈することができる。ゼロショットの一般化を新しい医療概念やタスクに適用し、異なるタスク間で効果的な伝達学習を行い、ゼロショットの医学推論が出現する事例を提示する。
論文参考訳（メタデータ） (2024-09-29T12:23:10Z)
Uni-Med: A Unified Medical Generalist Foundation Model For Multi-Task Learning Via Connector-MoE [17.94158825878658]
MLLM(Multi-modal large language model)は、様々な視覚的・言語的タスクのための汎用インタフェースとして、印象的な機能を示している。 Uni-Medは、普遍的な視覚的特徴抽出モジュール、CMoE(consor Mixed-of-experts)モジュール、LLMで構成される新しい医療一般モデルである。我々の知る限り、Uni-MedはMLLMのコネクタにおけるマルチタスク干渉に対処する最初の試みである。
論文参考訳（メタデータ） (2024-09-26T03:33:26Z)
CLIPSyntel: CLIP and LLM Synergy for Multimodal Question Summarization in Healthcare [16.033112094191395]
MMQS(Multimodal Medical Question Summarization)データセットを紹介する。このデータセットは、医用クエリと視覚補助とを組み合わせ、患者のニーズに対するより豊かでニュアンスな理解を促進する。また、医学的障害を識別し、関連するコンテキストを生成し、医療概念をフィルタリングし、視覚的に認識された要約を作成する4つのモジュールからなるフレームワークを提案する。
論文参考訳（メタデータ） (2023-12-16T03:02:05Z)
Experience and Evidence are the eyes of an excellent summarizer! Towards Knowledge Infused Multi-modal Clinical Conversation Summarization [46.613541673040544]
本稿では,知識を注入したマルチモーダルなマルチタスク医療ドメイン識別と臨床会話要約生成フレームワークを提案する。目的,症状,要約を付加したマルチモーダル・マルチインテント・クリニカル・会話要約コーパスを開発した。その結果, (a) 視覚の重要さ, (b) より正確で医用的な実体の保存, (c) 医療部門識別と臨床シナプス生成の相関が示唆された。
論文参考訳（メタデータ） (2023-09-27T15:49:43Z)
Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文参考訳（メタデータ） (2023-06-07T15:44:53Z)
Multi-task Paired Masking with Alignment Modeling for Medical Vision-Language Pre-training [55.56609500764344]
本稿では,マルチタスク・ペアド・マスキング・アライメント(MPMA)に基づく統合フレームワークを提案する。また, メモリ拡張クロスモーダルフュージョン (MA-CMF) モジュールを導入し, 視覚情報を完全統合し, レポート再構築を支援する。
論文参考訳（メタデータ） (2023-05-13T13:53:48Z)
Generating medically-accurate summaries of patient-provider dialogue: A multi-stage approach using large language models [6.252236971703546]
効果的な要約は、対話におけるすべての医学的関連情報を一貫性と精度良く捉えることが要求される。本稿では, 医療会話の要約問題に, タスクを, より小さな対話に基づくタスクに分解することで対処する。
論文参考訳（メタデータ） (2023-05-10T08:48:53Z)
SupMMD: A Sentence Importance Model for Extractive Summarization using Maximum Mean Discrepancy [92.5683788430012]
SupMMDは、カーネルの2サンプルテストと最大の相違点に基づく、ジェネリックおよび更新の要約のための新しいテクニックである。 DUC-2004 および TAC-2009 データセット上での現在の技術状況を満たしたり超えたりすることで,SupMMD の総合的および更新的要約タスクにおける有効性を示す。
論文参考訳（メタデータ） (2020-10-06T09:26:55Z)
Multi-View Sequence-to-Sequence Models with Conversational Structure for Abstractive Dialogue Summarization [72.54873655114844]
テキスト要約は、NLPにおいて最も困難で興味深い問題の1つである。本研究では、まず、異なる視点から構造化されていない日々のチャットの会話構造を抽出し、会話を表現するマルチビューシーケンス・ツー・シーケンスモデルを提案する。大規模対話要約コーパスの実験により,本手法は,自動評価と人的判断の両面から,従来の最先端モデルよりも有意に優れた性能を示した。
論文参考訳（メタデータ） (2020-10-04T20:12:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。