論文の概要: METransformer: Radiology Report Generation by Transformer with Multiple
Learnable Expert Tokens
- arxiv url: http://arxiv.org/abs/2304.02211v1
- Date: Wed, 5 Apr 2023 03:54:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-06 13:39:38.201008
- Title: METransformer: Radiology Report Generation by Transformer with Multiple
Learnable Expert Tokens
- Title(参考訳): ME Transformer: 複数の学習可能なエキスパートトークンを用いたトランスフォーマーによる放射線学レポート生成
- Authors: Zhanyu Wang, Lingqiao Liu, Lei Wang, Luping Zhou
- Abstract要約: 本稿では,トランスフォーマーベースのバックボーンで既存の"シングルエキスパート"フレームワークをアップグレードする手法を提案する。
提案手法の鍵となる設計は,複数の学習可能な「エキスパート」トークンをトランスフォーマーエンコーダとデコーダの両方に導入することである。
最終レポートを生成するために、メトリクスベースの専門家投票戦略がさらに開発されている。
- 参考スコア(独自算出の注目度): 43.817603311027646
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In clinical scenarios, multi-specialist consultation could significantly
benefit the diagnosis, especially for intricate cases. This inspires us to
explore a "multi-expert joint diagnosis" mechanism to upgrade the existing
"single expert" framework commonly seen in the current literature. To this end,
we propose METransformer, a method to realize this idea with a
transformer-based backbone. The key design of our method is the introduction of
multiple learnable "expert" tokens into both the transformer encoder and
decoder. In the encoder, each expert token interacts with both vision tokens
and other expert tokens to learn to attend different image regions for image
representation. These expert tokens are encouraged to capture complementary
information by an orthogonal loss that minimizes their overlap. In the decoder,
each attended expert token guides the cross-attention between input words and
visual tokens, thus influencing the generated report. A metrics-based expert
voting strategy is further developed to generate the final report. By the
multi-experts concept, our model enjoys the merits of an ensemble-based
approach but through a manner that is computationally more efficient and
supports more sophisticated interactions among experts. Experimental results
demonstrate the promising performance of our proposed model on two widely used
benchmarks. Last but not least, the framework-level innovation makes our work
ready to incorporate advances on existing "single-expert" models to further
improve its performance.
- Abstract(参考訳): 臨床シナリオでは、特に複雑な症例では、多種多様なコンサルテーションが有用であった。
これは、現在文献でよく見られる「シングルエキスパート」フレームワークをアップグレードするための「マルチエキスパート共同診断」メカニズムを探求するきっかけとなった。
そこで本稿では,このアイデアをトランスフォーマーベースのバックボーンで実現するMETransformerを提案する。
本手法の鍵となる設計は,複数の学習可能な「エキスパート」トークンをトランスフォーマーエンコーダとデコーダの両方に導入することである。
エンコーダでは、それぞれのエキスパートトークンが視覚トークンと他のエキスパートトークンの両方と相互作用して、画像表現のための異なるイメージ領域に出席することを学ぶ。
これらの専門家トークンは、重複を最小限にする直交損失によって補完的な情報をキャプチャすることが推奨される。
デコーダでは、各専門家トークンが入力語と視覚トークンの相互接続をガイドし、生成されたレポートに影響を及ぼす。
最終レポートを生成するために、メトリクスベースのエキスパート投票戦略がさらに開発されている。
マルチエキスパートの概念により、我々のモデルはアンサンブルベースのアプローチの利点を享受するが、計算的に効率的であり、専門家間のより洗練された相互作用をサポートする。
実験結果は,提案モデルが広く使用されている2つのベンチマークにおいて有望な性能を示す。
最後に、フレームワークレベルのイノベーションによって、既存の"single-expert"モデルの進歩を取り入れて、パフォーマンスをさらに向上させる準備ができています。
関連論文リスト
- Leveraging Mixture of Experts for Improved Speech Deepfake Detection [53.69740463004446]
スピーチのディープフェイクは、個人のセキュリティとコンテンツの信頼性に重大な脅威をもたらす。
本研究では,Mixture of Expertsアーキテクチャを用いた音声深度検出性能の向上のための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-24T13:24:03Z) - Unity in Diversity: Multi-expert Knowledge Confrontation and Collaboration for Generalizable Vehicle Re-identification [32.80872775195836]
一般化可能な車両再識別(ReID)は、様々なソースドメインでよく訓練されたモデルが、未知のターゲットドメインに広く適応できるようにすることを目的としている。
依然としてドメインシフトの問題に直面しており、未知のターゲットドメインに正確に一般化することは困難である。
本稿では,2段階のMulti-expert Knowledge Confrontation and Collaboration (MiKeCoCo)法を提案する。
論文 参考訳(メタデータ) (2024-07-10T04:06:39Z) - MoVA: Adapting Mixture of Vision Experts to Multimodal Context [38.8308841469793]
我々は,タスク固有の視覚エキスパートを適応的にルーティングし,粗い機構で融合する,強力で斬新なMLLMであるMoVAを提案する。
粗い段階では、最適な視覚専門家を動的に選択するためのコンテキスト対応の専門家ルーティング戦略を設計する。
粒度の細かい段階では、タスク固有の知識を抽出して融合するために、Mix-of-vision-Expert Adapter (MoV-Adapter) を精巧に実施する。
論文 参考訳(メタデータ) (2024-04-19T17:59:48Z) - MouSi: Poly-Visual-Expert Vision-Language Models [132.58949014605477]
本稿では,個々の視覚エンコーダの能力の相乗化にアンサンブルエキスパート技術を用いることを提案する。
この技術は、異なる視覚専門家の出力の処理を統一する融合ネットワークを導入する。
本実装では,SAMなどのモデルにおける位置占有率を,実質的な4096からより効率的で管理可能な64,さらには1。
論文 参考訳(メタデータ) (2024-01-30T18:09:11Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Triple-View Knowledge Distillation for Semi-Supervised Semantic
Segmentation [54.23510028456082]
半教師付きセマンティックセグメンテーションのためのトリプルビュー知識蒸留フレームワークTriKDを提案する。
このフレームワークは、トリプルビューエンコーダとデュアル周波数デコーダを含む。
論文 参考訳(メタデータ) (2023-09-22T01:02:21Z) - LAVT: Language-Aware Vision Transformer for Referring Image Segmentation [80.54244087314025]
視覚トランスフォーマーエンコーダネットワークにおいて,言語的特徴と視覚的特徴を早期に融合することにより,より優れたモーダルアライメントを実現することができることを示す。
提案手法は,RefCOCO,RefCO+,G-Refの従来の最先端手法を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-12-04T04:53:35Z) - HydraSum -- Disentangling Stylistic Features in Text Summarization using
Multi-Decoder Models [12.070474521259776]
現在のモデルの単一デコーダフレームワークを拡張した,新しい要約アーキテクチャであるHydraSumを紹介する。
提案モデルでは,各専門家,すなわちデコーダに対して,スタイリスティックな要約の学習と生成を奨励する。
トレーニングプロセスのガイド付きバージョンは、デコーダ間でどのサマリスタイルが分割されているかを明示的に規定することができる。
論文 参考訳(メタデータ) (2021-10-08T22:49:49Z) - BERTERS: Multimodal Representation Learning for Expert Recommendation
System with Transformer [2.131521514043068]
エキスパートレコメンデーションシステム(BERTERS)のためのマルチモーダル分類手法を提案する。
BERTERS は Transformer (BERT) の双方向表現を用いてテキストをベクトルに変換する
また、ExEmと呼ばれるグラフ表現技術を用いて、共著者ネットワークから候補の特徴を抽出する。
論文 参考訳(メタデータ) (2020-06-30T12:30:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。