論文の概要: Towards Unifying Medical Vision-and-Language Pre-training via Soft
Prompts
- arxiv url: http://arxiv.org/abs/2302.08958v1
- Date: Fri, 17 Feb 2023 15:43:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-20 14:17:40.086781
- Title: Towards Unifying Medical Vision-and-Language Pre-training via Soft
Prompts
- Title(参考訳): ソフトプロンプトによる医学的視覚・言語訓練の統一に向けて
- Authors: Zhihong Chen, Shizhe Diao, Benyou Wang, Guanbin Li, Xiang Wan
- Abstract要約: textiti. には、重い融合モジュールを使用するかどうかに応じて、融合エンコーダタイプと二重エンコーダタイプという2つの典型的なタイプがある。
PTUnifier という2つのタイプを統一する手法を提案する。
まず、最も代表的な画像/テキストを格納する機能バンクとして機能する視覚的およびテキスト的プロンプトを導入することで、入力形式を統一する。
- 参考スコア(独自算出の注目度): 63.84720380390935
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical vision-and-language pre-training (Med-VLP) has shown promising
improvements on many downstream medical tasks owing to its applicability to
extracting generic representations from medical images and texts. Practically,
there exist two typical types, \textit{i.e.}, the fusion-encoder type and the
dual-encoder type, depending on whether a heavy fusion module is used. The
former is superior at multi-modal tasks owing to the sufficient interaction
between modalities; the latter is good at uni-modal and cross-modal tasks due
to the single-modality encoding ability. To take advantage of these two types,
we propose an effective yet straightforward scheme named PTUnifier to unify the
two types. We first unify the input format by introducing visual and textual
prompts, which serve as a feature bank that stores the most representative
images/texts. By doing so, a single model could serve as a \textit{foundation
model} that processes various tasks adopting different input formats
(\textit{i.e.}, image-only, text-only, and image-text-pair). Furthermore, we
construct a prompt pool (instead of static ones) to improve diversity and
scalability. Experimental results show that our approach achieves
state-of-the-art results on a broad range of tasks, spanning uni-modal tasks
(\textit{i.e.}, image/text classification and text summarization), cross-modal
tasks (\textit{i.e.}, image-to-text generation and image-text/text-image
retrieval), and multi-modal tasks (\textit{i.e.}, visual question answering),
demonstrating the effectiveness of our approach. Note that the adoption of
prompts is orthogonal to most existing Med-VLP approaches and could be a
beneficial and complementary extension to these approaches.
- Abstract(参考訳): 医用ビジョン・アンド・ランゲージ・プレトレーニング(Med-VLP)は、医用画像やテキストから汎用表現を抽出できるため、多くの下流医療タスクに有望な改善が見られた。
実際には、重い融合モジュールを使用するかどうかによって、2つの典型的な型、‘textit{i.e.}, 融合エンコーダ型とデュアルエンコーダ型がある。
前者はモダリティ間の十分な相互作用によるマルチモーダルタスクに優れ、後者は単一モダリティ符号化能力によるユニモーダルタスクとクロスモーダルタスクに優れている。
これら2つの型を利用するために,PTUnifier という効果的かつ簡単な方式を提案する。
まず、最も代表的な画像/テキストを格納する機能バンクとして機能する視覚的およびテキスト的プロンプトを導入することで、入力形式を統一する。
これにより、単一のモデルは、異なる入力形式(\textit{i.e.}、画像のみ、テキストのみ、画像-テキストペア)で様々なタスクを処理する、 \textit{foundation model} として機能する。
さらに、多様性とスケーラビリティを向上させるために、プロンプトプール(静的プールの代わりに)を構築します。
実験結果から,一様タスク (\textit{i.e.}, 画像/テキスト分類とテキスト要約), クロスモーダルタスク (\textit{i.e.}, 画像-テキスト生成と画像-テキスト/テキスト画像検索), マルチモーダルタスク (\textit{i.e.}, 視覚的質問応答) にまたがる, 幅広いタスクにおける最先端の成果が得られた。
プロンプトの採用は既存のほとんどのMed-VLPアプローチと直交しており、これらのアプローチに対する有益で補完的な拡張になり得ることに注意されたい。
関連論文リスト
- Leopard: A Vision Language Model For Text-Rich Multi-Image Tasks [62.758680527838436]
Leopardは、複数のテキストリッチイメージを含む視覚言語タスクを扱うビジョン言語モデルである。
まず、テキストリッチでマルチイメージのシナリオに合わせて、約100万の高品質なマルチモーダル命令チューニングデータをキュレートした。
第2に,視覚列長の割り当てを動的に最適化する適応型高解像度マルチイメージ符号化モジュールを開発した。
論文 参考訳(メタデータ) (2024-10-02T16:55:01Z) - UNIMO-G: Unified Image Generation through Multimodal Conditional Diffusion [36.06457895469353]
UNIMO-Gは条件付き拡散フレームワークであり、インターリーブされたテキストと視覚入力を持つマルチモーダルプロンプトで動作する。
テキスト・ツー・イメージ生成とゼロショット・テーマ駆動合成の両面で優れている。
論文 参考訳(メタデータ) (2024-01-24T11:36:44Z) - De-Diffusion Makes Text a Strong Cross-Modal Interface [33.90004746543745]
我々は、事前訓練されたテキスト-画像拡散モデルを用いてデコードを行うオートエンコーダを用いる。
画像を表すDe-Diffusionテキストの精度と包括性を検証する実験。
単一のDe-Diffusionモデルは、さまざまなテキスト・トゥ・イメージツールに対して転送可能なプロンプトを提供するために一般化することができる。
論文 参考訳(メタデータ) (2023-11-01T16:12:40Z) - Emu: Generative Pretraining in Multimodality [43.759593451544546]
トランスフォーマーベースのマルチモーダル基礎モデルは、マルチモーダルコンテキストで画像やテキストをシームレスに生成することができる。
Emuは、画像からテキストまでのタスクとテキストから画像へのタスクの両方のための汎用マルチモーダルインターフェースとして機能する。
Emuは最先端の大規模マルチモーダルモデルと比較して非常に高い性能を示す。
論文 参考訳(メタデータ) (2023-07-11T12:45:39Z) - Universal Multimodal Representation for Language Understanding [110.98786673598015]
本研究は,一般的なNLPタスクの補助信号として視覚情報を利用する新しい手法を提案する。
各文に対して、まず、既存の文-画像ペア上で抽出された軽トピック-画像検索テーブルから、フレキシブルな画像を検索する。
そして、テキストと画像はそれぞれトランスフォーマーエンコーダと畳み込みニューラルネットワークによって符号化される。
論文 参考訳(メタデータ) (2023-01-09T13:54:11Z) - FaD-VLP: Fashion Vision-and-Language Pre-training towards Unified
Retrieval and Captioning [66.38951790650887]
ファッション分野におけるマルチモーダルタスクは、eコマースにとって大きな可能性を秘めている。
本稿では,ファッションとテクストのペアから構築した弱教師付き三つ組に基づく,ファッション特有の事前学習フレームワークを提案する。
3重項に基づくタスクは、標準的なマルチモーダル事前学習タスクに有効な追加であることを示す。
論文 参考訳(メタデータ) (2022-10-26T21:01:19Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - Visual Grounding Strategies for Text-Only Natural Language Processing [1.2183405753834562]
BERTのマルチモーダル拡張は、視覚的質問回答などのマルチモーダルタスクに最先端の結果をもたらすテキストと画像の共同モデリングを可能にします。
本稿では,マルチモーダル事前学習がテキスト処理精度を向上させる基礎となることを期待して,純粋にテキストタスクにマルチモーダルモデリングを利用する。
転送グラウンドと呼ばれる最初のタイプの戦略は、テキストのみのタスクにマルチモーダルモデルを適用し、プレースホルダーを使って画像入力を置き換える。
2つ目は「連想的接地」と呼ばれ、画像検索を利用してテキストと関連画像のマッチングを行う。
論文 参考訳(メタデータ) (2021-03-25T16:03:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。