論文の概要: TextME: Bridging Unseen Modalities Through Text Descriptions
- arxiv url: http://arxiv.org/abs/2602.03098v1
- Date: Tue, 03 Feb 2026 04:43:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.245537
- Title: TextME: Bridging Unseen Modalities Through Text Descriptions
- Title(参考訳): TextME: テキスト記述による未知のモダリティのブリッジ
- Authors: Soyeon Hong, Jinchan Kim, Jaegook You, Seungtaek Choi, Suha Kwak, Hyunsouk Cho,
- Abstract要約: テキストのみのモダリティ拡張フレームワークであるTextMEを紹介する。
提案手法は、事前訓練されたコントラストエンコーダの幾何学的構造を利用して、ゼロショットのクロスモーダル転送を可能にする。
結果は、モダリティ拡張のためのペア化された監督の実践的な代替手段として、テキストのみのトレーニングを確立する。
- 参考スコア(独自算出の注目度): 37.33304279891978
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Expanding multimodal representations to novel modalities is constrained by reliance on large-scale paired datasets (e.g., text-image, text-audio, text-3D, text-molecule), which are costly and often infeasible in domains requiring expert annotation such as medical imaging and molecular analysis. We introduce TextME, the first text-only modality expansion framework, to the best of our knowledge, projecting diverse modalities into LLM embedding space as a unified anchor. Our approach exploits the geometric structure of pretrained contrastive encoders to enable zero-shot cross-modal transfer using only text descriptions, without paired supervision. We empirically validate that such consistent modality gaps exist across image, video, audio, 3D, X-ray, and molecular domains, demonstrating that text-only training can preserve substantial performance of pretrained encoders. We further show that our framework enables emergent cross-modal retrieval between modality pairs not explicitly aligned during training (e.g., audio-to-image, 3D-to-image). These results establish text-only training as a practical alternative to paired supervision for modality expansion.
- Abstract(参考訳): マルチモーダル表現を新しいモダリティに拡張することは、医療画像や分子解析のような専門的なアノテーションを必要とする領域ではコストがかかり、しばしば利用できない大規模なペアデータセット(例えば、テキストイメージ、テキストオーディオ、テキスト3D、テキスト分子)に依存して制限される。
我々は,最初のテキストのみのモダリティ拡張フレームワークであるTextMEを紹介し,LLM埋め込み空間に多様なモダリティを統一アンカーとして投影する。
提案手法は,事前学習したコントラストエンコーダの幾何学的構造を利用して,テキスト記述のみを用いたゼロショットクロスモーダル転送を実現する。
我々は,画像,ビデオ,オーディオ,3D,X線,分子領域に一貫したモダリティギャップが存在することを実証的に検証し,テキストのみのトレーニングが事前訓練されたエンコーダの性能を大幅に維持できることを実証した。
さらに、本フレームワークは、トレーニング中に明示的に整列していないモダリティ対(例えば、オーディオ・トゥ・イメージ、3D-to-image)間の即時的な相互モーダル検索を可能にすることを示す。
これらの結果は、モダリティ拡張のためのペア化された監督の実践的な代替手段として、テキストのみのトレーニングを確立している。
関連論文リスト
- Multimodal Medical Image Binding via Shared Text Embeddings [15.504918331492716]
Multimodal Medical Image Binding with Text (Mtextsuperscript3Bind)は、医用画像モダリティのシームレスなアライメントを可能にする新しい事前トレーニングフレームワークである。
Mtextsuperscript3Bindの最初の微調整CLIPライクなイメージテキストモデルは、そのモダリティ固有のテキスト埋め込みスペースを調整する。
Mtextsuperscript3Bindは、ゼロショット、少数ショット分類およびクロスモーダル検索タスクにおいて、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-06-22T15:39:25Z) - Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - Towards Unifying Medical Vision-and-Language Pre-training via Soft
Prompts [63.84720380390935]
textiti. には、重い融合モジュールを使用するかどうかに応じて、融合エンコーダタイプと二重エンコーダタイプという2つの典型的なタイプがある。
PTUnifier という2つのタイプを統一する手法を提案する。
まず、最も代表的な画像/テキストを格納する機能バンクとして機能する視覚的およびテキスト的プロンプトを導入することで、入力形式を統一する。
論文 参考訳(メタデータ) (2023-02-17T15:43:42Z) - Multimodal Semi-Supervised Learning for Text Recognition [10.33262222726707]
本稿では,モダリティ学習の各段階におけるラベルなしデータを活用する多モーダルテキスト認識器(SemiMTR)について半教師付き学習を行う。
我々のアルゴリズムは、教師あり学習と自己教師あり学習を一体化する一段階の訓練を通して、視覚モデルを事前訓練することから始まる。
新たなセットアップでは、各モダリティに個別に一貫性が強制される。
論文 参考訳(メタデータ) (2022-05-08T13:55:30Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z) - VX2TEXT: End-to-End Learning of Video-Based Text Generation From
Multimodal Inputs [103.99315770490163]
本稿では,ビデオ+テキスト,音声,音声によるマルチモーダル入力からテキストを生成するフレームワークを提案する。
実験により、一つのアーキテクチャに基づくアプローチは、3つのビデオベースのテキスト生成タスクにおいて最先端のタスクより優れていることが示された。
論文 参考訳(メタデータ) (2021-01-28T15:22:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。