論文の概要: Unified Multimodal and Multilingual Retrieval via Multi-Task Learning with NLU Integration
- arxiv url: http://arxiv.org/abs/2601.14714v1
- Date: Wed, 21 Jan 2026 07:07:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.271051
- Title: Unified Multimodal and Multilingual Retrieval via Multi-Task Learning with NLU Integration
- Title(参考訳): NLU統合によるマルチタスク学習によるマルチモーダル・マルチ言語検索
- Authors: Xinyuan Zhang, Lina Zhang, Lisung Chen, Guangyao Liu, Shuai Nie, Jiaming Xu, Runyu Shi, Ying Huang, Guoquan Zhang,
- Abstract要約: 本稿では,画像,長文,短文,インテントに富んだクエリ間の特徴表現を統一するマルチタスク学習フレームワークを提案する。
提案手法は,画像とテキストの検索と共有テキストエンコーダを統合し,意図の理解と検索精度の向上を目的としてNLU機能を拡張した。
- 参考スコア(独自算出の注目度): 11.16469043247698
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal retrieval systems typically employ Vision Language Models (VLMs) that encode images and text independently into vectors within a shared embedding space. Despite incorporating text encoders, VLMs consistently underperform specialized text models on text-only retrieval tasks. Moreover, introducing additional text encoders increases storage, inference overhead, and exacerbates retrieval inefficiencies, especially in multilingual settings. To address these limitations, we propose a multi-task learning framework that unifies the feature representation across images, long and short texts, and intent-rich queries. To our knowledge, this is the first work to jointly optimize multilingual image retrieval, text retrieval, and natural language understanding (NLU) tasks within a single framework. Our approach integrates image and text retrieval with a shared text encoder that is enhanced by NLU features for intent understanding and retrieval accuracy.
- Abstract(参考訳): マルチモーダル検索システムは一般的に視覚言語モデル(VLM)を使用し、画像とテキストを、共有埋め込み空間内のベクトルに独立して符号化する。
テキストエンコーダが組み込まれているにもかかわらず、VLMはテキストのみの検索タスクにおいて、特殊テキストモデルの性能が一貫して劣っている。
さらに、追加のテキストエンコーダを導入することで、ストレージ、推測オーバーヘッドが増加し、特に多言語設定において、検索の非効率が向上する。
これらの制約に対処するために,画像,長文,短文,インテントリッチなクエリ間の特徴表現を統一するマルチタスク学習フレームワークを提案する。
我々の知る限り、これは単一のフレームワーク内で多言語画像検索、テキスト検索、自然言語理解(NLU)タスクを共同で最適化する最初の試みである。
提案手法は,画像とテキストの検索と共有テキストエンコーダを統合し,意図の理解と検索精度の向上を目的としてNLU機能を拡張した。
関連論文リスト
- jina-clip-v2: Multilingual Multimodal Embeddings for Text and Images [5.753626355995653]
jina-clip-v2は、テキストペア、三つ子、画像-テキストペアで訓練された対照的な視覚言語モデルである。
我々は、多言語テキストエンコーダを使用し、29の非英語言語からの多言語テキストを含む訓練データセットを拡張した。
我々は、このモデルの性能を評価し、jina-clip-v2が最先端のCLIPモデルよりも顕著に改善されていることを示す。
論文 参考訳(メタデータ) (2024-12-11T22:28:12Z) - Leopard: A Vision Language Model For Text-Rich Multi-Image Tasks [62.758680527838436]
複数のテキストリッチな画像を含む視覚言語タスクを扱うためのMLLMであるLeopardを提案する。
まず、テキストリッチでマルチイメージのシナリオに合わせて、約100万の高品質なマルチモーダル命令チューニングデータをキュレートした。
第2に,視覚列長の割り当てを動的に最適化する適応型高解像度マルチイメージ符号化モジュールを提案する。
論文 参考訳(メタデータ) (2024-10-02T16:55:01Z) - TRINS: Towards Multimodal Language Models that Can Read [61.17806538631744]
TRINSはText-RichイメージINStructionデータセットである。
39,153の画像、キャプション、102,437の質問が含まれている。
本稿では,画像中のテキスト内容の理解に長けたLanguage-vision Reading Assistant(LaRA)を提案する。
論文 参考訳(メタデータ) (2024-06-10T18:52:37Z) - Enhancing Visual Document Understanding with Contrastive Learning in
Large Visual-Language Models [56.76307866160105]
文書オブジェクト協調学習(Document Object Contrastive Learning, DoCo)と呼ばれる対照的な学習フレームワークを提案する。
DoCoは補助的なマルチモーダルエンコーダを利用して文書オブジェクトの特徴を取得し、それをLVLM(Large Visual-Language Models)の視覚エンコーダによって生成された視覚的特徴に合わせる。
提案するDoCoは,様々なLVLMの事前学習において,推論過程における計算複雑性の増大を招くことなく,プラグイン・アンド・プレイの事前学習手法として機能することが実証された。
論文 参考訳(メタデータ) (2024-02-29T10:17:27Z) - UReader: Universal OCR-free Visually-situated Language Understanding
with Multimodal Large Language Model [108.85584502396182]
MLLM(Multimodal Large Language Model)に基づく汎用OCRのない視覚的言語理解の最初の探索であるUReaderを提案する。
MLLMの浅いテキスト認識能力を利用することで、パラメータを1.2%だけ微調整した。
言語理解タスク10のうち8つは、最先端のocrフリーな性能を実現している。
論文 参考訳(メタデータ) (2023-10-08T11:33:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。