論文の概要: VIRTUE: Visual-Interactive Text-Image Universal Embedder
- arxiv url: http://arxiv.org/abs/2510.00523v1
- Date: Wed, 01 Oct 2025 05:11:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.394803
- Title: VIRTUE: Visual-Interactive Text-Image Universal Embedder
- Title(参考訳): VIRTUE: Visual-Interactive Text- Image Universal Embedder
- Authors: Wei-Yao Wang, Kazuya Tateishi, Qiyu Wu, Shusuke Takahashi, Yuki Mitsufuji,
- Abstract要約: 既存の埋め込みモデルには、ユーザからの関心領域を特定する視覚的相互作用機能がない。
セグメンテーションモデルと視覚言語モデルの能力を表現学習の領域に拡張する新しいビジュアル-InteRactive Text-Image Universal Embedder (VIRTUE)を提案する。
- 参考スコア(独自算出の注目度): 35.87241345903579
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal representation learning models have demonstrated successful operation across complex tasks, and the integration of vision-language models (VLMs) has further enabled embedding models with instruction-following capabilities. However, existing embedding models lack visual-interactive capabilities to specify regions of interest from users (e.g., point, bounding box, mask), which have been explored in generative models to broaden their human-interactive applicability. Equipping embedding models with visual interactions not only would unlock new applications with localized grounding of user intent, which remains unexplored, but also enable the models to learn entity-level information within images to complement their global representations for conventional embedding tasks. In this paper, we propose a novel Visual-InteRactive Text-Image Universal Embedder (VIRTUE) that extends the capabilities of the segmentation model and the vision-language model to the realm of representation learning. In VIRTUE, the segmentation model can process visual prompts that pinpoint specific regions within an image, thereby enabling the embedder to handle complex and ambiguous scenarios more precisely. To evaluate the visual-interaction ability of VIRTUE, we introduce a large-scale Segmentation-and-Scene Caption Retrieval (SCaR) benchmark comprising 1M samples that aims to retrieve the text caption by jointly considering the entity with a specific object and image scene. VIRTUE consistently achieves a state-of-the-art performance with significant improvements across 36 universal MMEB (3.1%-8.5%) and five visual-interactive SCaR (15.2%-20.3%) tasks.
- Abstract(参考訳): マルチモーダル表現学習モデルは複雑なタスク間での動作を成功させ、視覚言語モデル(VLM)の統合により、命令追従機能を備えた埋め込みモデルをさらに実現した。
しかし、既存の埋め込みモデルは、ユーザから興味のある領域(例えば、ポイント、バウンディングボックス、マスク)を特定する視覚的相互作用能力が欠けている。
視覚的相互作用を伴う埋め込みモデルを取得することで、ユーザー意図の局所的な基盤を持つ新しいアプリケーションを解き放つだけでなく、画像内のエンティティレベルの情報を学習して、従来の埋め込みタスクのグローバルな表現を補完することが可能になる。
本稿では,セグメンテーションモデルと視覚言語モデルの能力を表現学習の領域に拡張する,新しいビジュアル-InteRactive Text-Image Universal Embedder (VIRTUE)を提案する。
VIRTUEでは、セグメンテーションモデルは画像内の特定の領域をピンポイントする視覚的プロンプトを処理できるため、組込み機が複雑であいまいなシナリオをより正確に処理することができる。
VIRTUEの視覚的相互作用能力を評価するために,1Mサンプルからなる大規模セグメンテーション・アンド・シーン・キャプション検索(SCaR)ベンチマークを導入する。
VIRTUEは、36のユニバーサルMMEB(3.1%-8.5%)と5つの視覚対話型SCaR(15.2%-20.3%)タスクで大幅に改善された最先端のパフォーマンスを一貫して達成している。
関連論文リスト
- VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks [60.5257456681402]
幅広い下流タスクを扱える普遍的な埋め込みを構築する可能性について検討する。
We build a series of VLM2Vec model on SoTA VLMs like Phi-3.5-V, LLaVA-1.6 and evaluate them on MMEB's evaluation split。
以上の結果から,VLM2Vecは既存のマルチモーダル埋め込みモデルよりも10%から20%の絶対的な平均的改善を実現していることがわかった。
論文 参考訳(メタデータ) (2024-10-07T16:14:05Z) - More Pictures Say More: Visual Intersection Network for Open Set Object Detection [4.206612461069489]
オープンセットオブジェクト検出(VINO)のための強力なDETRモデルであるVisual Intersection Networkを導入する。
VINOは、すべての時間ステップにまたがるカテゴリのセマンティックな交差を保存するために、マルチイメージのビジュアルバンクを構築する。
提案手法は,対象カテゴリ意味論と領域意味論のより正確な一致を保証するとともに,事前学習時間とリソース要求を著しく低減する。
論文 参考訳(メタデータ) (2024-08-26T05:52:35Z) - Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - Veagle: Advancements in Multimodal Representation Learning [0.0]
本稿では,既存モデルのマルチモーダル能力を向上するための新しいアプローチを提案する。
提案したモデルであるVeagleは、以前の作品の成功と洞察にインスパイアされたユニークなメカニズムを取り入れています。
以上の結果から,Veagleは既存のモデルよりも優れた性能を示し,性能は5-6%向上した。
論文 参考訳(メタデータ) (2024-01-18T12:45:25Z) - Chat-UniVi: Unified Visual Representation Empowers Large Language Models with Image and Video Understanding [55.65727739645824]
Chat-UniViは、画像やビデオを含む会話を解釈し、関与できる統一ビジョン言語モデルである。
画像やビデオを一様に表現するために、ダイナミックな視覚トークンのセットを使用します。
我々はマルチスケール表現を活用し、モデルが高レベルなセマンティック概念と低レベルな視覚的詳細の両方を知覚できるようにする。
論文 参考訳(メタデータ) (2023-11-14T10:11:36Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - Named Entity and Relation Extraction with Multi-Modal Retrieval [51.660650522630526]
マルチモーダルな名前付きエンティティ認識(NER)と関係抽出(RE)は、関連画像情報を活用してNERとREの性能を向上させることを目的としている。
新たなマルチモーダル検索フレームワーク(MoRe)を提案する。
MoReはテキスト検索モジュールと画像ベースの検索モジュールを含み、入力されたテキストと画像の関連知識をそれぞれ知識コーパスで検索する。
論文 参考訳(メタデータ) (2022-12-03T13:11:32Z) - Seeing What You Miss: Vision-Language Pre-training with Semantic
Completion Learning [22.464424641734652]
クロスモーダルアライメントは視覚言語事前学習モデルに不可欠である。
本研究では,グローバル・ローカル・アライメントを支援するセマンティック・コンプリート学習タスクを提案する。
また、フレキシブル・ビジョン・エンコーダを導入し、画像テキストとビデオテキストのマルチモーダルタスクを同時に実行できるようにした。
論文 参考訳(メタデータ) (2022-11-24T06:39:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。