論文の概要: ABC: Achieving Better Control of Multimodal Embeddings using VLMs
- arxiv url: http://arxiv.org/abs/2503.00329v1
- Date: Sat, 01 Mar 2025 03:29:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:22:24.120002
- Title: ABC: Achieving Better Control of Multimodal Embeddings using VLMs
- Title(参考訳): ABC:VLMを用いたマルチモーダル埋め込みのより良い制御を実現する
- Authors: Benjamin Schneider, Florian Kerschbaum, Wenhu Chen,
- Abstract要約: ビジュアル埋め込みモデルは、ビジュアル検索や分類のようなゼロショットタスクで優れている。
既存のCLIPベースのアプローチでは、イメージとテキストを独立して埋め込み、結果を融合する。
本稿では,視覚言語モデルバックボーンを用いたオープンソースのマルチモーダル埋め込みモデルABCを紹介する。
- 参考スコア(独自算出の注目度): 61.396457715710774
- License:
- Abstract: Visual embedding models excel at zero-shot tasks like visual retrieval and classification. However, these models cannot be used for tasks that contain ambiguity or require user instruction. These tasks necessitate a multimodal embedding model, which outputs embeddings that combine visual and natural language input. Existing CLIP-based approaches embed images and text independently, and fuse the result. We find that this results in weak interactions between modalities, and poor user control over the representation. We introduce ABC, an open-source multimodal embedding model that uses a vision-language model backbone to deeply integrate image features with natural language instructions. ABC achieves bestfor-size performance on MSCOCO image-to-text retrieval and is the top performing model on classification and VQA tasks in the Massive Multimodal Embedding Benchmark. With a strongly unified vision-language representation, ABC can use natural language to solve subtle and potentially ambiguous visual retrieval problems. To evaluate this capability, we design CtrlBench, a benchmark that requires interleaving textual instructions with image content for correct retrieval. ABC advances the state of multimodal embeddings by offering high-quality representations and flexible natural language control. Our model and datasets are available at our project page.
- Abstract(参考訳): ビジュアル埋め込みモデルは、ビジュアル検索や分類のようなゼロショットタスクで優れている。
しかし、これらのモデルはあいまいさやユーザ命令を必要とするタスクには使用できない。
これらのタスクは、視覚と自然言語の入力を組み合わせた埋め込みを出力するマルチモーダル埋め込みモデルを必要とする。
既存のCLIPベースのアプローチでは、イメージとテキストを独立して埋め込み、結果を融合する。
その結果、モダリティ間の弱い相互作用が得られ、表現に対するユーザコントロールが貧弱になることがわかった。
本稿では,視覚モデルバックボーンを用いたオープンソースのマルチモーダル埋め込みモデルABCを紹介し,画像特徴と自然言語命令を深く統合する。
ABCは、MSCOCO画像からテキストへの検索において、最も優れた性能を達成し、MSCOCOの大量マルチモーダル埋め込みベンチマークにおける分類およびVQAタスクの最高性能モデルである。
ABCは、強く統一された視覚言語表現により、微妙で曖昧な視覚的検索問題を解決するために自然言語を使用することができる。
そこで我々はCtrlBenchを設計した。CtrlBenchはテキスト命令を画像コンテンツとインターリーブして正しい検索を行うためのベンチマークである。
ABCは高品質な表現と柔軟な自然言語制御を提供することで、マルチモーダル埋め込みの状態を前進させる。
私たちのモデルとデータセットはプロジェクトのページで公開されています。
関連論文リスト
- Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - jina-clip-v2: Multilingual Multimodal Embeddings for Text and Images [5.587329786636647]
Contrastive Language-Image Pretraining (CLIP) は、画像とテキストを共有埋め込み空間で整列する非常に効果的な方法である。
CLIPモデルはテキストのみのタスクに苦しむことが多く、特殊なテキストモデルに比べてパフォーマンスが劣る。
本研究では,従来のモデルであるjina-clip-v1に基づいて,マルチタスク,マルチステージのコントラスト学習を多言語で実現した改良フレームワークを提案する。
結果として得られたモデルであるjina-clip-v2は、テキストのみのタスクとマルチモーダルタスクで前バージョンより優れており、マルチリンガルサポート、複雑なビジュアルドキュメントの理解の向上、効率の向上などが追加されている。
論文 参考訳(メタデータ) (2024-12-11T22:28:12Z) - CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - Multimodal Knowledge Alignment with Reinforcement Learning [103.68816413817372]
ESPERは言語のみのゼロショットモデルを拡張して、画像や音声のキャプションといったマルチモーダルタスクを未確認にする。
我々の重要な新規性は、強化学習を使用することで、直接監督することなく、多モーダル入力を言語モデル世代に整列させることである。
実験の結果、ESPERはベースラインと様々なゼロショットタスクの事前作業より優れていることが示された。
論文 参考訳(メタデータ) (2022-05-25T10:12:17Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。