論文の概要: Vector embedding of multi-modal texts: a tool for discovery?
- arxiv url: http://arxiv.org/abs/2509.08216v1
- Date: Wed, 10 Sep 2025 01:14:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.281162
- Title: Vector embedding of multi-modal texts: a tool for discovery?
- Title(参考訳): マルチモーダルテキストのベクトル埋め込み:発見のためのツールか?
- Authors: Beth Plale, Sai Navya Jyesta, Sachith Withana,
- Abstract要約: 本研究では,ベクトルベースのマルチモーダル検索が,マルチモーダル(テキストと画像)コンテンツ間の発見をいかに改善できるかを検討する。
我々はコンピュータサイエンス教科書と視覚言語モデル(VLM)を中心に,3600以上のデジタル化された教科書ページを使用している。
本稿では,75の自然言語クエリのベンチマークを発行し,検索性能を4つの類似性(距離)尺度で比較する。
- 参考スコア(独自算出の注目度): 0.45880283710344055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Computer science texts are particularly rich in both narrative content and illustrative charts, algorithms, images, annotated diagrams, etc. This study explores the extent to which vector-based multimodal retrieval, powered by vision-language models (VLMs), can improve discovery across multi-modal (text and images) content. Using over 3,600 digitized textbook pages largely from computer science textbooks and a Vision Language Model (VLM), we generate multi-vector representations capturing both textual and visual semantics. These embeddings are stored in a vector database. We issue a benchmark of 75 natural language queries and compare retrieval performance to ground truth and across four similarity (distance) measures. The study is intended to expose both the strengths and weakenesses of such an approach. We find that cosine similarity most effectively retrieves semantically and visually relevant pages. We further discuss the practicality of using a vector database and multi-modal embedding for operational information retrieval. Our paper is intended to offer design insights for discovery over digital libraries. Keywords: Vector embedding, multi-modal document retrieval, vector database benchmark, digital library discovery
- Abstract(参考訳): コンピュータサイエンスのテキストは、特に物語の内容とイラストレーションチャート、アルゴリズム、画像、注釈付き図などの両方に富んでいる。
本研究では,視覚言語モデル(VLM)を用いたベクトルベースマルチモーダル検索が,マルチモーダル(テキストと画像)コンテンツ間の発見をいかに改善できるかを検討する。
コンピュータサイエンス教科書とビジョン言語モデル(VLM)から3600以上のデジタル化された教科書ページを用いて,テキストと視覚のセマンティクスの両方をキャプチャするマルチベクトル表現を生成する。
これらの埋め込みはベクトルデータベースに格納される。
本稿では,75の自然言語クエリのベンチマークを発行し,検索性能を4つの類似性(距離)尺度で比較する。
この研究は、そのようなアプローチの強みと弱みの両方を明らかにすることを意図している。
その結果,コサインの類似性が意味的・視覚的関連ページを最も効果的に検索できることが判明した。
さらに,ベクトルデータベースとマルチモーダル埋め込みを用いた操作情報検索の実用性についても論じる。
本論文は,デジタルライブラリによる発見のためのデザインインサイトの提供を目的としている。
キーワード:ベクトル埋め込み、マルチモーダル文書検索、ベクトルデータベースベンチマーク、デジタルライブラリー発見
関連論文リスト
- Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - A Library Perspective on Supervised Text Processing in Digital Libraries: An Investigation in the Biomedical Domain [3.9519587827662397]
本研究では,8つのバイオメディカルベンチマークを用いて,関係抽出とテキスト分類に焦点を当てた。
精度とアプリケーションコストのトレードオフを検討し、遠隔監視とChatGPT、LLama、Olmoといった大規模言語モデルを通じてデータ生成のトレーニングを行い、最終パイプラインの設計方法について論じる。
論文 参考訳(メタデータ) (2024-11-06T07:54:10Z) - TRINS: Towards Multimodal Language Models that Can Read [61.17806538631744]
TRINSはText-RichイメージINStructionデータセットである。
39,153の画像、キャプション、102,437の質問が含まれている。
本稿では,画像中のテキスト内容の理解に長けたLanguage-vision Reading Assistant(LaRA)を提案する。
論文 参考訳(メタデータ) (2024-06-10T18:52:37Z) - VISTA: Visualized Text Embedding For Universal Multi-Modal Retrieval [10.603148564713518]
汎用マルチモーダル検索のための新しい埋め込みモデルVISTAを提案する。
画像理解機能を備えた強力なテキストエンコーダを拡張するフレキシブルアーキテクチャを導入する。
第2に,埋め込みモデルのトレーニングを容易にするために,高品質な合成画像テキストを提供する2つのデータ生成戦略を開発する。
論文 参考訳(メタデータ) (2024-06-06T17:37:47Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - Multimodal Representation Learning With Text and Images [2.998895355715139]
本研究は,テキストと画像データの同時表現学習において,マルチモーダルAIと行列分解技術を活用する。
学習表現は下流の分類と回帰タスクを用いて評価される。
論文 参考訳(メタデータ) (2022-04-30T03:25:01Z) - Towards Efficient Cross-Modal Visual Textual Retrieval using
Transformer-Encoder Deep Features [10.163477961551592]
クロスモーダル検索は、現代の検索エンジンにおいて重要な機能である。
本稿では,画像文検索に焦点をあてる。
我々は最近導入されたTERNアーキテクチャを画像文特徴抽出器として利用する。
論文 参考訳(メタデータ) (2021-06-01T10:11:46Z) - Vectorization and Rasterization: Self-Supervised Learning for Sketch and
Handwriting [168.91748514706995]
自己監督型機能学習のための2つの新しいクロスモーダル翻訳プリテキストタスクを提案する:ベクトル化とラスタリゼーション。
当社の学習したエンコーダモジュールは、手書きデータを分析するために、ベースとベクターの両方のダウンストリームアプローチに役立ちます。
論文 参考訳(メタデータ) (2021-03-25T09:47:18Z) - Deep Graph Matching and Searching for Semantic Code Retrieval [76.51445515611469]
本稿では,グラフニューラルネットワークに基づくエンドツーエンドのディープグラフマッチングと探索モデルを提案する。
まず、自然言語クエリテキストとプログラミング言語のコードスニペットをグラフ構造化データで表現する。
特に、DGMSは、個々のクエリテキストやコードスニペットのより構造的な情報をキャプチャするだけでなく、それらの微妙な類似性も学習する。
論文 参考訳(メタデータ) (2020-10-24T14:16:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。