論文の概要: What's the Best Way to Retrieve Slides? A Comparative Study of Multimodal, Caption-Based, and Hybrid Retrieval Techniques
- arxiv url: http://arxiv.org/abs/2509.15211v1
- Date: Thu, 18 Sep 2025 17:57:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.38866
- Title: What's the Best Way to Retrieve Slides? A Comparative Study of Multimodal, Caption-Based, and Hybrid Retrieval Techniques
- Title(参考訳): スライドを検索する最善の方法は何か? マルチモーダル, キャプションベース, ハイブリッド検索技術の比較検討
- Authors: Petros Stylianos Giouroukis, Dimitris Dimitriadis, Dimitrios Papadopoulos, Zhenwen Shao, Grigorios Tsoumakas,
- Abstract要約: テキスト、画像、チャートを組み合わせたマルチモダリティは、検索強化生成システムの課題を提示する。
本論文では,ColPaliのような視覚的遅延相互作用埋め込みモデル,視覚的リランカの利用,密集検索とBM25を組み合わせたハイブリッド検索など,効果的なスライド検索手法について検討する。
ビジョンランゲージモデルに基づく新しいキャプションパイプラインも評価され、視覚的遅延動作技術と比較して埋め込みストレージの要求が大幅に低減された。
- 参考スコア(独自算出の注目度): 11.421689052786467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Slide decks, serving as digital reports that bridge the gap between presentation slides and written documents, are a prevalent medium for conveying information in both academic and corporate settings. Their multimodal nature, combining text, images, and charts, presents challenges for retrieval-augmented generation systems, where the quality of retrieval directly impacts downstream performance. Traditional approaches to slide retrieval often involve separate indexing of modalities, which can increase complexity and lose contextual information. This paper investigates various methodologies for effective slide retrieval, including visual late-interaction embedding models like ColPali, the use of visual rerankers, and hybrid retrieval techniques that combine dense retrieval with BM25, further enhanced by textual rerankers and fusion methods like Reciprocal Rank Fusion. A novel Vision-Language Models-based captioning pipeline is also evaluated, demonstrating significantly reduced embedding storage requirements compared to visual late-interaction techniques, alongside comparable retrieval performance. Our analysis extends to the practical aspects of these methods, evaluating their runtime performance and storage demands alongside retrieval efficacy, thus offering practical guidance for the selection and development of efficient and robust slide retrieval systems for real-world applications.
- Abstract(参考訳): スライドデッキは、プレゼンテーションスライドと文書のギャップを埋めるデジタルレポートとして機能し、学術と企業の両方で情報を伝達するための一般的な媒体である。
テキスト、画像、チャートを組み合わせたマルチモーダルな性質は、検索の質が下流のパフォーマンスに直接影響を与えるような、検索強化された生成システムにとっての課題を提示している。
従来のスライド検索手法は、しばしばモダリティの別個のインデックス付けを伴い、複雑さを増し、文脈情報を失うことがある。
本論文では,ColPaliのような視覚的遅延相互作用埋め込みモデルや視覚的リランカの利用,高密度検索とBM25を組み合わせたハイブリッド検索技術など,効果的なスライド検索手法について検討する。
Vision-Language Modelsベースの新しいキャプションパイプラインも評価され、視覚的遅延処理技術と同等な検索性能の組込みストレージ要件が大幅に低減された。
本分析は,これらの手法の実践的側面にまで拡張し,それらの実行時性能とストレージ要求を検索効率とともに評価し,実世界のアプリケーションのための効率的で堅牢なスライド検索システムの選択と開発のための実践的ガイダンスを提供する。
関連論文リスト
- A Multi-Granularity Retrieval Framework for Visually-Rich Documents [4.804551482123172]
本稿では,MMDocIRとM2KRの2つのベンチマークタスクに適した,統一されたマルチグラニュラリティマルチモーダル検索フレームワークを提案する。
提案手法は,階層型符号化戦略,モダリティ対応検索機構,視覚言語モデル(VLM)に基づく候補フィルタリングを統合する。
本フレームワークは,タスク固有の微調整を必要とせずに,堅牢な性能を示す。
論文 参考訳(メタデータ) (2025-05-01T02:40:30Z) - Generative Compositor for Few-Shot Visual Information Extraction [60.663887314625164]
生成空間モデルとして生成空間モデル(Generative Generative Spacetor)を提案する。
ジェネレーティブジェネレーター(Generative Generative Spacetor)は、ソーステキストから単語を検索することでコンポジタの操作をエミュレートするハイブリッドポインタージェネレータネットワークである。
提案手法は,1ショット,5ショット,10ショットの設定において,ベースラインを上回りながら,フルサンプルトレーニングにおいて高い競争力を発揮する。
論文 参考訳(メタデータ) (2025-03-21T04:56:24Z) - Few-Shot, No Problem: Descriptive Continual Relation Extraction [27.296604792388646]
AIシステムが現実世界のドメインにおける進化する関係を識別し、適応できるようにする上で、わずかなショットの連続関係抽出は重要な課題である。
従来のメモリベースのアプローチは、しばしば限られたサンプルに過度に適合し、古い知識の強化に失敗する。
本稿では,関係関係記述を生成するために,大規模言語モデルから始まる新しい検索ベースソリューションを提案する。
論文 参考訳(メタデータ) (2025-02-27T23:44:30Z) - Retrieval-guided Cross-view Image Synthesis [3.7477511412024573]
クロスビュー画像合成は、信頼性の高い対応を確立する上で大きな課題となる。
本稿では,検索手法が効果的なクロスビュー画像合成を促進する方法を再定義する検索誘導フレームワークを提案する。
我々の研究は、情報検索と合成タスクを橋渡しし、検索技術が複雑なドメイン間合成の課題にどのように対処できるかについての洞察を提供する。
論文 参考訳(メタデータ) (2024-11-29T07:04:44Z) - DiSCo: LLM Knowledge Distillation for Efficient Sparse Retrieval in Conversational Search [19.694957365385896]
Conversational Search (CS) は、コンテキストモデリングを考慮しつつ、コーパスから関連文書を検索する。
大規模言語モデル(LLM)の最近の進歩は、コンテキストに基づいたクエリ書き換えを可能にすることで、CSを大幅に強化した。
本稿では,検索とコンテキストモデリングを統合した新しい手法であるDistillation of Sparse Conversational Searchを紹介する。
論文 参考訳(メタデータ) (2024-10-18T17:03:17Z) - Compressible and Searchable: AI-native Multi-Modal Retrieval System with Learned Image Compression [0.6345523830122168]
従来のアプローチは、マルチメディアデータのエスカレートする複雑さとスケールに対応するのに苦労する。
我々は、AIネイティブなマルチモーダル検索機能をニューラルネットワーク圧縮で融合させることにより、この問題に対処するフレームワークを提案した。
我々の研究は、ビッグデータ時代におけるスケーラブルで効率的なマルチモーダル検索システムへの大きな進歩を示している。
論文 参考訳(メタデータ) (2024-04-16T02:29:00Z) - Text-to-Image Diffusion Models are Great Sketch-Photo Matchmakers [120.49126407479717]
本稿では,ゼロショットスケッチに基づく画像検索(ZS-SBIR)のためのテキスト・画像拡散モデルについて検討する。
スケッチと写真の間のギャップをシームレスに埋めるテキストと画像の拡散モデルの能力。
論文 参考訳(メタデータ) (2024-03-12T00:02:03Z) - Learning to Rank in Generative Retrieval [62.91492903161522]
生成的検索は、検索対象として関連する通路の識別子文字列を生成することを目的としている。
我々はLTRGRと呼ばれる生成検索のための学習 torankフレームワークを提案する。
このフレームワークは、現在の生成的検索システムを強化するために、追加の学習からランクまでのトレーニングフェーズのみを必要とする。
論文 参考訳(メタデータ) (2023-06-27T05:48:14Z) - IRGen: Generative Modeling for Image Retrieval [82.62022344988993]
本稿では,画像検索を生成モデルの一種として再フレーミングする新しい手法を提案する。
我々は、イメージを意味単位の簡潔なシーケンスに変換するという技術的課題に対処するため、IRGenと呼ばれるモデルを開発した。
本モデルは,広範に使用されている3つの画像検索ベンチマークと200万件のデータセットに対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-17T17:07:36Z) - Incorporating Relevance Feedback for Information-Seeking Retrieval using
Few-Shot Document Re-Ranking [56.80065604034095]
我々は,クエリとユーザが関連すると考えるドキュメントとの類似性に基づいて,文書を再参照するkNNアプローチを提案する。
異なる統合戦略を評価するため、既存の4つの情報検索データセットを関連フィードバックシナリオに変換する。
論文 参考訳(メタデータ) (2022-10-19T16:19:37Z) - Where Does the Performance Improvement Come From? - A Reproducibility
Concern about Image-Text Retrieval [85.03655458677295]
画像テキスト検索は、情報検索分野において、徐々に主要な研究方向になりつつある。
まず、画像テキスト検索タスクに焦点が当てられている理由と関連性について検討する。
本研究では,事前学習と非事前学習による検索モデルの再現の諸側面を解析する。
論文 参考訳(メタデータ) (2022-03-08T05:01:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。