論文の概要: LILaC: Late Interacting in Layered Component Graph for Open-domain Multimodal Multihop Retrieval
- arxiv url: http://arxiv.org/abs/2602.04263v1
- Date: Wed, 04 Feb 2026 06:55:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.407869
- Title: LILaC: Late Interacting in Layered Component Graph for Open-domain Multimodal Multihop Retrieval
- Title(参考訳): LILaC: オープンドメインマルチモーダルマルチホップ検索のための階層化コンポーネントグラフの遅延処理
- Authors: Joohyung Yun, Doyup Lee, Wook-Shin Han,
- Abstract要約: LILaCは2つのコアイノベーションを特徴とするマルチモーダル検索フレームワークである。
まず,2つのレイヤにおけるマルチモーダル情報を明示的に表現した階層化コンポーネントグラフを提案する。
次に,遅延相互作用に基づくサブグラフ検索手法を提案する。
- 参考スコア(独自算出の注目度): 13.855117422052315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal document retrieval aims to retrieve query-relevant components from documents composed of textual, tabular, and visual elements. An effective multimodal retriever needs to handle two main challenges: (1) mitigate the effect of irrelevant contents caused by fixed, single-granular retrieval units, and (2) support multihop reasoning by effectively capturing semantic relationships among components within and across documents. To address these challenges, we propose LILaC, a multimodal retrieval framework featuring two core innovations. First, we introduce a layered component graph, explicitly representing multimodal information at two layers - each representing coarse and fine granularity - facilitating efficient yet precise reasoning. Second, we develop a late-interaction-based subgraph retrieval method, an edge-based approach that initially identifies coarse-grained nodes for efficient candidate generation, then performs fine-grained reasoning via late interaction. Extensive experiments demonstrate that LILaC achieves state-of-the-art retrieval performance on all five benchmarks, notably without additional fine-tuning. We make the artifacts publicly available at github.com/joohyung00/lilac.
- Abstract(参考訳): マルチモーダル文書検索は、テキスト、表、ビジュアル要素からなる文書からクエリ関連コンポーネントを検索することを目的としている。
有効なマルチモーダル検索には,(1)固定された単一粒度検索ユニットによる無関係な内容の影響を軽減すること,(2)文書内のコンポーネント間のセマンティックな関係を効果的に捉えることで,マルチホップ推論を支援すること,の2つの課題に対処する必要がある。
これらの課題に対処するために,2つのコアイノベーションを特徴とするマルチモーダル検索フレームワークLILaCを提案する。
まず,2つの層(それぞれ粗い粒度と細かい粒度)でマルチモーダル情報を明示的に表現し,効率的かつ正確な推論を容易にする階層化コンポーネントグラフを提案する。
第二に、遅延相互作用に基づく部分グラフ検索法、すなわちエッジベースの手法を開発し、まず、粗粒度ノードを同定して効率的な候補生成を行い、その後、遅延相互作用によるきめ細かい推論を行う。
LILaCは5つのベンチマークすべてで最先端の検索性能を実現しており、特に微調整は不要である。
アーティファクトはgithub.com/joohyung00/lilacで公開しています。
関連論文リスト
- Resolving Evidence Sparsity: Agentic Context Engineering for Long-Document Understanding [49.26132236798123]
視覚言語モデル(VLM)は、文書理解における主要なアプローチになりつつある。
本稿では,粗いプロセスにおいて,検索者と4つの協調エージェントを編成するマルチエージェントフレームワークSLEUTHを提案する。
このフレームワークは、検索したページ内の重要なテキストおよび視覚的手がかりを特定し、テーブルやチャートなどの健全な視覚的エビデンスをフィルタし、クエリを分析して推論戦略を考案する。
論文 参考訳(メタデータ) (2025-11-28T03:09:40Z) - URaG: Unified Retrieval and Generation in Multimodal LLMs for Efficient Long Document Understanding [55.45331924836242]
MLLM内での検索と生成を統一するフレームワークであるURaGについて述べる。
URaGは,計算オーバーヘッドを44~56%削減し,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-11-13T17:54:09Z) - Doc2Query++: Topic-Coverage based Document Expansion and its Application to Dense Retrieval via Dual-Index Fusion [8.523351031498839]
クエリ生成によるドキュメント拡張(DE)は、スパース検索において語彙ミスマッチに取り組むが、制限に直面している。
ドキュメントの潜在トピックをまず推測することでクエリ生成を構造化するDEフレームワークであるDoc2Query++を紹介します。
本稿では,テキストとクエリ信号を分離し,高密度設定における性能を向上させるDual-Index Fusion戦略を提案する。
論文 参考訳(メタデータ) (2025-10-10T17:07:48Z) - Divide by Question, Conquer by Agent: SPLIT-RAG with Question-Driven Graph Partitioning [62.640169289390535]
SPLIT-RAGは、質問駆動セマンティックグラフ分割と協調サブグラフ検索による制限に対処するマルチエージェントRAGフレームワークである。
革新的なフレームワークは、まずリンク情報のセマンティック分割を作成し、次にタイプ特化知識ベースを使用してマルチエージェントRAGを実現する。
属性対応グラフセグメンテーションは、知識グラフを意味的に一貫性のあるサブグラフに分割し、サブグラフが異なるクエリタイプと整合することを保証する。
階層的なマージモジュールは、論理的検証を通じて、部分グラフ由来の解答間の矛盾を解消する。
論文 参考訳(メタデータ) (2025-05-20T06:44:34Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - Leveraging Inter-Chunk Interactions for Enhanced Retrieval in Large Language Model-Based Question Answering [12.60063463163226]
IIERは、構造、キーワード、セマンティックという3つのタイプの相互作用を考慮し、ドキュメントチャンク間の内部接続をキャプチャする。
対象の質問に基づいて複数のシードノードを特定し、関連するチャンクを反復的に検索して、支持する証拠を収集する。
コンテキストと推論チェーンを洗練し、推論と回答の生成において大きな言語モデルを支援する。
論文 参考訳(メタデータ) (2024-08-06T02:39:55Z) - CART: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
クロスモーダル検索は、異なるモーダルデータの相互作用を通じて、クエリと意味的に関連するインスタンスを検索することを目的としている。
従来のソリューションでは、クエリと候補の間のスコアを明示的に計算するために、シングルトウワーまたはデュアルトウワーのフレームワークを使用している。
粗大なセマンティックモデリングに基づく生成的クロスモーダル検索フレームワーク(CART)を提案する。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z) - Multi-View Document Representation Learning for Open-Domain Dense
Retrieval [87.11836738011007]
本稿では,多視点文書表現学習フレームワークを提案する。
ドキュメントを表現し、異なるクエリに合わせるように強制するために、マルチビューの埋め込みを作成することを目的としている。
実験により,本手法は最近の成果より優れ,最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-03-16T03:36:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。