Fugu-MT 論文翻訳(概要): LLandMark: A Multi-Agent Framework for Landmark-Aware Multimodal Interactive Video Retrieval

論文の概要: LLandMark: A Multi-Agent Framework for Landmark-Aware Multimodal Interactive Video Retrieval

arxiv url: http://arxiv.org/abs/2603.02888v1
Date: Tue, 03 Mar 2026 11:36:34 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-04 21:38:10.771903
Title: LLandMark: A Multi-Agent Framework for Landmark-Aware Multimodal Interactive Video Retrieval
Title（参考訳）: LLandMark:ランドマーク対応マルチモーダルインタラクティブビデオ検索のためのマルチエージェントフレームワーク
Authors: Minh-Chi Phung, Thien-Bao Le, Cam-Tu Tran-Thi, Thu-Dieu Nguyen-Thi, Vu-Hung Dao,
Abstract要約: LLandMarkはランドマーク対応のマルチモーダルビデオ検索のためのモジュラーフレームワークである。このフレームワークは、クエリ解析と計画、ランドマーク推論、マルチモーダル検索、再帰的な回答合成の4つのステージで協力する特殊エージェントを備えている。ランドマーク知識エージェント(Landmark Knowledge Agent)は、文化的または空間的なランドマークを検出し、それらを説明的な視覚的プロンプトに再構成し、ベトナムのシーンに対するCLIPベースのセマンティックマッチングを強化する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: The increasing diversity and scale of video data demand retrieval systems capable of multimodal understanding, adaptive reasoning, and domain-specific knowledge integration. This paper presents LLandMark, a modular multi-agent framework for landmark-aware multimodal video retrieval to handle real-world complex queries. The framework features specialized agents that collaborate across four stages: query parsing and planning, landmark reasoning, multimodal retrieval, and reranked answer synthesis. A key component, the Landmark Knowledge Agent, detects cultural or spatial landmarks and reformulates them into descriptive visual prompts, enhancing CLIP-based semantic matching for Vietnamese scenes. To expand capabilities, we introduce an LLM-assisted image-to-image pipeline, where a large language model (Gemini 2.5 Flash) autonomously detects landmarks, generates image search queries, retrieves representative images, and performs CLIP-based visual similarity matching, removing the need for manual image input. In addition, an OCR refinement module leveraging Gemini and LlamaIndex improves Vietnamese text recognition. Experimental results show that LLandMark achieves adaptive, culturally grounded, and explainable retrieval performance.
Abstract（参考訳）: マルチモーダル理解,適応推論,ドメイン固有の知識統合が可能なビデオデータ要求検索システムの多様性と規模が増大する。本稿では,ランドマークを意識したマルチモーダルビデオ検索のためのモジュール型マルチエージェントフレームワークであるLLandMarkについて述べる。このフレームワークは、クエリ解析と計画、ランドマーク推論、マルチモーダル検索、再帰的な回答合成の4つのステージで協力する特殊エージェントを備えている。ランドマーク知識エージェント(Landmark Knowledge Agent)は、文化的または空間的なランドマークを検出し、それらを説明的な視覚的プロンプトに再構成し、ベトナムのシーンに対するCLIPベースのセマンティックマッチングを強化する。機能拡張のために,大規模な言語モデル(Gemini 2.5 Flash)がランドマークを自律的に検出し,画像検索クエリを生成し,代表画像を取得し,CLIPベースの視覚的類似性マッチングを実行し,手動画像入力の必要性を解消するLLM支援イメージ・ツー・イメージパイプラインを導入する。さらに、GeminiとLlamaIndexを利用したOCRリファインメントモジュールはベトナム語のテキスト認識を改善している。実験の結果, LLandMarkは適応的, 文化的基盤, 説明可能な検索性能が得られることがわかった。

関連論文リスト

Pixel-Grounded Retrieval for Knowledgeable Large Multimodal Models [58.46663983451155]
PixSearchは、地域レベルの認識と検索強化推論を統合する、エンドツーエンドのLMM(Large Multimodal Model)である。エンコーディング中、PixSearchは検索をトリガーする検索>トークンを出力し、クエリのモダリティ(テキスト、画像、リージョン)を選択し、ビジュアルクエリとして直接機能するピクセルレベルのマスクを生成する。エゴセントリックでエンティティ中心のVQAベンチマークでは、PixSearchは事実整合性と一般化を大幅に改善する。
論文参考訳（メタデータ） (2026-01-27T00:46:08Z)
VLM2GeoVec: Toward Universal Multimodal Embeddings for Remote Sensing [59.73939718087177]
シングルエンコーダの視覚言語モデルは、統合ベクトル空間にインターリーブされた入力を埋め込むために対照的に訓練された。 VLM2GeoVecは、領域レベルの空間推論とスケーラブルな検索を統合し、リモートセンシングにおける凝集性多モード解析を可能にする。
論文参考訳（メタデータ） (2025-12-12T11:39:35Z)
V-Agent: An Interactive Video Search System Using Vision-Language Models [5.245473886566199]
V-Agentは、高度なビデオ検索と対話型ユーザシステム会話のために設計された、新しいマルチエージェントプラットフォームである。提案フレームワークは,MultiVENT 2.0ベンチマークで最先端のゼロショット性能を示す。
論文参考訳（メタデータ） (2025-11-04T07:24:45Z)
Exploring a Unified Vision-Centric Contrastive Alternatives on Multi-Modal Web Documents [99.62178668680578]
本稿では,単一の視覚変換器を用いてテキスト,画像,それらの組み合わせをモデル化する統合フレームワークであるビジョン中心コントラスト学習(VC2L)を提案する。 VC2Lは完全にピクセル空間で動作し、テキスト、ビジュアル、または組み合わせのいずれでも、すべての入力を画像として描画する。ウェブ文書における複雑なクロスモーダル関係を捉えるため、VC2Lは連続するマルチモーダルセグメントを整列するスニペットレベルのコントラスト学習目標を採用している。
論文参考訳（メタデータ） (2025-10-21T14:59:29Z)
MGCR-Net:Multimodal Graph-Conditioned Vision-Language Reconstruction Network for Remote Sensing Change Detection [55.702662643521265]
マルチモーダルデータのセマンティックインタラクション機能を検討するために,マルチモーダルグラフ条件付き視覚言語再構成ネットワーク(MGCR-Net)を提案する。 4つの公開データセットによる実験結果から,MGCRは主流CD法に比べて優れた性能を示した。
論文参考訳（メタデータ） (2025-08-03T02:50:08Z)
Perceive Anything: Recognize, Explain, Caption, and Segment Anything in Images and Videos [53.723410664944566]
本稿では,画像やビデオの総合的な領域レベルの視覚的理解のためのフレームワークであるPerceive Anything Model(PAM)を提案する。提案手法は,Large Language Models (LLMs) を統合することで,強力なセグメンテーションモデルSAM 2を拡張し,オブジェクトセグメンテーションの同時実現を可能にする。 SAM 2のリッチな視覚的特徴をマルチモーダルトークンに効率的に変換するために、Semantic Perceiverという重要なコンポーネントが導入されている。
論文参考訳（メタデータ） (2025-06-05T17:51:39Z)
MMMORRF: Multimodal Multilingual Modularized Reciprocal Rank Fusion [43.725594356981254]
視覚と音声の両モードからテキストや特徴を抽出する検索システムを構築した。 MMMORRFは効率的かつ効果的であり、ユーザの情報要求に基づいてビデオ検索の実用性を示す。
論文参考訳（メタデータ） (2025-03-26T16:28:04Z)
Recurrence-Enhanced Vision-and-Language Transformers for Robust Multimodal Document Retrieval [44.008094698200026]
クロスモーダル検索は研究コミュニティから有効性や関心が増している。本稿では,画像とテキストの両方からなるマルチモーダルクエリを実現するアプローチを設計する。我々のモデルであるReTは、視覚とテキストの両方のバックボーンの異なるレイヤから抽出されたマルチレベル表現を用いる。
論文参考訳（メタデータ） (2025-03-03T19:01:17Z)
Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文参考訳（メタデータ） (2025-02-18T12:00:47Z)
Enhancing Interactive Image Retrieval With Query Rewriting Using Large Language Models and Vision Language Models [17.171715290673678]
本稿では,ユーザの関連性フィードバックに基づいてクエリを精査できる対話型画像検索システムを提案する。本システムは,視覚言語モデル(VLM)に基づく画像キャプタを組み込んで,テキストベースのクエリの質を高める。本システムを評価するために,MSR-VTTビデオ検索データセットを画像検索タスクに適用することにより,新たなデータセットをキュレートする。
論文参考訳（メタデータ） (2024-04-29T14:46:35Z)
Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々はDraw-and-Understandフレームワークを提案し、視覚的プロンプト理解機能をMLLM(Multimodal Large Language Models)に統合する方法を探る。視覚的なプロンプトにより、ユーザーはマルチモーダルなインストラクションを通じて対話することができ、モデルの対話性ときめ細かなイメージ理解を高めることができる。本稿では,様々な学習済みMLLMに適応し,様々な視覚的プロンプトを認識可能な汎用アーキテクチャを提案する。
論文参考訳（メタデータ） (2024-03-29T16:26:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。