論文の概要: WISE: A Multimodal Search Engine for Visual Scenes, Audio, Objects, Faces, Speech, and Metadata
- arxiv url: http://arxiv.org/abs/2602.12819v1
- Date: Fri, 13 Feb 2026 11:03:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.92799
- Title: WISE: A Multimodal Search Engine for Visual Scenes, Audio, Objects, Faces, Speech, and Metadata
- Title(参考訳): WISE: ビジュアルシーン、オーディオ、オブジェクト、顔、音声、メタデータのためのマルチモーダル検索エンジン
- Authors: Prasanna Sridhar, Horace Lee, David M. S. Pinto, Andrew Zisserman, Abhishek Dutta,
- Abstract要約: 本稿では,オープンソースのオーディオヴィジュアル検索エンジンWISEを紹介する。
WISEは自然言語およびリバースイメージクエリをサポートする。
何百万もの画像や何千時間ものビデオを効率よく検索できる。
- 参考スコア(独自算出の注目度): 41.04817565873235
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present WISE, an open-source audiovisual search engine which integrates a range of multimodal retrieval capabilities into a single, practical tool accessible to users without machine learning expertise. WISE supports natural-language and reverse-image queries at both the scene level (e.g. empty street) and object level (e.g. horse) across images and videos; face-based search for specific individuals; audio retrieval of acoustic events using text (e.g. wood creak) or an audio file; search over automatically transcribed speech; and filtering by user-provided metadata. Rich insights can be obtained by combining queries across modalities -- for example, retrieving German trains from a historical archive by applying the object query "train" and the metadata query "Germany", or searching for a face in a place. By employing vector search techniques, WISE can scale to support efficient retrieval over millions of images or thousands of hours of video. Its modular architecture facilitates the integration of new models. WISE can be deployed locally for private or sensitive collections, and has been applied to various real-world use cases. Our code is open-source and available at https://gitlab.com/vgg/wise/wise.
- Abstract(参考訳): 本稿では,機械学習の専門知識のないユーザに対して,多様なマルチモーダル検索機能を,単一の実用的なツールに統合したオープンソースのオーディオ視覚検索エンジンWISEを提案する。
WISEは、シーンレベル(例えば空の通り)とオブジェクトレベル(例えば馬)の両方で自然言語とリバースイメージクエリをサポートし、特定の個人を顔で検索し、テキスト(egwood creak)またはオーディオファイルを使って音響イベントをオーディオ検索し、自動的に書き起こされた音声を検索し、ユーザーが提供するメタデータでフィルタリングする。
例えば、オブジェクトクエリ"train"とメタデータクエリ"Germany"を適用して、歴史的なアーカイブからドイツの列車を検索したり、ある場所の顔を探すことで、リッチな洞察を得ることができる。
ベクトル探索技術を利用することで、WISEは何百万もの画像や何千時間もの動画の効率的な検索をサポートすることができる。
モジュラーアーキテクチャは、新しいモデルの統合を促進する。
WISEは、プライベートまたはセンシティブなコレクションのためにローカルにデプロイすることができ、様々な現実世界のユースケースに適用されている。
私たちのコードはオープンソースで、https://gitlab.com/vgg/wise/wiseで利用可能です。
関連論文リスト
- Omni-Embed-Nemotron: A Unified Multimodal Retrieval Model for Text, Image, Audio, and Video [5.732421858297378]
Omni-Embed-Nemotronは,実世界の情報ニーズの複雑化に対応するために開発された,統合型マルチモーダル検索埋め込みモデルである。
我々は,Omni-Embed-Nemotronのアーキテクチャ,トレーニング設定,評価結果を記述し,テキスト,画像,ビデオ検索においてその有効性を示す。
論文 参考訳(メタデータ) (2025-10-03T19:29:50Z) - Localizing Events in Videos with Multimodal Queries [61.20556229245365]
セマンティッククエリに基づくビデオ内のイベントのローカライズは、ビデオ理解における重要なタスクである。
マルチモーダルクエリでビデオ中のイベントをローカライズするための新しいベンチマークであるICQを紹介する。
疑似MQs戦略における3つのマルチモーダルクエリ適応法と新しいサロゲートファインタニングを提案する。
論文 参考訳(メタデータ) (2024-06-14T14:35:58Z) - Zero-shot Audio Topic Reranking using Large Language Models [42.774019015099704]
実例によるマルチモーダルビデオ検索 (MVSE) では, ビデオクリップを情報検索の問合せ語として利用する。
本研究の目的は,この高速アーカイブ検索による性能損失を,再ランク付け手法を検証することによって補償することである。
パブリックなビデオアーカイブであるBBC Rewind corpusでトピックベースの検索のパフォーマンスを評価する。
論文 参考訳(メタデータ) (2023-09-14T11:13:36Z) - Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - APES: Audiovisual Person Search in Untrimmed Video [87.4124877066541]
音声人物探索データセット(APES)について述べる。
APESには36時間のビデオにラベル付けされた1,9K以上のIDが含まれている。
APESの重要な特徴は、顔と同一アイデンティティの音声セグメントをリンクする密集した時間アノテーションを含むことである。
論文 参考訳(メタデータ) (2021-06-03T08:16:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。