論文の概要: Compact Hypercube Embeddings for Fast Text-based Wildlife Observation Retrieval
- arxiv url: http://arxiv.org/abs/2601.22783v1
- Date: Fri, 30 Jan 2026 10:05:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.371694
- Title: Compact Hypercube Embeddings for Fast Text-based Wildlife Observation Retrieval
- Title(参考訳): テキストに基づく高速野生生物観察のための小型ハイパーキューブ埋め込み
- Authors: Ilyass Moummad, Marius Miron, David Robinson, Kawtar Zaher, Hervé Goëau, Olivier Pietquin, Pierre Bonnet, Emmanuel Chemla, Matthieu Geist, Alexis Joly,
- Abstract要約: 高速テキストに基づく野生生物の観察検索のためのコンパクトなハイパーキューブ埋め込みを提案する。
共有ハミング空間における自然言語記述と視覚的・音響的観察との整合性を確保するために,軽量ハッシングを拡張した。
その結果, 離散型ハイパーキューブ埋め込みを用いた検索は競争力が高く, 性能も優れていた。
- 参考スコア(独自算出の注目度): 32.233589145191175
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale biodiversity monitoring platforms increasingly rely on multimodal wildlife observations. While recent foundation models enable rich semantic representations across vision, audio, and language, retrieving relevant observations from massive archives remains challenging due to the computational cost of high-dimensional similarity search. In this work, we introduce compact hypercube embeddings for fast text-based wildlife observation retrieval, a framework that enables efficient text-based search over large-scale wildlife image and audio databases using compact binary representations. Building on the cross-view code alignment hashing framework, we extend lightweight hashing beyond a single-modality setup to align natural language descriptions with visual or acoustic observations in a shared Hamming space. Our approach leverages pretrained wildlife foundation models, including BioCLIP and BioLingual, and adapts them efficiently for hashing using parameter-efficient fine-tuning. We evaluate our method on large-scale benchmarks, including iNaturalist2024 for text-to-image retrieval and iNatSounds2024 for text-to-audio retrieval, as well as multiple soundscape datasets to assess robustness under domain shift. Results show that retrieval using discrete hypercube embeddings achieves competitive, and in several cases superior, performance compared to continuous embeddings, while drastically reducing memory and search cost. Moreover, we observe that the hashing objective consistently improves the underlying encoder representations, leading to stronger retrieval and zero-shot generalization. These results demonstrate that binary, language-based retrieval enables scalable and efficient search over large wildlife archives for biodiversity monitoring systems.
- Abstract(参考訳): 大規模生物多様性モニタリングプラットフォームは、ますます多様野生生物の観察に依存している。
近年の基盤モデルは、視覚、音声、言語を横断する豊かな意味表現を可能にするが、高次元類似性探索の計算コストのため、巨大なアーカイブから関連する観測結果を取得することは依然として困難である。
本研究では,コンパクトなバイナリ表現を用いた大規模野生生物画像およびオーディオデータベース上での効率的なテキスト検索を実現するフレームワークである,高速テキストベースの野生生物観察検索のためのコンパクトなハイパーキューブ埋め込みを提案する。
クロスビューなコードアライメントハッシュフレームワーク上に構築され、単一モダリティ設定を超えて軽量なハッシュを拡張して、自然言語記述と共有ハミング空間における視覚的または音響的観察を一致させる。
提案手法は,BioCLIPやBioLingualなど,事前訓練された野生生物基盤モデルを活用し,パラメータ効率の良い微調整によるハッシュ処理に効率的に適応する。
iNaturalist2024のテキスト画像検索,iNatSounds2024のテキスト音声検索,ドメインシフト下でのロバスト性を評価する複数のサウンドスケープデータセットなど,大規模ベンチマークで評価を行った。
その結果, 離散型ハイパーキューブ埋め込みを用いた検索は, メモリと検索コストを大幅に削減しつつ, 連続型埋め込みよりも性能が優れていることが示唆された。
さらに,ハッシュの目的が基礎となるエンコーダ表現を常に改善し,より強力な検索とゼロショットの一般化をもたらすことが観察された。
これらの結果は,生物多様性監視システムのための大規模野生生物アーカイブをスケーラブルかつ効率的に検索できることを実証した。
関連論文リスト
- Guided Query Refinement: Multimodal Hybrid Retrieval with Test-Time Optimization [10.476757608225475]
マルチモーダルエンコーダは、視覚文書検索の境界を押し広げている。
このパラダイムに依存する最近のモデルは、クエリやドキュメントの表現のサイズを大幅に拡大しています。
軽量な高密度テキストレトリバーが、より強力な視覚中心モデルを強化することができるかどうかを検討する。
論文 参考訳(メタデータ) (2025-10-06T17:12:53Z) - Vision-Free Retrieval: Rethinking Multimodal Search with Textual Scene Descriptions [81.33113485830711]
視覚言語モデルに対して,視覚のない単一エンコーダ検索パイプラインを導入する。
VLLM生成した構造化画像記述の助けを借りてテキストからテキストへ移行する。
提案手法は,複数検索および構成性ベンチマークにおいて,最先端のゼロショット性能を実現する。
論文 参考訳(メタデータ) (2025-09-23T16:22:27Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - Improving the Robustness of Summarization Systems with Dual Augmentation [68.53139002203118]
頑健な要約システムは、入力中の特定の単語の選択やノイズに関わらず、文書のギストをキャプチャできるべきである。
まず,単語レベルの同義語置換や雑音を含む摂動に対する要約モデルの頑健性について検討する。
SummAttackerを提案する。これは言語モデルに基づく対数サンプルを生成するための効率的な手法である。
論文 参考訳(メタデータ) (2023-06-01T19:04:17Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with
Transformers [115.90778814368703]
目的は,大規模画像とビデオデータセットの言語検索である。
このタスクでは、独立してテキストとビジョンを共同埋め込み空間 a.k.a にマッピングする。
デュアルエンコーダは 検索スケールとして魅力的です
視覚テキスト変換器をクロスアテンションで使用する別のアプローチは、関節埋め込みよりも精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-03-30T17:57:08Z) - ExchNet: A Unified Hashing Network for Large-Scale Fine-Grained Image
Retrieval [43.41089241581596]
そこで我々は, きめ細かい画像のためのコンパクトなバイナリコードを生成するために, 新たなきめ細かなハッシュトピックについて検討した。
我々は、ExchNetと呼ばれる、エンドツーエンドのトレーニング可能な統合ネットワークを提案する。
提案手法は,5つのきめ細かいデータセットに対して,最先端の汎用ハッシュ法より一貫して優れている。
論文 参考訳(メタデータ) (2020-08-04T07:01:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。