論文の概要: Storing Less, Finding More: How Novelty Filtering Improves Cross-Modal Retrieval on Edge Cameras
- arxiv url: http://arxiv.org/abs/2603.29631v1
- Date: Tue, 31 Mar 2026 11:54:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.590977
- Title: Storing Less, Finding More: How Novelty Filtering Improves Cross-Modal Retrieval on Edge Cameras
- Title(参考訳): エッジカメラのクロスモーダル検索を改良したノベルティフィルター(動画あり)
- Authors: Sherif Abdelwahab,
- Abstract要約: 常時オンのエッジカメラは、冗長フレームがクロスモーダル検索を劣化させる連続的なビデオストリームを生成する。
オンデバイス・エプシロン・ネットフィルタは、意味的に新しいフレームのみを保持し、復号化埋め込みインデックスを構築する。
クロスモーダルアダプタとクラウド再ランカは、コンパクトエンコーダの弱いアライメントを補償する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Always-on edge cameras generate continuous video streams where redundant frames degrade cross-modal retrieval by crowding correct results out of top-k search. This paper presents a streaming retrieval architecture: an on-device epsilon-net filter retains only semantically novel frames, building a denoised embedding index; a cross-modal adapter and cloud re-ranker compensate for the compact encoder's weak alignment. A single-pass streaming filter outperforms offline alternatives (k-means, farthest-point, uniform, random) across eight vision-language models (8M-632M) on two egocentric datasets (AEA, EPIC-KITCHENS). Combined, the architecture reaches 45.6% Hit@5 on held-out data using an 8M on-device encoder at an estimated 2.7 mW.
- Abstract(参考訳): 常時オンのエッジカメラは、トップk検索から正しい結果を収集することで、冗長なフレームがクロスモーダル検索を劣化させる連続ビデオストリームを生成する。
本稿では,オンデバイス・エプシロン・ネット・フィルタは,セマンティックなフレームのみを保持し,デノナイズド埋め込みインデックスを構築し,クロスモーダルアダプタとクラウド再ランカはコンパクトエンコーダの弱いアライメントを補償する。
シングルパスストリーミングフィルタは、2つのエゴセントリックデータセット(AEA、EPIC-KITCHENS)上の8つの視覚言語モデル(8M-632M)のオフライン代替(k平均、遠点、一様、ランダム)より優れている。
合計して、アーキテクチャは8Mオンデバイスエンコーダを推定2.7mWで使用するホールドアウトデータで45.6%のHit@5に達する。
関連論文リスト
- DAGE: Dual-Stream Architecture for Efficient and Fine-Grained Geometry Estimation [72.89376712495464]
DAGEは、グローバルコヒーレンスを細部から切り離すデュアルストリームトランスフォーマーである。
低解像度ストリームは、フレーム/言語的注意を交互に交互に付加したアグレッシブなダウンサンプリングフレームで動作し、ビュー一貫性表現を構築する。
高解像度のストリームは、フレーム毎に元のイメージを処理し、シャープな境界と小さな構造を保存する。
この設計は、解像度とクリップ長を独立にスケールし、2Kまでの入力をサポートし、実用的な推論コストを維持する。
論文 参考訳(メタデータ) (2026-03-04T05:29:29Z) - STAC: Leveraging Spatio-Temporal Data Associations For Efficient Cross-Camera Streaming and Analytics [5.752749052742801]
分散カメラネットワークでは、高帯域要求と冗長な視覚データにより、リアルタイムマルチカメラビデオ分析が課題となっている。
制約されたネットワーク条件下での効率的な物体追跡のために,マルチ時間アソシエーションを利用したクロスカメラ監視システムSTACを提案する。
論文 参考訳(メタデータ) (2024-01-27T04:02:52Z) - CROMA: Remote Sensing Representations with Contrastive Radar-Optical
Masked Autoencoders [2.7624021966289605]
リモートセンシングは、広範にラベル付き、空間的に整列したマルチモーダルデータを提供する。
コントラストと再構成を組み合わせたフレームワークであるCROMAを,リッチな一様・多様表現の学習のために提案する。
論文 参考訳(メタデータ) (2023-11-01T15:07:27Z) - ViFiT: Reconstructing Vision Trajectories from IMU and Wi-Fi Fine Time
Measurements [6.632056181867312]
携帯電話データ(IMUおよびファインタイム計測)から視界境界ボックス軌道を再構成するトランスフォーマーベースモデルViFiTを提案する。
ViFiTは0.65のMRFRを達成し、LSTM-Decoderアーキテクチャにおけるクロスモーダル再構築の最先端のアプローチより優れている。
論文 参考訳(メタデータ) (2023-10-04T20:05:40Z) - Filter Pruning for Efficient CNNs via Knowledge-driven Differential
Filter Sampler [103.97487121678276]
フィルタプルーニングは同時に計算を加速し、CNNのメモリオーバーヘッドを低減する。
本稿では,MFM(Masked Filter Modeling)フレームワークを用いた知識駆動型微分フィルタサンプリング(KDFS)を提案する。
論文 参考訳(メタデータ) (2023-07-01T02:28:41Z) - Efficient Nearest Neighbor Search for Cross-Encoder Models using Matrix
Factorization [60.91600465922932]
本稿では,クロスエンコーダのみに頼って,二重エンコーダによる検索を回避する手法を提案する。
我々のアプローチは、現在の広く使われている方法よりも優れたテスト時間リコール-vs計算コストトレードオフを提供する。
論文 参考訳(メタデータ) (2022-10-23T00:32:04Z) - EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for
Mobile Vision Applications [68.35683849098105]
入力テンソルを複数のチャネルグループに分割するSDTAエンコーダを導入する。
1.3Mパラメータを持つEdgeNeXtモデルでは、ImageNet-1Kで71.2%のTop-1精度を実現している。
パラメータ5.6MのEdgeNeXtモデルでは、ImageNet-1Kで79.4%のTop-1精度を実現しています。
論文 参考訳(メタデータ) (2022-06-21T17:59:56Z) - Searching for Two-Stream Models in Multivariate Space for Video
Recognition [80.25356538056839]
本稿では,巨大空間における2ストリーム映像モデルを効率的に検索できる実用的ニューラルアーキテクチャ探索手法を提案する。
設計空間において,性能が著しく向上した2ストリームモデルを自動的に発見できることを実証する。
論文 参考訳(メタデータ) (2021-08-30T02:03:28Z) - Spatio-Contextual Deep Network Based Multimodal Pedestrian Detection For
Autonomous Driving [1.2599533416395765]
本稿では,RGBと熱画像を用いた歩行者検出のためのエンドツーエンドマルチモーダル融合モデルを提案する。
その新しいディープネットワークアーキテクチャは、マルチモーダル入力を効率的に活用することができる。
それぞれの結果により,それぞれの最先端性能が向上した。
論文 参考訳(メタデータ) (2021-05-26T17:50:36Z) - Do End-to-end Stereo Algorithms Under-utilize Information? [7.538482310185133]
本稿では,2次元および3次元の畳み込みネットワークに適応フィルタリングと半グローバルアグリゲーションを組み込むことによって,エンドツーエンドのステレオマッチングを実現する方法を示す。
改善は、画像からのRGB情報を信号として利用し、マッチングプロセスを動的にガイドすることによる。
論文 参考訳(メタデータ) (2020-10-14T18:32:39Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。