論文の概要: Compressible and Searchable: AI-native Multi-Modal Retrieval System with Learned Image Compression
- arxiv url: http://arxiv.org/abs/2404.10234v1
- Date: Tue, 16 Apr 2024 02:29:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 18:12:17.507515
- Title: Compressible and Searchable: AI-native Multi-Modal Retrieval System with Learned Image Compression
- Title(参考訳): 圧縮性と探索性:学習画像圧縮によるAIネイティブマルチモーダル検索システム
- Authors: Jixiang Luo,
- Abstract要約: 従来のアプローチは、マルチメディアデータのエスカレートする複雑さとスケールに対応するのに苦労する。
我々は、AIネイティブなマルチモーダル検索機能をニューラルネットワーク圧縮で融合させることにより、この問題に対処するフレームワークを提案した。
我々の研究は、ビッグデータ時代におけるスケーラブルで効率的なマルチモーダル検索システムへの大きな進歩を示している。
- 参考スコア(独自算出の注目度): 0.6345523830122168
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The burgeoning volume of digital content across diverse modalities necessitates efficient storage and retrieval methods. Conventional approaches struggle to cope with the escalating complexity and scale of multimedia data. In this paper, we proposed framework addresses this challenge by fusing AI-native multi-modal search capabilities with neural image compression. First we analyze the intricate relationship between compressibility and searchability, recognizing the pivotal role each plays in the efficiency of storage and retrieval systems. Through the usage of simple adapter is to bridge the feature of Learned Image Compression(LIC) and Contrastive Language-Image Pretraining(CLIP) while retaining semantic fidelity and retrieval of multi-modal data. Experimental evaluations on Kodak datasets demonstrate the efficacy of our approach, showcasing significant enhancements in compression efficiency and search accuracy compared to existing methodologies. Our work marks a significant advancement towards scalable and efficient multi-modal search systems in the era of big data.
- Abstract(参考訳): 多様なモダリティにまたがるデジタルコンテンツの膨大化は、効率的なストレージと検索方法を必要とする。
従来のアプローチは、マルチメディアデータのエスカレートする複雑さとスケールに対応するのに苦労する。
本稿では,AIネイティブなマルチモーダル検索機能をニューラルネットワーク圧縮に融合させることにより,この問題に対処するフレームワークを提案する。
まず, 圧縮性と探索可能性の複雑な関係を解析し, 記憶・検索システムの効率性において, それぞれが果たす重要な役割を認識した。
単純なアダプタを利用することで、Learned Image Compression(LIC)とContrastive Language-Image Pretraining(CLIP)の特徴をブリッジし、セマンティックな忠実さを維持し、マルチモーダルデータの検索を行う。
Kodakデータセットを用いた実験により,提案手法の有効性を実証し,既存の手法と比較して圧縮効率と探索精度が著しく向上したことを示す。
我々の研究は、ビッグデータ時代におけるスケーラブルで効率的なマルチモーダル検索システムへの大きな進歩を示している。
関連論文リスト
- Real-Time Image Segmentation via Hybrid Convolutional-Transformer Architecture Search [49.81353382211113]
マルチヘッド自己認識を高分解能表現CNNに効率的に組み込むという課題に対処する。
本稿では,高解像度機能の利点をフル活用したマルチターゲットマルチブランチ・スーパーネット手法を提案する。
本稿では,Hybrid Convolutional-Transformer Architecture Search (HyCTAS)法を用いて,軽量畳み込み層とメモリ効率のよい自己保持層を最適に組み合わせたモデルを提案する。
論文 参考訳(メタデータ) (2024-03-15T15:47:54Z) - PICS: Pipeline for Image Captioning and Search [0.0]
本稿では,大規模画像レポジトリの編成に固有の複雑さに対処するために,PICS(Pipeline for Image Captioning and Search)を提案する。
このアプローチは、意味のあるAI生成キャプションが大規模なデータベースにおける画像の検索可能性とアクセシビリティを大幅に向上させる、という理解に根ざしている。
PICSの重要性は、画像データベースシステムを変換し、現代のデジタル資産管理の要求を満たすために機械学習と自然言語処理の力を利用する可能性にある。
論文 参考訳(メタデータ) (2024-02-01T03:08:21Z) - Efficient Neural Representation of Volumetric Data using
Coordinate-Based Networks [0.0]
本稿では,座標ネットワークとハッシュ符号化を用いたボリュームデータの圧縮と表現のための効率的な手法を提案する。
提案手法は,空間座標と強度値のマッピングを学習することで,効率的な圧縮を実現する。
論文 参考訳(メタデータ) (2024-01-16T21:33:01Z) - Object-Centric Open-Vocabulary Image-Retrieval with Aggregated Features [12.14013374452918]
本稿では,オブジェクト中心のオープン語彙画像検索に対して,シンプルながら効果的なアプローチを提案する。
提案手法は,CLIPから抽出した濃密な埋め込みをコンパクトな表現に集約する。
3つのデータセットのグローバルな特徴的アプローチよりもはるかに優れた結果を得ることで,タスクに対する提案手法の有効性を示す。
論文 参考訳(メタデータ) (2023-09-26T15:13:09Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Two Approaches to Supervised Image Segmentation [55.616364225463066]
本研究は、深層学習とマルチセットニューロンのアプローチの比較実験を開発する。
ディープラーニングアプローチは、画像セグメンテーションの実行の可能性を確認した。
代替のマルチセット手法では、計算資源をほとんど必要とせずに精度を向上することができた。
論文 参考訳(メタデータ) (2023-07-19T16:42:52Z) - Machine Perception-Driven Image Compression: A Layered Generative
Approach [32.23554195427311]
階層型生成画像圧縮モデルを提案する。
タスクに依存しない学習に基づく圧縮モデルを提案し、様々な圧縮されたドメインベースの分析タスクを効果的にサポートする。
圧縮比、再構成画像品質、下流知覚性能の最良のバランス点を得るために、共同最適化スケジュールを採用する。
論文 参考訳(メタデータ) (2023-04-14T02:12:38Z) - Learning Multimodal Data Augmentation in Feature Space [65.54623807628536]
LeMDAは、機能空間におけるマルチモーダルデータを共同で拡張することを自動的に学習する、使い易い方法である。
我々はLeMDAがマルチモーダルディープラーニングアーキテクチャの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-12-29T20:39:36Z) - Cross-Modality Sub-Image Retrieval using Contrastive Multimodal Image
Representations [3.3754780158324564]
異なるモダリティによってキャプチャされた類似(または同じ)コンテンツのイメージは、共通の構造をほとんど共有しないため、モダリティ間の画像検索は困難である。
本稿では,モダリティ間の逆(サブ)画像検索のためのアプリケーション非依存のコンテンツベース画像検索システムを提案する。
論文 参考訳(メタデータ) (2022-01-10T19:04:28Z) - Video Coding for Machine: Compact Visual Representation Compression for
Intelligent Collaborative Analytics [101.35754364753409]
Video Coding for Machines (VCM) は、ビデオ/画像圧縮と特徴圧縮をある程度別々の研究トラックにブリッジすることを約束している。
本稿では,既存の学術・産業活動に基づくVCM方法論と哲学を要約する。
論文 参考訳(メタデータ) (2021-10-18T12:42:13Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。