論文の概要: Compressible and Searchable: AI-native Multi-Modal Retrieval System with Learned Image Compression
- arxiv url: http://arxiv.org/abs/2404.10234v1
- Date: Tue, 16 Apr 2024 02:29:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 18:12:17.507515
- Title: Compressible and Searchable: AI-native Multi-Modal Retrieval System with Learned Image Compression
- Title(参考訳): 圧縮性と探索性:学習画像圧縮によるAIネイティブマルチモーダル検索システム
- Authors: Jixiang Luo,
- Abstract要約: 従来のアプローチは、マルチメディアデータのエスカレートする複雑さとスケールに対応するのに苦労する。
我々は、AIネイティブなマルチモーダル検索機能をニューラルネットワーク圧縮で融合させることにより、この問題に対処するフレームワークを提案した。
我々の研究は、ビッグデータ時代におけるスケーラブルで効率的なマルチモーダル検索システムへの大きな進歩を示している。
- 参考スコア(独自算出の注目度): 0.6345523830122168
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The burgeoning volume of digital content across diverse modalities necessitates efficient storage and retrieval methods. Conventional approaches struggle to cope with the escalating complexity and scale of multimedia data. In this paper, we proposed framework addresses this challenge by fusing AI-native multi-modal search capabilities with neural image compression. First we analyze the intricate relationship between compressibility and searchability, recognizing the pivotal role each plays in the efficiency of storage and retrieval systems. Through the usage of simple adapter is to bridge the feature of Learned Image Compression(LIC) and Contrastive Language-Image Pretraining(CLIP) while retaining semantic fidelity and retrieval of multi-modal data. Experimental evaluations on Kodak datasets demonstrate the efficacy of our approach, showcasing significant enhancements in compression efficiency and search accuracy compared to existing methodologies. Our work marks a significant advancement towards scalable and efficient multi-modal search systems in the era of big data.
- Abstract(参考訳): 多様なモダリティにまたがるデジタルコンテンツの膨大化は、効率的なストレージと検索方法を必要とする。
従来のアプローチは、マルチメディアデータのエスカレートする複雑さとスケールに対応するのに苦労する。
本稿では,AIネイティブなマルチモーダル検索機能をニューラルネットワーク圧縮に融合させることにより,この問題に対処するフレームワークを提案する。
まず, 圧縮性と探索可能性の複雑な関係を解析し, 記憶・検索システムの効率性において, それぞれが果たす重要な役割を認識した。
単純なアダプタを利用することで、Learned Image Compression(LIC)とContrastive Language-Image Pretraining(CLIP)の特徴をブリッジし、セマンティックな忠実さを維持し、マルチモーダルデータの検索を行う。
Kodakデータセットを用いた実験により,提案手法の有効性を実証し,既存の手法と比較して圧縮効率と探索精度が著しく向上したことを示す。
我々の研究は、ビッグデータ時代におけるスケーラブルで効率的なマルチモーダル検索システムへの大きな進歩を示している。
関連論文リスト
- Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - MatchAnything: Universal Cross-Modality Image Matching with Large-Scale Pre-Training [62.843316348659165]
ディープラーニングに基づく画像マッチングアルゴリズムは、人間を劇的に上回り、大量の対応を素早く正確に見つける。
本稿では, 画像間の基本構造を認識し, 一致させるためのモデル学習のために, 合成モード間学習信号を利用する大規模事前学習フレームワークを提案する。
我々の重要な発見は、我々のフレームワークで訓練されたマッチングモデルが、目に見えない8つのクロスモダリティ登録タスクにまたがる顕著な一般化性を達成することである。
論文 参考訳(メタデータ) (2025-01-13T18:37:36Z) - PICS: Pipeline for Image Captioning and Search [0.0]
本稿では,大規模画像レポジトリの編成に固有の複雑さに対処するために,PICS(Pipeline for Image Captioning and Search)を提案する。
このアプローチは、意味のあるAI生成キャプションが大規模なデータベースにおける画像の検索可能性とアクセシビリティを大幅に向上させる、という理解に根ざしている。
PICSの重要性は、画像データベースシステムを変換し、現代のデジタル資産管理の要求を満たすために機械学習と自然言語処理の力を利用する可能性にある。
論文 参考訳(メタデータ) (2024-02-01T03:08:21Z) - Efficient Neural Representation of Volumetric Data using
Coordinate-Based Networks [0.0]
本稿では,座標ネットワークとハッシュ符号化を用いたボリュームデータの圧縮と表現のための効率的な手法を提案する。
提案手法は,空間座標と強度値のマッピングを学習することで,効率的な圧縮を実現する。
論文 参考訳(メタデータ) (2024-01-16T21:33:01Z) - Object-Centric Open-Vocabulary Image-Retrieval with Aggregated Features [11.112981323262337]
本稿では,オブジェクト中心のオープン語彙画像検索に対して,シンプルながら効果的なアプローチを提案する。
提案手法は,CLIPから抽出した濃密な埋め込みをコンパクトな表現に集約する。
3つのデータセットのグローバルな特徴的アプローチよりもはるかに優れた結果を得ることで,タスクに対する提案手法の有効性を示す。
論文 参考訳(メタデータ) (2023-09-26T15:13:09Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Two Approaches to Supervised Image Segmentation [55.616364225463066]
本研究は、深層学習とマルチセットニューロンのアプローチの比較実験を開発する。
ディープラーニングアプローチは、画像セグメンテーションの実行の可能性を確認した。
代替のマルチセット手法では、計算資源をほとんど必要とせずに精度を向上することができた。
論文 参考訳(メタデータ) (2023-07-19T16:42:52Z) - Machine Perception-Driven Image Compression: A Layered Generative
Approach [32.23554195427311]
階層型生成画像圧縮モデルを提案する。
タスクに依存しない学習に基づく圧縮モデルを提案し、様々な圧縮されたドメインベースの分析タスクを効果的にサポートする。
圧縮比、再構成画像品質、下流知覚性能の最良のバランス点を得るために、共同最適化スケジュールを採用する。
論文 参考訳(メタデータ) (2023-04-14T02:12:38Z) - Cross-Modality Sub-Image Retrieval using Contrastive Multimodal Image
Representations [3.3754780158324564]
異なるモダリティによってキャプチャされた類似(または同じ)コンテンツのイメージは、共通の構造をほとんど共有しないため、モダリティ間の画像検索は困難である。
本稿では,モダリティ間の逆(サブ)画像検索のためのアプリケーション非依存のコンテンツベース画像検索システムを提案する。
論文 参考訳(メタデータ) (2022-01-10T19:04:28Z) - Video Coding for Machine: Compact Visual Representation Compression for
Intelligent Collaborative Analytics [101.35754364753409]
Video Coding for Machines (VCM) は、ビデオ/画像圧縮と特徴圧縮をある程度別々の研究トラックにブリッジすることを約束している。
本稿では,既存の学術・産業活動に基づくVCM方法論と哲学を要約する。
論文 参考訳(メタデータ) (2021-10-18T12:42:13Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。