Fugu-MT 論文翻訳(概要): Compressible and Searchable: AI-native Multi-Modal Retrieval System with Learned Image Compression

論文の概要: Compressible and Searchable: AI-native Multi-Modal Retrieval System with Learned Image Compression

arxiv url: http://arxiv.org/abs/2404.10234v1
Date: Tue, 16 Apr 2024 02:29:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-17 18:12:17.507515
Title: Compressible and Searchable: AI-native Multi-Modal Retrieval System with Learned Image Compression
Title（参考訳）: 圧縮性と探索性:学習画像圧縮によるAIネイティブマルチモーダル検索システム
Authors: Jixiang Luo,
Abstract要約: 従来のアプローチは、マルチメディアデータのエスカレートする複雑さとスケールに対応するのに苦労する。我々は、AIネイティブなマルチモーダル検索機能をニューラルネットワーク圧縮で融合させることにより、この問題に対処するフレームワークを提案した。我々の研究は、ビッグデータ時代におけるスケーラブルで効率的なマルチモーダル検索システムへの大きな進歩を示している。
参考スコア（独自算出の注目度）: 0.6345523830122168
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The burgeoning volume of digital content across diverse modalities necessitates efficient storage and retrieval methods. Conventional approaches struggle to cope with the escalating complexity and scale of multimedia data. In this paper, we proposed framework addresses this challenge by fusing AI-native multi-modal search capabilities with neural image compression. First we analyze the intricate relationship between compressibility and searchability, recognizing the pivotal role each plays in the efficiency of storage and retrieval systems. Through the usage of simple adapter is to bridge the feature of Learned Image Compression(LIC) and Contrastive Language-Image Pretraining(CLIP) while retaining semantic fidelity and retrieval of multi-modal data. Experimental evaluations on Kodak datasets demonstrate the efficacy of our approach, showcasing significant enhancements in compression efficiency and search accuracy compared to existing methodologies. Our work marks a significant advancement towards scalable and efficient multi-modal search systems in the era of big data.
Abstract（参考訳）: 多様なモダリティにまたがるデジタルコンテンツの膨大化は、効率的なストレージと検索方法を必要とする。従来のアプローチは、マルチメディアデータのエスカレートする複雑さとスケールに対応するのに苦労する。本稿では,AIネイティブなマルチモーダル検索機能をニューラルネットワーク圧縮に融合させることにより,この問題に対処するフレームワークを提案する。まず, 圧縮性と探索可能性の複雑な関係を解析し, 記憶・検索システムの効率性において, それぞれが果たす重要な役割を認識した。単純なアダプタを利用することで、Learned Image Compression(LIC)とContrastive Language-Image Pretraining(CLIP)の特徴をブリッジし、セマンティックな忠実さを維持し、マルチモーダルデータの検索を行う。 Kodakデータセットを用いた実験により,提案手法の有効性を実証し,既存の手法と比較して圧縮効率と探索精度が著しく向上したことを示す。我々の研究は、ビッグデータ時代におけるスケーラブルで効率的なマルチモーダル検索システムへの大きな進歩を示している。

関連論文リスト

DeepImageSearch: Benchmarking Multimodal Agents for Context-Aware Image Retrieval in Visual Histories [52.57197752244638]
本稿では,画像検索を自律探索タスクとして再構成する新しいエージェントパラダイムであるDeepImageSearchを紹介する。モデルは、暗黙の文脈的手がかりに基づいてターゲットを特定するために、生の視覚履歴に対して多段階の推論を計画し実行しなければならない。 DisBenchは、相互接続された視覚データ上に構築された、挑戦的なベンチマークである。
論文参考訳（メタデータ） (2026-02-11T12:51:10Z)
Enhancing Multimodal Retrieval via Complementary Information Extraction and Alignment [51.96615529872665]
文書中のテキストと画像の両方を統一された潜在空間に変換する,新しいマルチモーダル検索手法であるCIEAを提案する。 2つの相補的コントラスト損失を用いてCIEAを最適化し、セマンティックな整合性を確保し、画像に含まれる相補的情報を効果的にキャプチャする。
論文参考訳（メタデータ） (2026-01-08T04:02:49Z)
Generalized Contrastive Learning for Universal Multimodal Retrieval [53.70202081784898]
クロスモーダル検索モデル(例えばCLIP)は、融合した画像テキストのモダリティからなるキーを検索することで、劣化したパフォーマンスを示す。本稿では,新たなデータセットキュレーションを必要とせずに,マルチモーダル検索性能を向上させる新しい損失定式化である汎用コントラスト学習(GCL)を提案する。
論文参考訳（メタデータ） (2025-09-30T01:25:04Z)
What's the Best Way to Retrieve Slides? A Comparative Study of Multimodal, Caption-Based, and Hybrid Retrieval Techniques [11.421689052786467]
テキスト、画像、チャートを組み合わせたマルチモダリティは、検索強化生成システムの課題を提示する。本論文では,ColPaliのような視覚的遅延相互作用埋め込みモデル,視覚的リランカの利用,密集検索とBM25を組み合わせたハイブリッド検索など,効果的なスライド検索手法について検討する。ビジョンランゲージモデルに基づく新しいキャプションパイプラインも評価され、視覚的遅延動作技術と比較して埋め込みストレージの要求が大幅に低減された。
論文参考訳（メタデータ） (2025-09-18T17:57:07Z)
Compressive Meta-Learning [49.300635370079874]
圧縮学習(Compressive learning)は、ランダムで非線形な特徴を用いることで効率的な処理を可能にするフレームワークである。圧縮学習手法の符号化段階と復号段階の両方をメタラーニングするフレームワークを提案する。ニューラルネットワークベースの圧縮PCA、圧縮リッジ回帰、圧縮k平均、オートエンコーダなど、複数のアプリケーションについて検討する。
論文参考訳（メタデータ） (2025-08-14T22:08:06Z)
When Tokens Talk Too Much: A Survey of Multimodal Long-Context Token Compression across Images, Videos, and Audios [27.220318661244242]
MLLM(Multimodal large language model)は、より長く複雑なコンテキストを処理する。トークン圧縮は、トレーニングと推論の両方でトークンの数を効率的に削減する、目立たしく批判的なアプローチとして登場した。本稿では,マルチモーダル長コンテキストトークン圧縮の発芽領域に関する最初の体系的調査と合成について述べる。
論文参考訳（メタデータ） (2025-07-27T09:33:56Z)
MambaIC: State Space Models for High-Performance Learned Image Compression [53.991726013454695]
多数のフィールドをまたいだリアルタイム情報伝送には,高性能な画像圧縮アルゴリズムが不可欠である。状態空間モデル(SSM)の長距離依存性の捕捉効果に着想を得て,SSMを利用して既存手法の計算不効率に対処する。そこで本稿では,MambaICと呼ばれる洗練されたコンテキストモデリングによる画像圧縮手法を提案する。
論文参考訳（メタデータ） (2025-03-16T11:32:34Z)
MatchAnything: Universal Cross-Modality Image Matching with Large-Scale Pre-Training [62.843316348659165]
ディープラーニングに基づく画像マッチングアルゴリズムは、人間を劇的に上回り、大量の対応を素早く正確に見つける。本稿では, 画像間の基本構造を認識し, 一致させるためのモデル学習のために, 合成モード間学習信号を利用する大規模事前学習フレームワークを提案する。我々の重要な発見は、我々のフレームワークで訓練されたマッチングモデルが、目に見えない8つのクロスモダリティ登録タスクにまたがる顕著な一般化性を達成することである。
論文参考訳（メタデータ） (2025-01-13T18:37:36Z)
Real-Time Image Segmentation via Hybrid Convolutional-Transformer Architecture Search [49.81353382211113]
マルチヘッド自己認識を高分解能表現CNNに効率的に組み込むという課題に対処する。本稿では,高解像度機能の利点をフル活用したマルチターゲットマルチブランチ・スーパーネット手法を提案する。本稿では,Hybrid Convolutional-Transformer Architecture Search (HyCTAS)法を用いて,軽量畳み込み層とメモリ効率のよい自己保持層を最適に組み合わせたモデルを提案する。
論文参考訳（メタデータ） (2024-03-15T15:47:54Z)
PICS: Pipeline for Image Captioning and Search [0.0]
本稿では,大規模画像レポジトリの編成に固有の複雑さに対処するために,PICS(Pipeline for Image Captioning and Search)を提案する。このアプローチは、意味のあるAI生成キャプションが大規模なデータベースにおける画像の検索可能性とアクセシビリティを大幅に向上させる、という理解に根ざしている。 PICSの重要性は、画像データベースシステムを変換し、現代のデジタル資産管理の要求を満たすために機械学習と自然言語処理の力を利用する可能性にある。
論文参考訳（メタデータ） (2024-02-01T03:08:21Z)
Efficient Neural Representation of Volumetric Data using Coordinate-Based Networks [0.0]
本稿では,座標ネットワークとハッシュ符号化を用いたボリュームデータの圧縮と表現のための効率的な手法を提案する。提案手法は,空間座標と強度値のマッピングを学習することで,効率的な圧縮を実現する。
論文参考訳（メタデータ） (2024-01-16T21:33:01Z)
Object-Centric Open-Vocabulary Image-Retrieval with Aggregated Features [12.14013374452918]
本稿では,オブジェクト中心のオープン語彙画像検索に対して,シンプルながら効果的なアプローチを提案する。提案手法は,CLIPから抽出した濃密な埋め込みをコンパクトな表現に集約する。 3つのデータセットのグローバルな特徴的アプローチよりもはるかに優れた結果を得ることで,タスクに対する提案手法の有効性を示す。
論文参考訳（メタデータ） (2023-09-26T15:13:09Z)
Exploiting Modality-Specific Features For Multi-Modal Manipulation Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文参考訳（メタデータ） (2023-09-22T06:55:41Z)
Two Approaches to Supervised Image Segmentation [55.616364225463066]
本研究は、深層学習とマルチセットニューロンのアプローチの比較実験を開発する。ディープラーニングアプローチは、画像セグメンテーションの実行の可能性を確認した。代替のマルチセット手法では、計算資源をほとんど必要とせずに精度を向上することができた。
論文参考訳（メタデータ） (2023-07-19T16:42:52Z)
Machine Perception-Driven Image Compression: A Layered Generative Approach [32.23554195427311]
階層型生成画像圧縮モデルを提案する。タスクに依存しない学習に基づく圧縮モデルを提案し、様々な圧縮されたドメインベースの分析タスクを効果的にサポートする。圧縮比、再構成画像品質、下流知覚性能の最良のバランス点を得るために、共同最適化スケジュールを採用する。
論文参考訳（メタデータ） (2023-04-14T02:12:38Z)
Learning Multimodal Data Augmentation in Feature Space [65.54623807628536]
LeMDAは、機能空間におけるマルチモーダルデータを共同で拡張することを自動的に学習する、使い易い方法である。我々はLeMDAがマルチモーダルディープラーニングアーキテクチャの性能を大幅に向上させることができることを示す。
論文参考訳（メタデータ） (2022-12-29T20:39:36Z)
Cross-Modality Sub-Image Retrieval using Contrastive Multimodal Image Representations [3.3754780158324564]
異なるモダリティによってキャプチャされた類似(または同じ)コンテンツのイメージは、共通の構造をほとんど共有しないため、モダリティ間の画像検索は困難である。本稿では,モダリティ間の逆(サブ)画像検索のためのアプリケーション非依存のコンテンツベース画像検索システムを提案する。
論文参考訳（メタデータ） (2022-01-10T19:04:28Z)
Video Coding for Machine: Compact Visual Representation Compression for Intelligent Collaborative Analytics [101.35754364753409]
Video Coding for Machines (VCM) は、ビデオ/画像圧縮と特徴圧縮をある程度別々の研究トラックにブリッジすることを約束している。本稿では,既存の学術・産業活動に基づくVCM方法論と哲学を要約する。
論文参考訳（メタデータ） (2021-10-18T12:42:13Z)
Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文参考訳（メタデータ） (2020-03-15T11:04:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。