論文の概要: A multimodal deep learning framework for scalable content based visual
media retrieval
- arxiv url: http://arxiv.org/abs/2105.08665v1
- Date: Tue, 18 May 2021 16:49:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-19 15:24:19.923007
- Title: A multimodal deep learning framework for scalable content based visual
media retrieval
- Title(参考訳): スケーラブルコンテンツに基づくビジュアルメディア検索のためのマルチモーダルディープラーニングフレームワーク
- Authors: Ambareesh Ravi, Amith Nandakumar
- Abstract要約: 本稿では,コンテンツベースビジュアルメディア検索システムのための新しい,効率的,モジュール性,スケーラブルなフレームワークを提案する。
また、検索のための効率的な比較およびフィルタリングメトリックも導入しています。
- 参考スコア(独自算出の注目度): 4.284674689172996
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel, efficient, modular and scalable framework for content
based visual media retrieval systems by leveraging the power of Deep Learning
which is flexible to work both for images and videos conjointly and we also
introduce an efficient comparison and filtering metric for retrieval. We put
forward our findings from critical performance tests comparing our method to
the predominant conventional approach to demonstrate the feasibility and
efficiency of the proposed solution with best practices, possible improvements
that may further augment the ability of retrieval architectures.
- Abstract(参考訳): 本稿では,画像と映像の両方に対して協調的に動作可能な深層学習の力を活用し,コンテンツベースビジュアルメディア検索システムのための新しい,効率的,モジュール性,スケーラブルなフレームワークを提案し,検索のための効率的な比較・フィルタリング指標を提案する。
提案手法を従来の手法と比較し,提案手法の有効性と効率性,検索アーキテクチャの能力をさらに高める可能性のある改善を実証する。
関連論文リスト
- FecTek: Enhancing Term Weight in Lexicon-Based Retrieval with Feature Context and Term-level Knowledge [54.61068946420894]
FEature Context と TErm レベルの知識モジュールを導入して,革新的な手法を提案する。
項重みの特徴コンテキスト表現を効果的に強化するために、FCM(Feature Context Module)が導入された。
また,用語レベルの知識を効果的に活用し,用語重みのモデル化プロセスをインテリジェントに導くための用語レベルの知識誘導モジュール(TKGM)を開発した。
論文 参考訳(メタデータ) (2024-04-18T12:58:36Z) - Compressible and Searchable: AI-native Multi-Modal Retrieval System with Learned Image Compression [0.6345523830122168]
従来のアプローチは、マルチメディアデータのエスカレートする複雑さとスケールに対応するのに苦労する。
我々は、AIネイティブなマルチモーダル検索機能をニューラルネットワーク圧縮で融合させることにより、この問題に対処するフレームワークを提案した。
我々の研究は、ビッグデータ時代におけるスケーラブルで効率的なマルチモーダル検索システムへの大きな進歩を示している。
論文 参考訳(メタデータ) (2024-04-16T02:29:00Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - Towards Efficient and Effective Text-to-Video Retrieval with
Coarse-to-Fine Visual Representation Learning [15.998149438353133]
テキスト間検索のための2段階検索アーキテクチャを提案する。
トレーニングフェーズでは、パラメータフリーなテキストゲートインタラクションブロック(TIB)を設計し、詳細なビデオ表現学習を行う。
検索段階では、上位k候補を高速にリコールするために粗粒度映像表現を使用し、その後、細粒度映像表現によって再帰する。
論文 参考訳(メタデータ) (2024-01-01T08:54:18Z) - Adaptive Ensemble Learning: Boosting Model Performance through
Intelligent Feature Fusion in Deep Neural Networks [0.0]
本稿では,ディープラーニングの性能向上を目的としたAdaptive Ensemble Learningフレームワークを提案する。
このフレームワークは、より堅牢で適応可能なモデルを作成するために、アンサンブル学習戦略とディープラーニングアーキテクチャを統合する。
インテリジェントな特徴融合手法を利用することで、フレームワークはより差別的で効果的な特徴表現を生成する。
論文 参考訳(メタデータ) (2023-04-04T21:49:49Z) - Named Entity and Relation Extraction with Multi-Modal Retrieval [51.660650522630526]
マルチモーダルな名前付きエンティティ認識(NER)と関係抽出(RE)は、関連画像情報を活用してNERとREの性能を向上させることを目的としている。
新たなマルチモーダル検索フレームワーク(MoRe)を提案する。
MoReはテキスト検索モジュールと画像ベースの検索モジュールを含み、入力されたテキストと画像の関連知識をそれぞれ知識コーパスで検索する。
論文 参考訳(メタデータ) (2022-12-03T13:11:32Z) - Context-based Deep Learning Architecture with Optimal Integration Layer
for Image Parsing [0.0]
提案した3層コンテキストベースディープアーキテクチャは、コンテキストを視覚情報と明示的に統合することができる。
ベンチマークデータセットで評価した場合の実験結果は有望である。
論文 参考訳(メタデータ) (2022-04-13T07:35:39Z) - AdaMML: Adaptive Multi-Modal Learning for Efficient Video Recognition [61.51188561808917]
AdaMML と呼ばれる適応型マルチモーダル学習フレームワークを提案し、各セグメントの最適なモダリティをオンザフライで選択し、効率的なビデオ認識を実現します。
提案手法は,従来のベースラインと比較して,計算効率が35%-55%低下することを示した。
論文 参考訳(メタデータ) (2021-05-11T16:19:07Z) - Cross-Modal Retrieval Augmentation for Multi-Modal Classification [61.5253261560224]
画像の非構造化外部知識源とそれに対応するキャプションを用いて視覚的質問応答を改善する。
まず,画像とキャプションを同一空間に埋め込むための新しいアライメントモデルを訓練し,画像検索の大幅な改善を実現する。
第2に、トレーニングされたアライメントモデルを用いた検索強化マルチモーダルトランスは、強いベースライン上でのVQAの結果を改善することを示す。
論文 参考訳(メタデータ) (2021-04-16T13:27:45Z) - Image-Based Benchmarking and Visualization for Large-Scale Global
Optimization [6.5447678518952115]
大規模なグローバル最適化問題の解決策を可視化する画像ベース可視化フレームワークが提案されている。
提案するフレームワークでは,画像全体が全体の解の質を表すのに対して,画素は決定変数を視覚化する。
提案したフレームワークは、既知のオプティマによる任意のベンチマーク問題で実証される。
論文 参考訳(メタデータ) (2020-07-24T03:39:23Z) - Image Matching across Wide Baselines: From Paper to Practice [80.9424750998559]
局所的な特徴とロバストな推定アルゴリズムの包括的なベンチマークを導入する。
パイプラインのモジュール構造は、さまざまなメソッドの容易な統合、構成、組み合わせを可能にします。
適切な設定で、古典的な解決策は依然として芸術の知覚された状態を上回る可能性があることを示す。
論文 参考訳(メタデータ) (2020-03-03T15:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。