論文の概要: Multimodal Neural Databases
- arxiv url: http://arxiv.org/abs/2305.01447v1
- Date: Tue, 2 May 2023 14:27:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-03 14:16:54.484539
- Title: Multimodal Neural Databases
- Title(参考訳): マルチモーダルニューラルネットワーク
- Authors: Giovanni Trappolini, Andrea Santilli, Emanuele Rodol\`a, Alon Halevy,
Fabrizio Silvestri
- Abstract要約: マルチモーダルニューラルネットワーク(MMNDB)と呼ばれる新しいフレームワークを提案する。
MMNDBは、テキストや画像など、さまざまな入力モダリティを大規模に推論する、複雑なデータベースのようなクエリに答えることができる。
これらの新しい手法が、異なるモダリティから得られる非構造化データを処理する可能性を示し、将来の研究への道を開く。
- 参考スコア(独自算出の注目度): 4.321727213494619
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The rise in loosely-structured data available through text, images, and other
modalities has called for new ways of querying them. Multimedia Information
Retrieval has filled this gap and has witnessed exciting progress in recent
years. Tasks such as search and retrieval of extensive multimedia archives have
undergone massive performance improvements, driven to a large extent by recent
developments in multimodal deep learning. However, methods in this field remain
limited in the kinds of queries they support and, in particular, their
inability to answer database-like queries. For this reason, inspired by recent
work on neural databases, we propose a new framework, which we name Multimodal
Neural Databases (MMNDBs). MMNDBs can answer complex database-like queries that
involve reasoning over different input modalities, such as text and images, at
scale. In this paper, we present the first architecture able to fulfill this
set of requirements and test it with several baselines, showing the limitations
of currently available models. The results show the potential of these new
techniques to process unstructured data coming from different modalities,
paving the way for future research in the area. Code to replicate the
experiments will be released at
https://github.com/GiovanniTRA/MultimodalNeuralDatabases
- Abstract(参考訳): テキスト、画像、その他のモダリティを通じて利用可能な疎構造データの増加は、それらを照会する新しい方法を求めてきた。
マルチメディア情報検索はこのギャップを埋め、近年はエキサイティングな進歩を遂げている。
大規模マルチメディアアーカイブの検索や検索といったタスクは、マルチモーダルディープラーニングの最近の進歩によって、大幅にパフォーマンスが向上している。
しかし、この分野のメソッドはサポート対象のクエリの種類や、特にデータベースのようなクエリに応答できない場合に限られている。
このため、ニューラルデータベースに関する最近の研究に触発されて、我々はMultimodal Neural Databases (MMNDBs) と呼ぶ新しいフレームワークを提案する。
MMNDBは、テキストや画像など、さまざまな入力モダリティを大規模に推論する複雑なデータベースのようなクエリに答えることができる。
本稿では、この一連の要求を満たすことができ、いくつかのベースラインでテストできる最初のアーキテクチャを示し、現在利用可能なモデルの限界を示す。
その結果、これらの新しい手法が、異なるモダリティから得られる非構造化データを処理し、将来的な研究の道を開く可能性を示している。
実験を再現するコードはhttps://github.com/GiovanniTRA/MultimodalNeuralDatabasesでリリースされる。
関連論文リスト
- Generative Multi-Modal Knowledge Retrieval with Large Language Models [75.70313858231833]
マルチモーダル知識検索のための革新的なエンドツーエンド生成フレームワークを提案する。
我々のフレームワークは,大規模言語モデル(LLM)が仮想知識ベースとして効果的に機能するという事実を生かしている。
強いベースラインと比較すると,すべての評価指標に対して3.0%から14.6%の大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-01-16T08:44:29Z) - ADMUS: A Progressive Question Answering Framework Adaptable to Multiple
Knowledge Sources [9.484792817869671]
ADMUSは,多様なデータセットに対応するために設計された,プログレッシブな知識ベース質問応答フレームワークである。
我々のフレームワークは、最小限の労力で、新しいデータセットのシームレスな統合をサポートします。
論文 参考訳(メタデータ) (2023-08-09T08:46:39Z) - End-to-end Knowledge Retrieval with Multi-modal Queries [50.01264794081951]
ReMuQは、テキストと画像のクエリからコンテンツを統合することで、大規模なコーパスから知識を取得するシステムを必要とする。
本稿では,入力テキストや画像を直接処理し,関連する知識をエンドツーエンドで検索する検索モデルReViz'を提案する。
ゼロショット設定下での2つのデータセットの検索において,優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-01T08:04:12Z) - Neural Graph Reasoning: Complex Logical Query Answering Meets Graph
Databases [63.96793270418793]
複雑な論理クエリ応答(CLQA)は、グラフ機械学習の最近登場したタスクである。
ニューラルグラフデータベース(NGDB)の概念を紹介する。
NGDBはNeural Graph StorageとNeural Graph Engineで構成されている。
論文 参考訳(メタデータ) (2023-03-26T04:03:37Z) - Learning Multimodal Data Augmentation in Feature Space [65.54623807628536]
LeMDAは、機能空間におけるマルチモーダルデータを共同で拡張することを自動的に学習する、使い易い方法である。
我々はLeMDAがマルチモーダルディープラーニングアーキテクチャの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-12-29T20:39:36Z) - Semi-Structured Query Grounding for Document-Oriented Databases with
Deep Retrieval and Its Application to Receipt and POI Matching [23.52046767195031]
半構造化データにおけるクエリグラウンドリング問題に対する埋め込み型検索の実践的課題に対処することを目的としている。
クエリとデータベースの両方のエントリの埋め込みと検索において,モジュールの最も効果的な組み合わせを見つけるために,広範な実験を行う。
提案モデルでは,従来の手動パターンモデルよりも大幅に優れ,開発コストやメンテナンスコストの低減が図られている。
論文 参考訳(メタデータ) (2022-02-23T05:32:34Z) - Database Reasoning Over Text [11.074939080454412]
我々は、最先端のトランスフォーマーモデルが、小さなデータベースに対して非常によく機能していることを示します。
テキストから複数のスパンにまたがるデータベーススタイルのクエリに応答するモジュールアーキテクチャを提案する。
私たちのアーキテクチャは何千もの事実を含むデータベースにスケールしますが、現代のモデルは、何つの事実をエンコードできるかによって制限されています。
論文 参考訳(メタデータ) (2021-06-02T11:09:40Z) - MELINDA: A Multimodal Dataset for Biomedical Experiment Method
Classification [14.820951153262685]
マルチモーダルbiomEdicaL experImeNtmethoD clAssificationのための新しいデータセット、MELINDAを紹介します。
データセットは、完全に自動化された遠隔監視方法で収集され、ラベルは既存のキュレーションデータベースから取得されます。
キャプションテキストまたは画像のみを入力として取得するユニモダルモデルを含む、さまざまな最先端のNLPおよびコンピュータビジョンモデルをベンチマークします。
論文 参考訳(メタデータ) (2020-12-16T19:11:36Z) - Neural Databases [23.273308740532254]
本稿では,事前定義されたスキーマを持たないデータベースシステムについて述べる。
我々は、NeuralDBとそのコンポーネントの精度を実験的に検証し、非常に高い精度で何千もの文に対する問合せに答えられることを示す。
論文 参考訳(メタデータ) (2020-10-14T11:31:53Z) - VisualSem: A High-quality Knowledge Graph for Vision and Language [48.47370435793127]
高品質ナレッジグラフ(KG)であるVisualSemをリリースしました。
VisualSemには、多言語グルース、複数のイラスト画像、視覚的な関連性のあるノードが含まれている。
また、入力として画像や文を使用でき、KGのエンティティを検索できるニューラルマルチモーダル検索モデルをリリースする。
論文 参考訳(メタデータ) (2020-08-20T18:20:29Z) - Families In Wild Multimedia: A Multimodal Database for Recognizing
Kinship [63.27052967981546]
マルチタスク MM キンシップデータセットを初めて公開する。
FIW MMを構築するために,データを自動収集,注釈付け,作成する機構を開発した。
結果は、改善の異なる領域で将来の研究を刺激するエッジケースを強調します。
論文 参考訳(メタデータ) (2020-07-28T22:36:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。