論文の概要: Multimodal Neural Databases
- arxiv url: http://arxiv.org/abs/2305.01447v1
- Date: Tue, 2 May 2023 14:27:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-03 14:16:54.484539
- Title: Multimodal Neural Databases
- Title(参考訳): マルチモーダルニューラルネットワーク
- Authors: Giovanni Trappolini, Andrea Santilli, Emanuele Rodol\`a, Alon Halevy,
Fabrizio Silvestri
- Abstract要約: マルチモーダルニューラルネットワーク(MMNDB)と呼ばれる新しいフレームワークを提案する。
MMNDBは、テキストや画像など、さまざまな入力モダリティを大規模に推論する、複雑なデータベースのようなクエリに答えることができる。
これらの新しい手法が、異なるモダリティから得られる非構造化データを処理する可能性を示し、将来の研究への道を開く。
- 参考スコア(独自算出の注目度): 4.321727213494619
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The rise in loosely-structured data available through text, images, and other
modalities has called for new ways of querying them. Multimedia Information
Retrieval has filled this gap and has witnessed exciting progress in recent
years. Tasks such as search and retrieval of extensive multimedia archives have
undergone massive performance improvements, driven to a large extent by recent
developments in multimodal deep learning. However, methods in this field remain
limited in the kinds of queries they support and, in particular, their
inability to answer database-like queries. For this reason, inspired by recent
work on neural databases, we propose a new framework, which we name Multimodal
Neural Databases (MMNDBs). MMNDBs can answer complex database-like queries that
involve reasoning over different input modalities, such as text and images, at
scale. In this paper, we present the first architecture able to fulfill this
set of requirements and test it with several baselines, showing the limitations
of currently available models. The results show the potential of these new
techniques to process unstructured data coming from different modalities,
paving the way for future research in the area. Code to replicate the
experiments will be released at
https://github.com/GiovanniTRA/MultimodalNeuralDatabases
- Abstract(参考訳): テキスト、画像、その他のモダリティを通じて利用可能な疎構造データの増加は、それらを照会する新しい方法を求めてきた。
マルチメディア情報検索はこのギャップを埋め、近年はエキサイティングな進歩を遂げている。
大規模マルチメディアアーカイブの検索や検索といったタスクは、マルチモーダルディープラーニングの最近の進歩によって、大幅にパフォーマンスが向上している。
しかし、この分野のメソッドはサポート対象のクエリの種類や、特にデータベースのようなクエリに応答できない場合に限られている。
このため、ニューラルデータベースに関する最近の研究に触発されて、我々はMultimodal Neural Databases (MMNDBs) と呼ぶ新しいフレームワークを提案する。
MMNDBは、テキストや画像など、さまざまな入力モダリティを大規模に推論する複雑なデータベースのようなクエリに答えることができる。
本稿では、この一連の要求を満たすことができ、いくつかのベースラインでテストできる最初のアーキテクチャを示し、現在利用可能なモデルの限界を示す。
その結果、これらの新しい手法が、異なるモダリティから得られる非構造化データを処理し、将来的な研究の道を開く可能性を示している。
実験を再現するコードはhttps://github.com/GiovanniTRA/MultimodalNeuralDatabasesでリリースされる。
関連論文リスト
- MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs [78.5013630951288]
本稿では,マルチモーダル大言語モデル(MLLM)を用いた情報検索手法を提案する。
まず,16個の検索タスクを持つ10個のデータセットに対して,MLLMをバイエンコーダレトリバーとして微調整する。
我々は,MLLMレトリバーが提示するモダリティバイアスを軽減するために,モダリティを考慮したハードネガティブマイニングを提案する。
論文 参考訳(メタデータ) (2024-11-04T20:06:34Z) - BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.936320820180875]
大規模言語モデル(LLM)は、様々な領域でますます重要になっている。
BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。
BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2024-10-01T15:11:24Z) - Database-Augmented Query Representation for Information Retrieval [59.57065228857247]
データベース拡張クエリ表現(DAQu)と呼ばれる新しい検索フレームワークを提案する。
DAQuは、元のクエリを複数のテーブルにまたがるさまざまな(クエリ関連の)メタデータで拡張する。
リレーショナルデータベースのメタデータを組み込む様々な検索シナリオにおいてDAQuを検証する。
論文 参考訳(メタデータ) (2024-06-23T05:02:21Z) - ADMUS: A Progressive Question Answering Framework Adaptable to Multiple
Knowledge Sources [9.484792817869671]
ADMUSは,多様なデータセットに対応するために設計された,プログレッシブな知識ベース質問応答フレームワークである。
我々のフレームワークは、最小限の労力で、新しいデータセットのシームレスな統合をサポートします。
論文 参考訳(メタデータ) (2023-08-09T08:46:39Z) - End-to-end Knowledge Retrieval with Multi-modal Queries [50.01264794081951]
ReMuQは、テキストと画像のクエリからコンテンツを統合することで、大規模なコーパスから知識を取得するシステムを必要とする。
本稿では,入力テキストや画像を直接処理し,関連する知識をエンドツーエンドで検索する検索モデルReViz'を提案する。
ゼロショット設定下での2つのデータセットの検索において,優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-01T08:04:12Z) - Neural Graph Reasoning: Complex Logical Query Answering Meets Graph
Databases [63.96793270418793]
複雑な論理クエリ応答(CLQA)は、グラフ機械学習の最近登場したタスクである。
ニューラルグラフデータベース(NGDB)の概念を紹介する。
NGDBはNeural Graph StorageとNeural Graph Engineで構成されている。
論文 参考訳(メタデータ) (2023-03-26T04:03:37Z) - Semi-Structured Query Grounding for Document-Oriented Databases with
Deep Retrieval and Its Application to Receipt and POI Matching [23.52046767195031]
半構造化データにおけるクエリグラウンドリング問題に対する埋め込み型検索の実践的課題に対処することを目的としている。
クエリとデータベースの両方のエントリの埋め込みと検索において,モジュールの最も効果的な組み合わせを見つけるために,広範な実験を行う。
提案モデルでは,従来の手動パターンモデルよりも大幅に優れ,開発コストやメンテナンスコストの低減が図られている。
論文 参考訳(メタデータ) (2022-02-23T05:32:34Z) - Database Reasoning Over Text [11.074939080454412]
我々は、最先端のトランスフォーマーモデルが、小さなデータベースに対して非常によく機能していることを示します。
テキストから複数のスパンにまたがるデータベーススタイルのクエリに応答するモジュールアーキテクチャを提案する。
私たちのアーキテクチャは何千もの事実を含むデータベースにスケールしますが、現代のモデルは、何つの事実をエンコードできるかによって制限されています。
論文 参考訳(メタデータ) (2021-06-02T11:09:40Z) - MELINDA: A Multimodal Dataset for Biomedical Experiment Method
Classification [14.820951153262685]
マルチモーダルbiomEdicaL experImeNtmethoD clAssificationのための新しいデータセット、MELINDAを紹介します。
データセットは、完全に自動化された遠隔監視方法で収集され、ラベルは既存のキュレーションデータベースから取得されます。
キャプションテキストまたは画像のみを入力として取得するユニモダルモデルを含む、さまざまな最先端のNLPおよびコンピュータビジョンモデルをベンチマークします。
論文 参考訳(メタデータ) (2020-12-16T19:11:36Z) - VisualSem: A High-quality Knowledge Graph for Vision and Language [48.47370435793127]
高品質ナレッジグラフ(KG)であるVisualSemをリリースしました。
VisualSemには、多言語グルース、複数のイラスト画像、視覚的な関連性のあるノードが含まれている。
また、入力として画像や文を使用でき、KGのエンティティを検索できるニューラルマルチモーダル検索モデルをリリースする。
論文 参考訳(メタデータ) (2020-08-20T18:20:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。