Fugu-MT 論文翻訳(概要): Multimodal Neural Databases

論文の概要: Multimodal Neural Databases

arxiv url: http://arxiv.org/abs/2305.01447v1
Date: Tue, 2 May 2023 14:27:56 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-03 14:16:54.484539
Title: Multimodal Neural Databases
Title（参考訳）: マルチモーダルニューラルネットワーク
Authors: Giovanni Trappolini, Andrea Santilli, Emanuele Rodol\`a, Alon Halevy, Fabrizio Silvestri
Abstract要約: マルチモーダルニューラルネットワーク(MMNDB)と呼ばれる新しいフレームワークを提案する。 MMNDBは、テキストや画像など、さまざまな入力モダリティを大規模に推論する、複雑なデータベースのようなクエリに答えることができる。これらの新しい手法が、異なるモダリティから得られる非構造化データを処理する可能性を示し、将来の研究への道を開く。
参考スコア（独自算出の注目度）: 4.321727213494619
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: The rise in loosely-structured data available through text, images, and other modalities has called for new ways of querying them. Multimedia Information Retrieval has filled this gap and has witnessed exciting progress in recent years. Tasks such as search and retrieval of extensive multimedia archives have undergone massive performance improvements, driven to a large extent by recent developments in multimodal deep learning. However, methods in this field remain limited in the kinds of queries they support and, in particular, their inability to answer database-like queries. For this reason, inspired by recent work on neural databases, we propose a new framework, which we name Multimodal Neural Databases (MMNDBs). MMNDBs can answer complex database-like queries that involve reasoning over different input modalities, such as text and images, at scale. In this paper, we present the first architecture able to fulfill this set of requirements and test it with several baselines, showing the limitations of currently available models. The results show the potential of these new techniques to process unstructured data coming from different modalities, paving the way for future research in the area. Code to replicate the experiments will be released at https://github.com/GiovanniTRA/MultimodalNeuralDatabases
Abstract（参考訳）: テキスト、画像、その他のモダリティを通じて利用可能な疎構造データの増加は、それらを照会する新しい方法を求めてきた。マルチメディア情報検索はこのギャップを埋め、近年はエキサイティングな進歩を遂げている。大規模マルチメディアアーカイブの検索や検索といったタスクは、マルチモーダルディープラーニングの最近の進歩によって、大幅にパフォーマンスが向上している。しかし、この分野のメソッドはサポート対象のクエリの種類や、特にデータベースのようなクエリに応答できない場合に限られている。このため、ニューラルデータベースに関する最近の研究に触発されて、我々はMultimodal Neural Databases (MMNDBs) と呼ぶ新しいフレームワークを提案する。 MMNDBは、テキストや画像など、さまざまな入力モダリティを大規模に推論する複雑なデータベースのようなクエリに答えることができる。本稿では、この一連の要求を満たすことができ、いくつかのベースラインでテストできる最初のアーキテクチャを示し、現在利用可能なモデルの限界を示す。その結果、これらの新しい手法が、異なるモダリティから得られる非構造化データを処理し、将来的な研究の道を開く可能性を示している。実験を再現するコードはhttps://github.com/GiovanniTRA/MultimodalNeuralDatabasesでリリースされる。

関連論文リスト

MultiConIR: Towards multi-condition Information Retrieval [57.6405602406446]
我々は,マルチコンディションシナリオにおける検索モデルの評価を目的とした,最初のベンチマークであるMultiConIRを紹介する。本稿では,マルチコンディションのロバスト性,モノトニック関連性ランキング,クエリフォーマットの感度に基づいて,検索とリランクモデルの評価を行う3つのタスクを提案する。
論文参考訳（メタデータ） (2025-03-11T05:02:03Z)
Needle: A Generative AI-Powered Multi-modal Database for Answering Complex Natural Language Queries [8.779871128906787]
マルチモーダルデータセットは、各項目にエンコードされたリッチな情報を適切にキャプチャする詳細な記述を見逃すことが多い。このドメインでは、複雑な自然言語クエリに答えることが大きな課題になります。本稿では, 基礎モデルを用いて合成サンプルを生成するモンテカルロ法を提案する。当社のシステムはオープンソースであり,研究者や開発者が容易に採用できるように設計されている。
論文参考訳（メタデータ） (2024-12-01T01:36:41Z)
MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs [78.5013630951288]
本稿では,マルチモーダル大言語モデル(MLLM)を用いた情報検索手法を提案する。まず,16個の検索タスクを持つ10個のデータセットに対して,MLLMをバイエンコーダレトリバーとして微調整する。我々は,MLLMレトリバーが提示するモダリティバイアスを軽減するために,モダリティを考慮したハードネガティブマイニングを提案する。
論文参考訳（メタデータ） (2024-11-04T20:06:34Z)
BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.936320820180875]
大規模言語モデル(LLM)は、様々な領域でますます重要になっている。 BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。 BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
論文参考訳（メタデータ） (2024-10-01T15:11:24Z)
Database-Augmented Query Representation for Information Retrieval [59.57065228857247]
データベース拡張クエリ表現(DAQu)と呼ばれる新しい検索フレームワークを提案する。 DAQuは、元のクエリを複数のテーブルにまたがるさまざまな(クエリ関連の)メタデータで拡張する。リレーショナルデータベースのメタデータを組み込む様々な検索シナリオにおいてDAQuを検証する。
論文参考訳（メタデータ） (2024-06-23T05:02:21Z)
ADMUS: A Progressive Question Answering Framework Adaptable to Multiple Knowledge Sources [9.484792817869671]
ADMUSは,多様なデータセットに対応するために設計された,プログレッシブな知識ベース質問応答フレームワークである。我々のフレームワークは、最小限の労力で、新しいデータセットのシームレスな統合をサポートします。
論文参考訳（メタデータ） (2023-08-09T08:46:39Z)
End-to-end Knowledge Retrieval with Multi-modal Queries [50.01264794081951]
ReMuQは、テキストと画像のクエリからコンテンツを統合することで、大規模なコーパスから知識を取得するシステムを必要とする。本稿では,入力テキストや画像を直接処理し,関連する知識をエンドツーエンドで検索する検索モデルReViz'を提案する。ゼロショット設定下での2つのデータセットの検索において,優れた性能を示す。
論文参考訳（メタデータ） (2023-06-01T08:04:12Z)
Neural Graph Reasoning: Complex Logical Query Answering Meets Graph Databases [63.96793270418793]
複雑な論理クエリ応答(CLQA)は、グラフ機械学習の最近登場したタスクである。ニューラルグラフデータベース(NGDB)の概念を紹介する。 NGDBはNeural Graph StorageとNeural Graph Engineで構成されている。
論文参考訳（メタデータ） (2023-03-26T04:03:37Z)
Semi-Structured Query Grounding for Document-Oriented Databases with Deep Retrieval and Its Application to Receipt and POI Matching [23.52046767195031]
半構造化データにおけるクエリグラウンドリング問題に対する埋め込み型検索の実践的課題に対処することを目的としている。クエリとデータベースの両方のエントリの埋め込みと検索において,モジュールの最も効果的な組み合わせを見つけるために,広範な実験を行う。提案モデルでは,従来の手動パターンモデルよりも大幅に優れ,開発コストやメンテナンスコストの低減が図られている。
論文参考訳（メタデータ） (2022-02-23T05:32:34Z)
Database Reasoning Over Text [11.074939080454412]
我々は、最先端のトランスフォーマーモデルが、小さなデータベースに対して非常によく機能していることを示します。テキストから複数のスパンにまたがるデータベーススタイルのクエリに応答するモジュールアーキテクチャを提案する。私たちのアーキテクチャは何千もの事実を含むデータベースにスケールしますが、現代のモデルは、何つの事実をエンコードできるかによって制限されています。
論文参考訳（メタデータ） (2021-06-02T11:09:40Z)
MELINDA: A Multimodal Dataset for Biomedical Experiment Method Classification [14.820951153262685]
マルチモーダルbiomEdicaL experImeNtmethoD clAssificationのための新しいデータセット、MELINDAを紹介します。データセットは、完全に自動化された遠隔監視方法で収集され、ラベルは既存のキュレーションデータベースから取得されます。キャプションテキストまたは画像のみを入力として取得するユニモダルモデルを含む、さまざまな最先端のNLPおよびコンピュータビジョンモデルをベンチマークします。
論文参考訳（メタデータ） (2020-12-16T19:11:36Z)
VisualSem: A High-quality Knowledge Graph for Vision and Language [48.47370435793127]
高品質ナレッジグラフ(KG)であるVisualSemをリリースしました。 VisualSemには、多言語グルース、複数のイラスト画像、視覚的な関連性のあるノードが含まれている。また、入力として画像や文を使用でき、KGのエンティティを検索できるニューラルマルチモーダル検索モデルをリリースする。
論文参考訳（メタデータ） (2020-08-20T18:20:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。