論文の概要: Needle: A Generative AI-Powered Multi-modal Database for Answering Complex Natural Language Queries
- arxiv url: http://arxiv.org/abs/2412.00639v2
- Date: Mon, 02 Jun 2025 15:22:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 23:10:45.538202
- Title: Needle: A Generative AI-Powered Multi-modal Database for Answering Complex Natural Language Queries
- Title(参考訳): Needle: 複雑な自然言語クエリに回答するための,AIによる生成型マルチモーダルデータベース
- Authors: Mahdi Erfanian, Mohsen Dehghankar, Abolfazl Asudeh,
- Abstract要約: マルチモーダルデータセットは、各項目にエンコードされたリッチな情報を適切にキャプチャする詳細な記述を見逃すことが多い。
このドメインでは、複雑な自然言語クエリに答えることが大きな課題になります。
本稿では, 基礎モデルを用いて合成サンプルを生成するモンテカルロ法を提案する。
当社のシステムはオープンソースであり,研究者や開発者が容易に採用できるように設計されている。
- 参考スコア(独自算出の注目度): 8.779871128906787
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multi-modal datasets, like those involving images, often miss the detailed descriptions that properly capture the rich information encoded in each item. This makes answering complex natural language queries a major challenge in this domain. In particular, unlike the traditional nearest neighbor search, where the tuples and the query are represented as points in a single metric space, these settings involve queries and tuples embedded in fundamentally different spaces, making the traditional query answering methods inapplicable. Existing literature addresses this challenge for image datasets through vector representations jointly trained on natural language and images. This technique, however, underperforms for complex queries due to various reasons. This paper takes a step towards addressing this challenge by introducing a Generative-based Monte Carlo method that utilizes foundation models to generate synthetic samples that capture the complexity of the natural language query and represent it in the same metric space as the multi-modal data. Following this method, we propose Needle, a database for image data retrieval. Instead of relying on contrastive learning or metadata-searching approaches, our system is based on synthetic data generation to capture the complexities of natural language queries. Our system is open-source and ready for deployment, designed to be easily adopted by researchers and developers. The comprehensive experiments on various benchmark datasets verify that this system significantly outperforms state-of-the-art text-to-image retrieval methods in the literature. Any foundation model and embedder can be easily integrated into Needle to improve the performance, piggybacking on the advancements in these technologies.
- Abstract(参考訳): 画像を含むようなマルチモーダルデータセットは、各アイテムにエンコードされたリッチな情報を適切にキャプチャする詳細な記述を見逃すことが多い。
このドメインでは、複雑な自然言語クエリに答えることが大きな課題になります。
特に、タプルとクエリが単一のメトリック空間のポイントとして表現される従来の近隣の検索とは異なり、これらの設定はクエリとタプルを基本的に異なる空間に埋め込んだもので、従来のクエリ応答メソッドは適用できない。
既存の文献では、自然言語と画像で共同で訓練されたベクトル表現を通じて、画像データセットのこの課題に対処している。
しかし、この手法は様々な理由で複雑なクエリでは性能が劣る。
本稿では, 生成モデルを用いて, 自然言語クエリの複雑さを捉え, マルチモーダルデータと同じ距離空間で表現する合成サンプルを生成するモンテカルロ法を導入することにより, この問題に対処する。
本稿では,画像データ検索のためのデータベースであるNeedleを提案する。
コントラスト学習やメタデータ探索のアプローチに頼るのではなく、自然言語クエリの複雑さを捉えるために合成データ生成をベースとしています。
当社のシステムはオープンソースであり,研究者や開発者が容易に採用できるように設計されている。
様々なベンチマークデータセットに関する総合的な実験により、本システムは文学における最先端のテキスト・画像検索方法よりも大幅に優れていることが検証された。
ファウンデーションモデルや組込み機は容易にNeedleに統合でき、パフォーマンスを改善し、これらの技術の進歩を後押しすることができる。
関連論文リスト
- GridMind: A Multi-Agent NLP Framework for Unified, Cross-Modal NFL Data Insights [0.0]
本稿では,Retrieval-Augmented Generation (RAG) と大規模言語モデル (LLM) を通じて構造化,半構造化,非構造化データを統一するフレームワークであるGridMindを紹介する。
このアプローチはマルチモーダル表現学習の進化する分野と一致する。
論文 参考訳(メタデータ) (2025-03-24T18:33:36Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - RiTeK: A Dataset for Large Language Models Complex Reasoning over Textual Knowledge Graphs [12.846097618151951]
我々は,テキスト知識グラフ(RiTeK)を用いたLLMの複雑な推論のためのデータセットを開発し,広範なトポロジ的構造を網羅する。
多様なトポロジ構造、注釈付き情報、複雑なテキスト記述を統合した現実的なユーザクエリを合成する。
そこで我々はモンテカルロ木探索法 (CTS) を導入し, 特定のクエリに対してテキストグラフから関係経路情報を自動的に抽出する手法を提案する。
論文 参考訳(メタデータ) (2024-10-17T19:33:37Z) - A Survey of Multimodal Composite Editing and Retrieval [7.966265020507201]
この調査は、マルチモーダル複合検索に関する文献の総合的なレビューとしては初めてである。
画像テキスト合成編集、画像テキスト合成検索、その他のマルチモーダル合成検索をカバーしている。
アプリケーションシナリオ、メソッド、ベンチマーク、実験、将来の方向性を体系的に整理します。
論文 参考訳(メタデータ) (2024-09-09T08:06:50Z) - SK-VQA: Synthetic Knowledge Generation at Scale for Training Context-Augmented Multimodal LLMs [6.879945062426145]
SK-VQAは200万以上の質問応答対を含む大規模な合成マルチモーダルデータセットである。
我々の合成データセットは、挑戦的なベンチマークとして機能するだけでなく、既存の生成的マルチモーダルモデルを文脈拡張世代に適用する上でも非常に効果的であることを示す。
論文 参考訳(メタデータ) (2024-06-28T01:14:43Z) - ACE: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
我々は、エンドツーエンドのクロスモーダル検索のための先駆的なジェネリッククロスモーダル rEtrieval framework (ACE) を提案する。
ACEは、クロスモーダル検索における最先端のパフォーマンスを達成し、Recall@1の強いベースラインを平均15.27%上回る。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z) - Unity by Diversity: Improved Representation Learning in Multimodal VAEs [24.691068754720106]
ハード制約をソフト制約に置き換えることで、より優れた潜伏表現が得られることを示す。
既存の手法と比較して、学習した潜在表現の改善と欠落したデータモダリティの計算結果を示す。
論文 参考訳(メタデータ) (2024-03-08T13:29:46Z) - ReFusion: Improving Natural Language Understanding with Computation-Efficient Retrieval Representation Fusion [22.164620956284466]
言語モデルに外部データベースからの知識を取り入れた検索ベース拡張(RA)は,様々な知識集約(KI)タスクに大きく成功している。
既存の作業は、モデル性能を改善するために、検索と入力を結合することに焦点を当てている。
本稿では,二段階最適化を用いた計算効率の高い検索表現Fusionである textbfReFusion の新たなパラダイムを提案する。
論文 参考訳(メタデータ) (2024-01-04T07:39:26Z) - Genixer: Empowering Multimodal Large Language Models as a Powerful Data Generator [63.762209407570715]
Genixerは4つの重要なステップからなる包括的なデータ生成パイプラインである。
LLaVA1.5でトレーニングされた合成VQAライクなデータセットは、12のマルチモーダルベンチマークのうち10のパフォーマンスを向上させる。
タスク固有のデータセットで訓練されたMLLMは、複雑な命令チューニングデータを生成する際に、GPT-4Vを超えることができる。
論文 参考訳(メタデータ) (2023-12-11T09:44:41Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Large Language Model as Attributed Training Data Generator: A Tale of
Diversity and Bias [92.41919689753051]
大規模言語モデル(LLM)は、最近、様々な自然言語処理(NLP)タスクのためのトレーニングデータジェネレータとして活用されている。
本稿では,多様な属性を持つプロンプトを用いたトレーニングデータ生成について検討する。
属性付きプロンプトは、結果のモデルの性能の観点から、単純なクラス条件プロンプトより優れていることを示す。
論文 参考訳(メタデータ) (2023-06-28T03:31:31Z) - MuRAG: Multimodal Retrieval-Augmented Generator for Open Question
Answering over Images and Text [58.655375327681774]
我々は,Multimodal Retrieval-Augmented Transformer (MuRAG)を提案する。
MuRAGは外部の非パラメトリックマルチモーダルメモリにアクセスして言語生成を増強する。
以上の結果から, MuRAGは最先端の精度を達成し, 既存のモデルよりも10~20%精度が高いことがわかった。
論文 参考訳(メタデータ) (2022-10-06T13:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。