論文の概要: Needle: A Generative-AI Powered Monte Carlo Method for Answering Complex Natural Language Queries on Multi-modal Data
- arxiv url: http://arxiv.org/abs/2412.00639v1
- Date: Sun, 01 Dec 2024 01:36:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:40:35.605560
- Title: Needle: A Generative-AI Powered Monte Carlo Method for Answering Complex Natural Language Queries on Multi-modal Data
- Title(参考訳): Needle:マルチモーダルデータを用いた複雑な自然言語クエリに対する生成AI駆動モンテカルロ法
- Authors: Mahdi Erfanian, Mohsen Dehghankar, Abolfazl Asudeh,
- Abstract要約: マルチモーダルデータはしばしば、その中にエンコードされたリッチな情報を適切にキャプチャする詳細な記述を見逃す。
これにより、複雑な自然言語クエリに答えることが、これらのドメインにおいて大きな課題となる。
既存の文献は、自然言語と画像で共同で訓練されたベクトル表現による画像データのこの課題に対処している。
本稿では,ジェネレーティブAI(GenAI)を用いたモンテカルロ方式を導入することにより,この問題に対処するための一歩を踏み出した。
- 参考スコア(独自算出の注目度): 8.779871128906787
- License:
- Abstract: Multi-modal data, such as image data sets, often miss the detailed descriptions that properly capture the rich information encoded in them. This makes answering complex natural language queries a major challenge in these domains. In particular, unlike the traditional nearest-neighbor search, where the tuples and the query are modeled as points in a data cube, the query and the tuples are of different natures, making the traditional query answering solutions not directly applicable for such settings. Existing literature addresses this challenge for image data through vector representations jointly trained on natural language and images. This technique, however, underperforms for complex queries due to various reasons. This paper takes a step towards addressing this challenge by introducing a Generative-AI (GenAI) powered Monte Carlo method that utilizes foundation models to generate synthetic samples that capture the complexity of the natural language query and transform it to the same space of the multi-modal data. Following this method, we develop a system for image data retrieval and propose practical solutions that enable leveraging future advancements in GenAI and vector representations for improving our system's performance. Our comprehensive experiments on various benchmark datasets verify that our system significantly outperforms state-of-the-art techniques.
- Abstract(参考訳): 画像データセットのようなマルチモーダルデータはしばしば、その中にエンコードされたリッチな情報を適切にキャプチャする詳細な記述を見逃す。
これにより、複雑な自然言語クエリに答えることが、これらのドメインにおいて大きな課題となる。
特に、タプルとクエリがデータキューブのポイントとしてモデル化される従来の最寄りの検索とは異なり、クエリとタプルは性質が異なるため、従来のクエリ応答ソリューションはそのような設定に直接適用できない。
既存の文献は、自然言語と画像で共同で訓練されたベクトル表現による画像データのこの課題に対処している。
しかし、この手法は様々な理由で複雑なクエリでは性能が劣る。
本稿では,ジェネレーティブAI(GenAI)を利用したモンテカルロ法を導入して,自然言語クエリの複雑さを捉え,マルチモーダルデータの同じ空間に変換する合成サンプルを生成する。
そこで本研究では, 画像データ検索システムを開発し, GenAIの今後の進歩とベクター表現の活用により, システムの性能向上を実現するための実用的なソリューションを提案する。
様々なベンチマークデータセットに関する包括的な実験により、我々のシステムが最先端技術を大幅に上回っていることが確認された。
関連論文リスト
- Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - A Proposed Large Language Model-Based Smart Search for Archive System [0.0]
本研究では,デジタルアーカイブシステムにおけるスマート検索のための新しいフレームワークを提案する。
Retrieval-Augmented Generation (RAG) アプローチを用いることで、自然言語クエリの処理を可能にする。
本稿では,システムのアーキテクチャと実装について述べるとともに,その性能を4つの実験で評価する。
論文 参考訳(メタデータ) (2025-01-13T02:53:07Z) - RiTeK: A Dataset for Large Language Models Complex Reasoning over Textual Knowledge Graphs [12.846097618151951]
我々は,テキスト知識グラフ(RiTeK)を用いたLLMの複雑な推論のためのデータセットを開発し,広範なトポロジ的構造を網羅する。
多様なトポロジ構造、注釈付き情報、複雑なテキスト記述を統合した現実的なユーザクエリを合成する。
そこで我々はモンテカルロ木探索法 (CTS) を導入し, 特定のクエリに対してテキストグラフから関係経路情報を自動的に抽出する手法を提案する。
論文 参考訳(メタデータ) (2024-10-17T19:33:37Z) - A Survey of Multimodal Composite Editing and Retrieval [7.966265020507201]
この調査は、マルチモーダル複合検索に関する文献の総合的なレビューとしては初めてである。
画像テキスト合成編集、画像テキスト合成検索、その他のマルチモーダル合成検索をカバーしている。
アプリケーションシナリオ、メソッド、ベンチマーク、実験、将来の方向性を体系的に整理します。
論文 参考訳(メタデータ) (2024-09-09T08:06:50Z) - SK-VQA: Synthetic Knowledge Generation at Scale for Training Context-Augmented Multimodal LLMs [6.879945062426145]
SK-VQAは200万以上の質問応答対を含む大規模な合成マルチモーダルデータセットである。
我々の合成データセットは、挑戦的なベンチマークとして機能するだけでなく、既存の生成的マルチモーダルモデルを文脈拡張世代に適用する上でも非常に効果的であることを示す。
論文 参考訳(メタデータ) (2024-06-28T01:14:43Z) - ACE: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
我々は、エンドツーエンドのクロスモーダル検索のための先駆的なジェネリッククロスモーダル rEtrieval framework (ACE) を提案する。
ACEは、クロスモーダル検索における最先端のパフォーマンスを達成し、Recall@1の強いベースラインを平均15.27%上回る。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Large Language Model as Attributed Training Data Generator: A Tale of
Diversity and Bias [92.41919689753051]
大規模言語モデル(LLM)は、最近、様々な自然言語処理(NLP)タスクのためのトレーニングデータジェネレータとして活用されている。
本稿では,多様な属性を持つプロンプトを用いたトレーニングデータ生成について検討する。
属性付きプロンプトは、結果のモデルの性能の観点から、単純なクラス条件プロンプトより優れていることを示す。
論文 参考訳(メタデータ) (2023-06-28T03:31:31Z) - MuRAG: Multimodal Retrieval-Augmented Generator for Open Question
Answering over Images and Text [58.655375327681774]
我々は,Multimodal Retrieval-Augmented Transformer (MuRAG)を提案する。
MuRAGは外部の非パラメトリックマルチモーダルメモリにアクセスして言語生成を増強する。
以上の結果から, MuRAGは最先端の精度を達成し, 既存のモデルよりも10~20%精度が高いことがわかった。
論文 参考訳(メタデータ) (2022-10-06T13:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。