Fugu-MT 論文翻訳(概要): Needle: A Generative-AI Powered Monte Carlo Method for Answering Complex Natural Language Queries on Multi-modal Data

論文の概要: Needle: A Generative-AI Powered Monte Carlo Method for Answering Complex Natural Language Queries on Multi-modal Data

arxiv url: http://arxiv.org/abs/2412.00639v1
Date: Sun, 01 Dec 2024 01:36:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 21:11:22.078836
Title: Needle: A Generative-AI Powered Monte Carlo Method for Answering Complex Natural Language Queries on Multi-modal Data
Title（参考訳）: Needle:マルチモーダルデータを用いた複雑な自然言語クエリに対する生成AI駆動モンテカルロ法
Authors: Mahdi Erfanian, Mohsen Dehghankar, Abolfazl Asudeh,
Abstract要約: マルチモーダルデータはしばしば、その中にエンコードされたリッチな情報を適切にキャプチャする詳細な記述を見逃す。これにより、複雑な自然言語クエリに答えることが、これらのドメインにおいて大きな課題となる。既存の文献は、自然言語と画像で共同で訓練されたベクトル表現による画像データのこの課題に対処している。本稿では,ジェネレーティブAI(GenAI)を用いたモンテカルロ方式を導入することにより,この問題に対処するための一歩を踏み出した。
参考スコア（独自算出の注目度）: 8.779871128906787
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Multi-modal data, such as image data sets, often miss the detailed descriptions that properly capture the rich information encoded in them. This makes answering complex natural language queries a major challenge in these domains. In particular, unlike the traditional nearest-neighbor search, where the tuples and the query are modeled as points in a data cube, the query and the tuples are of different natures, making the traditional query answering solutions not directly applicable for such settings. Existing literature addresses this challenge for image data through vector representations jointly trained on natural language and images. This technique, however, underperforms for complex queries due to various reasons. This paper takes a step towards addressing this challenge by introducing a Generative-AI (GenAI) powered Monte Carlo method that utilizes foundation models to generate synthetic samples that capture the complexity of the natural language query and transform it to the same space of the multi-modal data. Following this method, we develop a system for image data retrieval and propose practical solutions that enable leveraging future advancements in GenAI and vector representations for improving our system's performance. Our comprehensive experiments on various benchmark datasets verify that our system significantly outperforms state-of-the-art techniques.
Abstract（参考訳）: 画像データセットのようなマルチモーダルデータはしばしば、その中にエンコードされたリッチな情報を適切にキャプチャする詳細な記述を見逃す。これにより、複雑な自然言語クエリに答えることが、これらのドメインにおいて大きな課題となる。特に、タプルとクエリがデータキューブのポイントとしてモデル化される従来の最寄りの検索とは異なり、クエリとタプルは性質が異なるため、従来のクエリ応答ソリューションはそのような設定に直接適用できない。既存の文献は、自然言語と画像で共同で訓練されたベクトル表現による画像データのこの課題に対処している。しかし、この手法は様々な理由で複雑なクエリでは性能が劣る。本稿では,ジェネレーティブAI(GenAI)を利用したモンテカルロ法を導入して,自然言語クエリの複雑さを捉え,マルチモーダルデータの同じ空間に変換する合成サンプルを生成する。そこで本研究では, 画像データ検索システムを開発し, GenAIの今後の進歩とベクター表現の活用により, システムの性能向上を実現するための実用的なソリューションを提案する。様々なベンチマークデータセットに関する包括的な実験により、我々のシステムが最先端技術を大幅に上回っていることが確認された。

関連論文リスト

Multi-turn Natural Language to Graph Query Language Translation [15.249580032219336]
現実的なアプリケーションでは、グラフデータベースとのユーザインタラクションは通常、マルチターン、動的、コンテキスト依存である。シングルターン変換に焦点を当てた研究は、マルチターン対話や複雑なコンテキスト依存に効果的に対応できない。大規模言語モデル(LLM)に基づくマルチターンNL2GQLデータセットの自動構築法を提案する。
論文参考訳（メタデータ） (2025-08-03T17:56:52Z)
Towards Visual Text Grounding of Multimodal Large Language Model [88.0588924255417]
本稿では,テキストリッチな画像グラウンドのベンチマークを行うための命令データセットを新たに設計した新しいタスクであるTRIGを紹介する。具体的には,OCR-LLM-ヒューマンインタラクションパイプラインを提案し,800の注釈付き質問応答ペアをベンチマークとして作成する。提案したベンチマークによる各種MLLMの包括的評価は,テキストリッチな画像上でのグラウンド化能力の大幅な制限を明らかにする。
論文参考訳（メタデータ） (2025-04-07T12:01:59Z)
GridMind: A Multi-Agent NLP Framework for Unified, Cross-Modal NFL Data Insights [0.0]
本稿では,Retrieval-Augmented Generation (RAG) と大規模言語モデル (LLM) を通じて構造化,半構造化,非構造化データを統一するフレームワークであるGridMindを紹介する。このアプローチはマルチモーダル表現学習の進化する分野と一致する。
論文参考訳（メタデータ） (2025-03-24T18:33:36Z)
Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文参考訳（メタデータ） (2025-02-18T12:00:47Z)
Explainable Multi-Modal Data Exploration in Natural Language via LLM Agent [6.147666891384964]
XMODEは自然言語で説明可能なマルチモーダルデータ探索を可能にするシステムである。 XMODEは、マルチモーダル情報システムの探索を可能にする現実世界のユースケースにインスパイアされている。
論文参考訳（メタデータ） (2024-12-24T13:42:44Z)
Leveraging LLMs to Enable Natural Language Search on Go-to-market Platforms [0.23301643766310368]
販売者向けのZoominfo製品向けのソリューションの実装と評価を行い、自然言語による大規模言語モデルの実現を促す。中間検索フィールドは、構文エラーの除去など、クエリ毎に多くの利点を提供する。提案手法の有効性を実証するために, クローズド, オープンソース, 微調整 LLM モデルを用いた総合実験を行った。
論文参考訳（メタデータ） (2024-11-07T03:58:38Z)
Data Fusion of Synthetic Query Variants With Generative Large Language Models [1.864807003137943]
本研究は,データ融合実験において,命令調整型大規模言語モデルによって生成される合成クエリ変種を用いることの実現可能性について検討する。我々は、プロンプトとデータ融合の原則を生かした、軽量で教師なしで費用効率のよいアプローチを導入します。解析の結果,合成クエリの変種に基づくデータ融合は,単一クエリのベースラインよりもはるかに優れており,擬似関連フィードバック手法よりも優れていることがわかった。
論文参考訳（メタデータ） (2024-11-06T12:54:27Z)
MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs [78.5013630951288]
本稿では,マルチモーダル大言語モデル(MLLM)を用いた情報検索手法を提案する。まず,16個の検索タスクを持つ10個のデータセットに対して,MLLMをバイエンコーダレトリバーとして微調整する。我々のモデルMM-Embedはマルチモーダル検索ベンチマークM-BEIR上で最先端の性能を実現する。
論文参考訳（メタデータ） (2024-11-04T20:06:34Z)
RiTeK: A Dataset for Large Language Models Complex Reasoning over Textual Knowledge Graphs [12.846097618151951]
我々は,テキスト知識グラフ(RiTeK)を用いたLLMの複雑な推論のためのデータセットを開発し,広範なトポロジ的構造を網羅する。多様なトポロジ構造、注釈付き情報、複雑なテキスト記述を統合した現実的なユーザクエリを合成する。そこで我々はモンテカルロ木探索法 (CTS) を導入し, 特定のクエリに対してテキストグラフから関係経路情報を自動的に抽出する手法を提案する。
論文参考訳（メタデータ） (2024-10-17T19:33:37Z)
A Survey of Multimodal Composite Editing and Retrieval [7.966265020507201]
この調査は、マルチモーダル複合検索に関する文献の総合的なレビューとしては初めてである。画像テキスト合成編集、画像テキスト合成検索、その他のマルチモーダル合成検索をカバーしている。アプリケーションシナリオ、メソッド、ベンチマーク、実験、将来の方向性を体系的に整理します。
論文参考訳（メタデータ） (2024-09-09T08:06:50Z)
SK-VQA: Synthetic Knowledge Generation at Scale for Training Context-Augmented Multimodal LLMs [6.879945062426145]
SK-VQAは200万以上の質問応答対を含む大規模な合成マルチモーダルデータセットである。我々の合成データセットは、挑戦的なベンチマークとして機能するだけでなく、既存の生成的マルチモーダルモデルを文脈拡張世代に適用する上でも非常に効果的であることを示す。
論文参考訳（メタデータ） (2024-06-28T01:14:43Z)
ACE: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
我々は、エンドツーエンドのクロスモーダル検索のための先駆的なジェネリッククロスモーダル rEtrieval framework (ACE) を提案する。 ACEは、クロスモーダル検索における最先端のパフォーマンスを達成し、Recall@1の強いベースラインを平均15.27%上回る。
論文参考訳（メタデータ） (2024-06-25T12:47:04Z)
STaRK: Benchmarking LLM Retrieval on Textual and Relational Knowledge Bases [93.96463520716759]
テキストと知識ベースを用いた大規模半構造検索ベンチマークSTARKを開発した。本ベンチマークでは, 製品検索, 学術論文検索, 精密医療におけるクエリの3分野について検討した。多様なリレーショナル情報と複雑なテキスト特性を統合した,現実的なユーザクエリを合成する,新しいパイプラインを設計する。
論文参考訳（メタデータ） (2024-04-19T22:54:54Z)
Unity by Diversity: Improved Representation Learning in Multimodal VAEs [24.691068754720106]
ハード制約をソフト制約に置き換えることで、より優れた潜伏表現が得られることを示す。既存の手法と比較して、学習した潜在表現の改善と欠落したデータモダリティの計算結果を示す。
論文参考訳（メタデータ） (2024-03-08T13:29:46Z)
ReFusion: Improving Natural Language Understanding with Computation-Efficient Retrieval Representation Fusion [22.164620956284466]
言語モデルに外部データベースからの知識を取り入れた検索ベース拡張(RA)は,様々な知識集約(KI)タスクに大きく成功している。既存の作業は、モデル性能を改善するために、検索と入力を結合することに焦点を当てている。本稿では,二段階最適化を用いた計算効率の高い検索表現Fusionである textbfReFusion の新たなパラダイムを提案する。
論文参考訳（メタデータ） (2024-01-04T07:39:26Z)
Genixer: Empowering Multimodal Large Language Models as a Powerful Data Generator [63.762209407570715]
Genixerは4つの重要なステップからなる包括的なデータ生成パイプラインである。 LLaVA1.5でトレーニングされた合成VQAライクなデータセットは、12のマルチモーダルベンチマークのうち10のパフォーマンスを向上させる。タスク固有のデータセットで訓練されたMLLMは、複雑な命令チューニングデータを生成する際に、GPT-4Vを超えることができる。
論文参考訳（メタデータ） (2023-12-11T09:44:41Z)
Contrastive Transformer Learning with Proximity Data Generation for Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文参考訳（メタデータ） (2023-11-15T16:26:49Z)
StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。本研究は,各種データセットを対象とした総合的な実験を含む。
論文参考訳（メタデータ） (2023-08-20T12:43:52Z)
JourneyDB: A Benchmark for Generative Image Understanding [89.02046606392382]
生成画像の領域に適合する包括的データセットであるJourneyDBを導入する。精巧にキュレートされたデータセットは、400万の異なる高品質な画像で構成されています。本データセットでは,生成した画像の理解性能を評価するための4つのベンチマークを考案した。
論文参考訳（メタデータ） (2023-07-03T02:39:08Z)
Large Language Model as Attributed Training Data Generator: A Tale of Diversity and Bias [92.41919689753051]
大規模言語モデル(LLM)は、最近、様々な自然言語処理(NLP)タスクのためのトレーニングデータジェネレータとして活用されている。本稿では,多様な属性を持つプロンプトを用いたトレーニングデータ生成について検討する。属性付きプロンプトは、結果のモデルの性能の観点から、単純なクラス条件プロンプトより優れていることを示す。
論文参考訳（メタデータ） (2023-06-28T03:31:31Z)
MuRAG: Multimodal Retrieval-Augmented Generator for Open Question Answering over Images and Text [58.655375327681774]
我々は,Multimodal Retrieval-Augmented Transformer (MuRAG)を提案する。 MuRAGは外部の非パラメトリックマルチモーダルメモリにアクセスして言語生成を増強する。以上の結果から, MuRAGは最先端の精度を達成し, 既存のモデルよりも10～20%精度が高いことがわかった。
論文参考訳（メタデータ） (2022-10-06T13:58:03Z)
A Multi-Perspective Architecture for Semantic Code Search [58.73778219645548]
テキストマッチングのための新しい多言語間ニューラルネットワークを提案する。 CoNaLaデータセットを用いた実験により,提案したモデルでは,従来の手法よりも優れた性能が得られることが示された。
論文参考訳（メタデータ） (2020-05-06T04:46:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。