Fugu-MT 論文翻訳(概要): Enhancing Multimodal Query Representation via Visual Dialogues for End-to-End Knowledge Retrieval

論文の概要: Enhancing Multimodal Query Representation via Visual Dialogues for End-to-End Knowledge Retrieval

arxiv url: http://arxiv.org/abs/2411.08334v1
Date: Wed, 13 Nov 2024 04:32:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:47.153782
Title: Enhancing Multimodal Query Representation via Visual Dialogues for End-to-End Knowledge Retrieval
Title（参考訳）: エンド・ツー・エンド知識検索のための視覚対話によるマルチモーダルクエリ表現の強化
Authors: Yeong-Joon Ju, Ho-Joong Kim, Seong-Whan Lee,
Abstract要約: 本稿では,マルチモーダルクエリを理解可能なテキスト検索機能を実現するために,エンドツーエンドのマルチモーダル検索システムRet-XKnowを提案する。マルチモーダルインタラクションを効果的に学習するために、視覚対話データセットから構築したVisual Dialogue-to-Retrievalデータセットも導入する。提案手法は,ゼロショット設定における検索性能を大幅に向上するだけでなく,微調整シナリオの大幅な改善も達成できることを示す。
参考スコア（独自算出の注目度）: 26.585985828583304
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Existing multimodal retrieval systems often rely on disjointed models for image comprehension, such as object detectors and caption generators, leading to cumbersome implementations and training processes. To overcome this limitation, we propose an end-to-end retrieval system, Ret-XKnow, to endow a text retriever with the ability to understand multimodal queries via dynamic modality interaction. Ret-XKnow leverages a partial convolution mechanism to focus on visual information relevant to the given textual query, thereby enhancing multimodal query representations. To effectively learn multimodal interaction, we also introduce the Visual Dialogue-to-Retrieval (ViD2R) dataset automatically constructed from visual dialogue datasets. Our dataset construction process ensures that the dialogues are transformed into suitable information retrieval tasks using a text retriever. We demonstrate that our approach not only significantly improves retrieval performance in zero-shot settings but also achieves substantial improvements in fine-tuning scenarios. Our code is publicly available: https://github.com/yeongjoonJu/Ret_XKnow.
Abstract（参考訳）: 既存のマルチモーダル検索システムは、オブジェクト検出器やキャプションジェネレータなどの画像理解のための解離モデルを頼りにしており、面倒な実装やトレーニングプロセスに繋がる。この制限を克服するため,動的モーダル相互作用によるマルチモーダルクエリの理解が可能なテキスト検索システムであるRet-XKnowを提案する。 Ret-XKnowは部分的な畳み込み機構を利用して、与えられたテキストクエリに関連する視覚情報に集中し、マルチモーダルなクエリ表現を強化する。マルチモーダルインタラクションを効果的に学習するために、視覚対話データセットから自動的に構築されるVisual Dialogue-to-Retrieval(ViD2R)データセットも導入する。我々のデータセット構築プロセスは、対話がテキスト検索器を用いて適切な情報検索タスクに変換されることを保証する。提案手法は,ゼロショット設定における検索性能を大幅に向上するだけでなく,微調整シナリオの大幅な改善を実現する。私たちのコードは、https://github.com/yeongjoonJu/Ret_XKnow.comで公開されています。

関連論文リスト

BRIT: Bidirectional Retrieval over Unified Image-Text Graph [0.0]
Retrieval-Augmented Generation (RAG) は、大規模言語モデルによって生成された応答の品質と関連性を高めるための有望な手法として登場した。本稿では、文書内の様々なテキストイメージ接続をマルチモーダルグラフに統一する、新しいマルチモーダルRAGフレームワークBRITを提案する。 BRITは、画像からテキストへの経路とテキストへの経路の両方をグラフでトラバースすることにより、関連する画像やテキストを直接検索するだけでなく、関連するコンテンツも検索する。
論文参考訳（メタデータ） (2025-05-24T01:20:51Z)
Benchmarking Retrieval-Augmented Multimomal Generation for Document Question Answering [42.468210353582755]
Document Visual Question Answering (DocVQA)は、長いマルチモーダル文書の処理において2つの課題に直面している。現在の文書検索拡張生成法(DocRAG)はテキスト中心のアプローチによって制限されている。 MMDocRAGは,多ページのクロスモーダルエビデンスチェーンを持つ4,055のエキスパートアノテーション付きQAペアを特徴とする総合ベンチマークである。
論文参考訳（メタデータ） (2025-05-22T09:52:57Z)
Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文参考訳（メタデータ） (2025-02-18T12:00:47Z)
Multi-Turn Multi-Modal Question Clarification for Enhanced Conversational Understanding [11.004677535859342]
本稿では,Multi-turn Multi-modal Clarifying Questions (MMCQ)タスクを紹介する。 MMCQはテキストと視覚のモダリティを組み合わせて、マルチターン会話でユーザクエリを洗練させる。マルチターンマルチモーダルの明確化はユニモーダルとシングルターンのアプローチよりも優れ、MRRを12.88%向上させることを示した。
論文参考訳（メタデータ） (2025-02-17T04:58:14Z)
MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs [78.5013630951288]
本稿では,マルチモーダル大言語モデル(MLLM)を用いた情報検索手法を提案する。まず,16個の検索タスクを持つ10個のデータセットに対して,MLLMをバイエンコーダレトリバーとして微調整する。我々のモデルMM-Embedはマルチモーダル検索ベンチマークM-BEIR上で最先端の性能を実現する。
論文参考訳（メタデータ） (2024-11-04T20:06:34Z)
AMPLE: Emotion-Aware Multimodal Fusion Prompt Learning for Fake News Detection [0.1499944454332829]
本稿では,Emotion-textbfAware textbfMultimodal Fusion textbfPrompt textbfLtextbfEarning (textbfAMPLE) フレームワークについて述べる。このフレームワークは感情分析ツールを利用してテキストから感情要素を抽出する。次に、マルチヘッドクロスアテンション(MCA)機構と類似性を考慮した融合手法を用いて、マルチモーダルデータを統合する。
論文参考訳（メタデータ） (2024-10-21T02:19:24Z)
Hierarchical Multi-modal Transformer for Cross-modal Long Document Classification [74.45521856327001]
階層構造テキストと埋め込み画像で長い文書を分類する方法は、新しい問題である。本稿では,階層型マルチモーダル変換器 (HMT) を用いたクロスモーダルな文書分類手法を提案する。本稿では,マルチモーダル変換器と動的マルチスケールマルチモーダル変換器を用いて,画像特徴とセクションと文特徴の複雑な関係をモデル化する。
論文参考訳（メタデータ） (2024-07-14T07:12:25Z)
Multi-Modal Retrieval For Large Language Model Based Speech Recognition [15.494654232953678]
我々は,kNN-LMとクロスアテンション手法の2つのアプローチによるマルチモーダル検索を提案する。音声に基づくマルチモーダル検索はテキストベースの検索よりも優れていることを示す。我々は,Spoken-Squad質問応答データセットを用いて,最先端の認識結果を得る。
論文参考訳（メタデータ） (2024-06-13T22:55:22Z)
VISTA: Visualized Text Embedding For Universal Multi-Modal Retrieval [10.603148564713518]
汎用マルチモーダル検索のための新しい埋め込みモデルVISTAを提案する。画像理解機能を備えた強力なテキストエンコーダを拡張するフレキシブルアーキテクチャを導入する。第2に,埋め込みモデルのトレーニングを容易にするために,高品質な合成画像テキストを提供する2つのデータ生成戦略を開発する。
論文参考訳（メタデータ） (2024-06-06T17:37:47Z)
Enhancing Interactive Image Retrieval With Query Rewriting Using Large Language Models and Vision Language Models [17.171715290673678]
本稿では,ユーザの関連性フィードバックに基づいてクエリを精査できる対話型画像検索システムを提案する。本システムは,視覚言語モデル(VLM)に基づく画像キャプタを組み込んで,テキストベースのクエリの質を高める。本システムを評価するために,MSR-VTTビデオ検索データセットを画像検索タスクに適用することにより,新たなデータセットをキュレートする。
論文参考訳（メタデータ） (2024-04-29T14:46:35Z)
Multi-modal Stance Detection: New Datasets and Model [56.97470987479277]
テキストと画像からなるツイートに対するマルチモーダル姿勢検出について検討する。我々は、シンプルで効果的なマルチモーダル・プロンプト・チューニング・フレームワーク(TMPT)を提案する。 TMPTはマルチモーダル姿勢検出における最先端性能を実現する。
論文参考訳（メタデータ） (2024-02-22T05:24:19Z)
DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever [83.33209603041013]
マルチモーダルダイアログ検索のためのパラメータ効率の高いプロンプトチューニング手法であるDialCLIPを提案する。提案手法では,事前学習された視覚言語モデルCLIP内のプロンプトに抽出された文脈特徴を学習するためのマルチモーダルコンテキスト生成手法を提案する。様々なタイプの検索を容易にするために,CLIP出力からマルチモーダル表現空間へのマッピングを学習するために,複数の専門家を設計する。
論文参考訳（メタデータ） (2024-01-02T07:40:12Z)
End-to-end Knowledge Retrieval with Multi-modal Queries [50.01264794081951]
ReMuQは、テキストと画像のクエリからコンテンツを統合することで、大規模なコーパスから知識を取得するシステムを必要とする。本稿では,入力テキストや画像を直接処理し,関連する知識をエンドツーエンドで検索する検索モデルReViz'を提案する。ゼロショット設定下での2つのデータセットの検索において,優れた性能を示す。
論文参考訳（メタデータ） (2023-06-01T08:04:12Z)
Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文参考訳（メタデータ） (2023-05-29T17:50:33Z)
A Unified Framework for Slot based Response Generation in a Multimodal Dialogue System [25.17100881568308]
自然言語理解(NLU)と自然言語生成(NLG)は、すべての会話システムにおいて重要な要素である。発話から必要なスロット値を抽出できるエンドツーエンドフレームワークを提案する。事前学習したダイアロGPTを用いたマルチモーダル階層エンコーダを用いて、両方のタスクに対してより強力なコンテキストを提供する。
論文参考訳（メタデータ） (2023-05-27T10:06:03Z)
Using Textual Interface to Align External Knowledge for End-to-End Task-Oriented Dialogue Systems [53.38517204698343]
本稿では,外部知識の整合化と冗長なプロセスの排除にテキストインタフェースを用いた新しいパラダイムを提案する。我々は、MultiWOZ-Remakeを用いて、MultiWOZデータベース用に構築されたインタラクティブテキストインタフェースを含む、我々のパラダイムを実演する。
論文参考訳（メタデータ） (2023-05-23T05:48:21Z)
CISum: Learning Cross-modality Interaction to Enhance Multimodal Semantic Coverage for Multimodal Summarization [2.461695698601437]
本稿ではマルチタスク・クロスモーダル学習フレームワーク(CISum)を提案する。視覚的意味論を得るために,テキストの内容との相関に基づいて画像から視覚的記述へと変換する。そして、視覚的記述とテキスト内容とを融合させてテキスト要約を生成し、マルチモーダルコンテンツのセマンティクスをキャプチャする。
論文参考訳（メタデータ） (2023-02-20T11:57:23Z)
Named Entity and Relation Extraction with Multi-Modal Retrieval [51.660650522630526]
マルチモーダルな名前付きエンティティ認識(NER)と関係抽出(RE)は、関連画像情報を活用してNERとREの性能を向上させることを目的としている。新たなマルチモーダル検索フレームワーク(MoRe)を提案する。 MoReはテキスト検索モジュールと画像ベースの検索モジュールを含み、入力されたテキストと画像の関連知識をそれぞれ知識コーパスで検索する。
論文参考訳（メタデータ） (2022-12-03T13:11:32Z)
TRIE++: Towards End-to-End Information Extraction from Visually Rich Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文参考訳（メタデータ） (2022-07-14T08:52:07Z)
Reasoning in Dialog: Improving Response Generation by Context Reading Comprehension [49.92173751203827]
マルチターンダイアログでは、発話が文の完全な形を取るとは限らない。読み解きの質問に答えるモデルの能力を検討し、応答生成性能の向上を提案する。
論文参考訳（メタデータ） (2020-12-14T10:58:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。