Fugu-MT 論文翻訳(概要): Unified Multimodal Interleaved Document Representation for Retrieval

論文の概要: Unified Multimodal Interleaved Document Representation for Retrieval

arxiv url: http://arxiv.org/abs/2410.02729v2
Date: Mon, 16 Dec 2024 15:11:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-17 15:49:58.937985
Title: Unified Multimodal Interleaved Document Representation for Retrieval
Title（参考訳）: 検索のための統一型マルチモーダルインターリーブ文書表現
Authors: Jaewoo Lee, Joonho Ko, Jinheon Baek, Soyeong Jeong, Sung Ju Hwang,
Abstract要約: 複数のモダリティでインターリーブされた文書を階層的に埋め込む手法を提案する。セグメント化されたパスの表現を1つのドキュメント表現にマージする。我々は,本手法が関連するベースラインを大幅に上回ることを示す。
参考スコア（独自算出の注目度）: 57.65409208879344
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Information Retrieval (IR) methods aim to identify documents relevant to a query, which have been widely applied in various natural language tasks. However, existing approaches typically consider only the textual content within documents, overlooking the fact that documents can contain multiple modalities, including images and tables. Also, they often segment each long document into multiple discrete passages for embedding, which prevents them from capturing the overall document context and interactions between paragraphs. To address these two challenges, we propose a method that holistically embeds documents interleaved with multiple modalities by leveraging the capability of recent vision-language models that enable the processing and integration of text, images, and tables into a unified format and representation. Moreover, to mitigate the information loss from segmenting documents into passages, instead of representing and retrieving passages individually, we further merge the representations of segmented passages into one single document representation, while we additionally introduce a reranking strategy to decouple and identify the relevant passage within the document if necessary. Then, through extensive experiments on diverse IR scenarios considering both the textual and multimodal queries, we show that our approach substantially outperforms relevant baselines, thanks to the consideration of the multimodal information within documents.
Abstract（参考訳）: Information Retrieval (IR)メソッドは、様々な自然言語タスクに広く適用されているクエリに関連する文書を特定することを目的としている。しかし、既存のアプローチは典型的には文書内のテキストコンテンツのみを考慮し、文書が画像やテーブルを含む複数のモダリティを含むことができるという事実を見下ろしている。また、各長いドキュメントを複数の個別のパスに分割して埋め込み、文書のコンテキスト全体と段落間の相互作用をキャプチャすることができない。これら2つの課題に対処するために、テキスト、画像、テーブルの処理と統合を可能にする最新のビジョン言語モデルの能力を活用して、複数のモダリティでインターリーブされた文書を階層的に組み込む手法を提案する。さらに, セグメント化文書から通路への情報損失を軽減するために, 個々の通路を表現・検索する代わりに, セグメント化文書の表現を1つの文書表現にマージすると同時に, 必要に応じて文書内の関連する通路を分離・識別するための階層化戦略も導入する。そして,テキストとマルチモーダルクエリの両方を考慮した多様なIRシナリオに関する広範な実験により,文書内のマルチモーダル情報を考慮することにより,本手法が関連するベースラインを大幅に上回ることを示す。

関連論文リスト

DocSplit: A Comprehensive Benchmark Dataset and Evaluation Approach for Document Packet Recognition and Splitting [3.657237256134889]
実世界のアプリケーションにおける文書理解には、複数の文書を縫合した異種多ページの文書パケットを処理する必要があることが多い。本稿では,最初の包括的なベンチマークデータセットであるDocSplitと,大規模言語モデルの文書パケット分割機能を評価するための新たな評価指標を提案する。このベンチマークは、注文外ページ、インターリーブされたドキュメント、明確な区切りのないドキュメントなど、現実世界の課題に対処する。
論文参考訳（メタデータ） (2026-02-17T19:17:55Z)
Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding [61.36285696607487]
文書理解は、財務分析から科学的発見への応用に不可欠である。現在のアプローチでは、OCRベースのパイプラインがLarge Language Models(LLM)やネイティブのMultimodal LLMs(MLLM)に制限されている。 Retrieval-Augmented Generation (RAG)は、外部データの基底モデルを支援するが、文書のマルチモーダルな性質は、テキスト、テーブル、チャート、レイアウトを組み合わせることで、より高度なパラダイムを必要とする。
論文参考訳（メタデータ） (2025-10-17T02:33:16Z)
PRISM: Fine-Grained Paper-to-Paper Retrieval with Multi-Aspect-Aware Query Optimization [61.783280234747394]
PRISMは文書から文書への検索手法であり、クエリと候補文書の両方に対して、複数のきめ細かい表現を導入している。 SciFullBenchは、クエリと候補の両方のフルペーパーの完全かつセグメンテーションされたコンテキストが利用できる新しいベンチマークである。実験の結果、PRISMは既存の検索基準よりも平均4.3%性能が向上した。
論文参考訳（メタデータ） (2025-07-14T08:41:53Z)
Unsupervised Document and Template Clustering using Multimodal Embeddings [0.0]
本稿では,マルチモーダル埋め込みを入力として活用し,教師なし文書クラスタリングへの新たなアプローチについて検討する。本手法は,文書を型レベルでグループ化し,異なるテンプレートを区別することで,より詳細な文書理解を実現することを目的としている。提案手法の有効性を,いくつかの最先端事前学習型マルチモーダルモデルによって生成された埋め込みを用いて評価した。
論文参考訳（メタデータ） (2025-06-13T14:07:44Z)
M3DocRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding [63.33447665725129]
M3DocRAGは、様々な文書コンテキストに柔軟に対応する新しいマルチモーダルRAGフレームワークである。 M3DocRAGは視覚情報を保存しながら、単一の文書や多数の文書を効率的に処理できる。 M3DocVQAはオープンドメインDocVQAを3,000以上のPDFドキュメントと4万以上のページで評価するための新しいベンチマークである。
論文参考訳（メタデータ） (2024-11-07T18:29:38Z)
Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文参考訳（メタデータ） (2024-10-03T14:33:34Z)
PDF-MVQA: A Dataset for Multimodal Information Retrieval in PDF-based Visual Question Answering [13.625303311724757]
文書質問回答(QA)は、視覚に富む文書(VRD)を理解する上での課題を提示する我々は,複数のページとマルチモーダル情報検索を含む研究雑誌記事に適したPDF-MVQAを提案する。
論文参考訳（メタデータ） (2024-04-19T09:00:05Z)
Leveraging Collection-Wide Similarities for Unsupervised Document Structure Extraction [61.998789448260005]
本稿では,コレクション内の文書の典型的構造を特定することを提案する。任意のヘッダのパラフレーズを抽象化し、各トピックを各ドキュメントのロケーションにグルーピングします。文書間の類似性を利用した教師なしグラフベース手法を開発した。
論文参考訳（メタデータ） (2024-02-21T16:22:21Z)
Mining both Commonality and Specificity from Multiple Documents for Multi-Document Summarization [1.4629756274247374]
多文書要約タスクでは、設計した要約者が、原文書の重要な情報をカバーする短いテキストを生成する必要がある。本稿では,文書の階層的クラスタリングに基づくマルチドキュメント要約手法を提案する。
論文参考訳（メタデータ） (2023-03-05T14:25:05Z)
TRIE++: Towards End-to-End Information Extraction from Visually Rich Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文参考訳（メタデータ） (2022-07-14T08:52:07Z)
Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。 UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。 UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文参考訳（メタデータ） (2022-04-22T21:47:04Z)
Combining Deep Learning and Reasoning for Address Detection in Unstructured Text Documents [0.0]
本研究では,非構造化文書からアドレスを検索・抽出する手法として,ディープラーニングと推論を組み合わせたハイブリッド手法を提案する。スキャンした文書画像上のアドレス領域の境界を検出するために,視覚的深層学習モデルを用いる。
論文参考訳（メタデータ） (2022-02-07T12:32:00Z)
Modeling Endorsement for Multi-Document Abstractive Summarization [10.166639983949887]
単一文書の要約と多文書の要約の重大な違いは、文書の中で健全なコンテンツがどのように現れるかである。本稿では,複数文書要約における文書間補完効果とその活用をモデル化する。提案手法は各文書から合成を生成し,他の文書から有意な内容を識別する支援者として機能する。
論文参考訳（メタデータ） (2021-10-15T03:55:42Z)
Multilevel Text Alignment with Cross-Document Attention [59.76351805607481]
既存のアライメントメソッドは、1つの事前定義されたレベルで動作します。本稿では,文書を文書間注目要素で表現するための階層的アテンションエンコーダを予め確立した新しい学習手法を提案する。
論文参考訳（メタデータ） (2020-10-03T02:52:28Z)
Towards a Multi-modal, Multi-task Learning based Pre-training Framework for Document Representation Learning [5.109216329453963]
本稿では,新しい事前学習タスクとして,文書トピックモデリングと文書シャッフル予測を導入する。本稿では,Longformer ネットワークアーキテクチャをバックボーンとして,複数ページの文書からのマルチモーダル情報をエンド・ツー・エンドで符号化する。
論文参考訳（メタデータ） (2020-09-30T05:39:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。