Fugu-MT 論文翻訳(概要): Unsupervised Document and Template Clustering using Multimodal Embeddings

論文の概要: Unsupervised Document and Template Clustering using Multimodal Embeddings

arxiv url: http://arxiv.org/abs/2506.12116v2
Date: Tue, 12 Aug 2025 08:55:34 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-13 14:32:16.080879
Title: Unsupervised Document and Template Clustering using Multimodal Embeddings
Title（参考訳）: マルチモーダル埋め込みを用いた教師なし文書とテンプレートクラスタリング
Authors: Phillipe R. Sampaio, Helene Maxcici,
Abstract要約: 本稿では,クラスタリングアルゴリズムへの入力としてマルチモーダル埋め込みを活用することにより,教師なし文書クラスタリングへの新たなアプローチについて検討する。本手法は,文書を型レベルでグループ化し,異なるテンプレートを区別することで,より詳細な文書理解を実現することを目的としている。提案手法の有効性を,いくつかの最先端の事前学習型マルチモーダルモデルによって生成された埋め込みを用いて評価した。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper investigates a novel approach to unsupervised document clustering by leveraging multimodal embeddings as input to clustering algorithms such as $k$-Means, DBSCAN, a combination of HDBSCAN and $k$-NN, and BIRCH. Our method aims to achieve a finer-grained document understanding by not only grouping documents at the type level (e.g., invoices, purchase orders), but also distinguishing between different templates within the same document category. This is achieved by using embeddings that capture textual content, layout information, and visual features of documents. We evaluated the effectiveness of this approach using embeddings generated by several state-of-the-art pre-trained multimodal models, including SBERT, LayoutLMv1, LayoutLMv3, DiT, Donut, ColPali, Gemma3, and InternVL3. Our findings demonstrate the potential of multimodal embeddings to significantly enhance document clustering, offering benefits for various applications in intelligent document processing, document layout analysis, and unsupervised document classification. This work provides valuable insight into the advantages and limitations of different multimodal models for this task and opens new avenues for future research to understand and organize document collections.
Abstract（参考訳）: 本稿では、$k$-Means、DBSCAN、HDBSCANと$k$-NN、BIRCHといったクラスタリングアルゴリズムへの入力としてマルチモーダル埋め込みを利用する、教師なし文書クラスタリングの新しいアプローチについて検討する。本手法は,タイプレベル(例えば,請求書,購入注文)で文書をグループ化するだけでなく,同一の文書カテゴリ内で異なるテンプレートを区別することで,より詳細な文書理解を実現することを目的とする。これは、テキストコンテンツ、レイアウト情報、ドキュメントの視覚的特徴をキャプチャする埋め込みを使用することで実現される。 SBERT, LayoutLMv1, LayoutLMv3, DiT, Donut, ColPali, Gemma3, InternVL3 など,最先端の事前学習型マルチモーダルモデルによって生成された埋め込みを用いて, 本手法の有効性を評価した。本研究は,文書クラスタリングを大幅に向上させるマルチモーダル埋め込みの可能性を示し,文書処理,文書レイアウト解析,および教師なし文書分類における各種アプリケーションにメリットを提供する。この研究は、このタスクに対する様々なマルチモーダルモデルの利点と限界についての貴重な洞察を与え、文書コレクションの理解と整理のための新たな道を開く。

関連論文リスト

Docopilot: Improving Multimodal Models for Document-Level Understanding [87.60020625241178]
マルチモーダル文書の詳細な理解を支援するために,高品質な文書レベルデータセットDoc-750Kを提案する。このデータセットには、さまざまなドキュメント構造、広範なクロスページ依存関係、および元のドキュメントから派生した実際の質問と回答のペアが含まれている。データセットに基づいて、RAGに頼ることなく、文書レベルの依存関係を正確に処理できるネイティブなマルチモーダルモデルであるDocopilotを開発する。
論文参考訳（メタデータ） (2025-07-19T16:03:34Z)
Relation-Rich Visual Document Generator for Visual Information Extraction [12.4941229258054]
本稿では2段階のアプローチでこれらの制限に対処するリレーショナルrIchビジュアルドキュメンテーション・ジェネレータ(RIDGE)を提案する。提案手法は,様々なVIEベンチマークにおける文書理解モデルの性能を大幅に向上させる。
論文参考訳（メタデータ） (2025-04-14T19:19:26Z)
MMDocIR: Benchmarking Multi-Modal Retrieval for Long Documents [26.39534684408116]
この研究は、ページレベルとレイアウトレベルの検索という2つの異なるタスクを含むMMDocIRという新しいベンチマークを導入する。 MMDocIRベンチマークは、専門家によって注釈付けされた1,685の質問と、ブートストラップ付きラベル付き173,843の質問を含む、豊富なデータセットで構成されている。
論文参考訳（メタデータ） (2025-01-15T14:30:13Z)
Unified Multimodal Interleaved Document Representation for Retrieval [57.65409208879344]
複数のモダリティでインターリーブされた文書を階層的に埋め込む手法を提案する。セグメント化されたパスの表現を1つのドキュメント表現にマージする。我々は,本手法が関連するベースラインを大幅に上回ることを示す。
論文参考訳（メタデータ） (2024-10-03T17:49:09Z)
Leveraging Collection-Wide Similarities for Unsupervised Document Structure Extraction [61.998789448260005]
本稿では,コレクション内の文書の典型的構造を特定することを提案する。任意のヘッダのパラフレーズを抽象化し、各トピックを各ドキュメントのロケーションにグルーピングします。文書間の類似性を利用した教師なしグラフベース手法を開発した。
論文参考訳（メタデータ） (2024-02-21T16:22:21Z)
DocumentNet: Bridging the Data Gap in Document Pre-Training [78.01647768018485]
本稿では,Webから大規模かつ弱いラベル付きデータを収集し,VDERモデルの学習に役立てる手法を提案する。収集されたデータセットはDocumentNetと呼ばれ、特定のドキュメントタイプやエンティティセットに依存しない。広く採用されているVDERタスクの実験は、DocumentNetを事前トレーニングに組み込んだ場合、大幅に改善されている。
論文参考訳（メタデータ） (2023-06-15T08:21:15Z)
Mining both Commonality and Specificity from Multiple Documents for Multi-Document Summarization [1.4629756274247374]
多文書要約タスクでは、設計した要約者が、原文書の重要な情報をカバーする短いテキストを生成する必要がある。本稿では,文書の階層的クラスタリングに基づくマルチドキュメント要約手法を提案する。
論文参考訳（メタデータ） (2023-03-05T14:25:05Z)
Large-Scale Multi-Document Summarization with Information Extraction and Compression [31.601707033466766]
複数の異種文書のラベル付きデータとは無関係に抽象的な要約フレームワークを開発する。我々のフレームワークは、同じトピックのドキュメントではなく、異なるストーリーを伝えるドキュメントを処理する。我々の実験は、このより汎用的な設定において、我々のフレームワークが現在の最先端メソッドより優れていることを示した。
論文参考訳（メタデータ） (2022-05-01T19:49:15Z)
Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。 UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。 UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文参考訳（メタデータ） (2022-04-22T21:47:04Z)
Multi-View Document Representation Learning for Open-Domain Dense Retrieval [87.11836738011007]
本稿では,多視点文書表現学習フレームワークを提案する。ドキュメントを表現し、異なるクエリに合わせるように強制するために、マルチビューの埋め込みを作成することを目的としている。実験により,本手法は最近の成果より優れ,最先端の結果が得られた。
論文参考訳（メタデータ） (2022-03-16T03:36:38Z)
Towards a Multi-modal, Multi-task Learning based Pre-training Framework for Document Representation Learning [5.109216329453963]
本稿では,新しい事前学習タスクとして,文書トピックモデリングと文書シャッフル予測を導入する。本稿では,Longformer ネットワークアーキテクチャをバックボーンとして,複数ページの文書からのマルチモーダル情報をエンド・ツー・エンドで符号化する。
論文参考訳（メタデータ） (2020-09-30T05:39:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。