論文の概要: Unsupervised Document and Template Clustering using Multimodal Embeddings
- arxiv url: http://arxiv.org/abs/2506.12116v1
- Date: Fri, 13 Jun 2025 14:07:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:45.206123
- Title: Unsupervised Document and Template Clustering using Multimodal Embeddings
- Title(参考訳): マルチモーダル埋め込みを用いた教師なし文書とテンプレートクラスタリング
- Authors: Phillipe R. Sampaio, Helene Maxcici,
- Abstract要約: 本稿では,マルチモーダル埋め込みを入力として活用し,教師なし文書クラスタリングへの新たなアプローチについて検討する。
本手法は,文書を型レベルでグループ化し,異なるテンプレートを区別することで,より詳細な文書理解を実現することを目的としている。
提案手法の有効性を,いくつかの最先端事前学習型マルチモーダルモデルによって生成された埋め込みを用いて評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates a novel approach to unsupervised document clustering by leveraging multimodal embeddings as input to traditional clustering algorithms such as $k$-Means and DBSCAN. Our method aims to achieve a finer-grained document understanding by not only grouping documents at the type level (e.g., invoices, purchase orders), but also distinguishing between different templates within the same document category. This is achieved by using embeddings that capture textual content, layout information, and visual features of documents. We evaluated the effectiveness of this approach using embeddings generated by several state-of-the-art pretrained multimodal models, including SBERT, LayoutLMv1, LayoutLMv3, DiT, Donut, and ColPali. Our findings demonstrate the potential of multimodal embeddings to significantly enhance document clustering, offering benefits for various applications in intelligent document processing, document layout analysis, and unsupervised document classification. This work provides valuable insight into the advantages and limitations of different multimodal models for this task and opens new avenues for future research to understand and organize document collections.
- Abstract(参考訳): 本稿では、$k$-MeansやDBSCANといった従来のクラスタリングアルゴリズムへの入力としてマルチモーダル埋め込みを活用することにより、教師なし文書クラスタリングの新しいアプローチについて検討する。
本手法は,タイプレベル(例えば,請求書,購入注文)で文書をグループ化するだけでなく,同一の文書カテゴリ内で異なるテンプレートを区別することで,より詳細な文書理解を実現することを目的とする。
これは、テキストコンテンツ、レイアウト情報、ドキュメントの視覚的特徴をキャプチャする埋め込みを使用することで実現される。
SBERT, LayoutLMv1, LayoutLMv3, DiT, Donut, ColPaliなど,最先端の事前訓練型マルチモーダルモデルによって生成された埋め込みを用いて, 本手法の有効性を評価した。
本研究は,文書クラスタリングを大幅に向上させるマルチモーダル埋め込みの可能性を示し,文書処理,文書レイアウト解析,および教師なし文書分類における各種アプリケーションにメリットを提供する。
この研究は、このタスクに対する様々なマルチモーダルモデルの利点と限界についての貴重な洞察を与え、文書コレクションの理解と整理のための新たな道を開く。
関連論文リスト
- DocDjinn: Controllable Synthetic Document Generation with VLMs and Handwriting Diffusion [5.342168661302001]
視覚言語モデル(VLM)を用いた制御可能な合成文書生成のための新しいフレームワークを提案する。
提案手法は,既存のソースデータセットの分布に従う視覚的かつ意味論的に一貫した合成文書を生成する。
我々のフレームワークは、実世界のデータセット全体のパフォーマンスに対して平均87%の価格で達成されていることを示す。
論文 参考訳(メタデータ) (2026-02-25T11:52:13Z) - Do not be greedy, Think Twice: Sampling and Selection for Document-level Information Extraction [19.989502176674183]
文書レベルの情報抽出(DocIE)は、所定の文書で発生する利害関係の実体と関係を持つ出力テンプレートを作成することを目的としている。
標準のプラクティスには、出力のばらつきを避けるためにgreedyデコードを使用してデコーダのみのLLMをプロンプトすることが含まれる。
サンプリングは,特に推論モデルを用いた場合,グリーディ復号法よりもはるかに優れた解が得られることを示す。
論文 参考訳(メタデータ) (2026-01-26T11:53:08Z) - DAVE: A VLM Vision Encoder for Document Understanding and Web Agents [50.05119785399764]
視覚言語モデル(VLM)のための視覚エンコーダDAVEを紹介する。
私たちのトレーニングパイプラインは、ドキュメントやWebイメージの大規模なアノテーションの必要性を回避するために、豊富なラベルのないデータを活用するように設計されています。
我々は、アンサンブルトレーニングを使用して、事前訓練されたジェネリストエンコーダの機能を、独自のドキュメントとWeb固有の表現で融合する。
論文 参考訳(メタデータ) (2025-12-19T04:09:24Z) - DOCR-Inspector: Fine-Grained and Automated Evaluation of Document Parsing with VLM [35.910677096654574]
文書解析は、構造化されていないPDF画像を半構造化データに変換することを目的としており、多様な領域における情報のデジタル化と活用を容易にする。
一般的なプラクティスは、しばしば標準ベンチマークで最高のパフォーマンスモデルを選択する。
本稿では,文書解析評価をきめ細かな誤り検出と解析として形式化するDOCR-Inspectorを紹介する。
論文 参考訳(メタデータ) (2025-12-11T13:16:33Z) - MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns [80.05126590825121]
MonkeyOCR v1.5は、レイアウト理解とコンテンツ認識の両方を強化する統合ビジョン言語フレームワークである。
複雑なテーブル構造に対処するために,視覚的整合性に基づく強化学習手法を提案する。
2つの特別なモジュール、Image-Decoupled Table ParsingとType-Guided Table Mergingを導入し、テーブルの信頼性の高いパースを可能にする。
論文 参考訳(メタデータ) (2025-11-13T15:12:17Z) - Hybrid Topic-Semantic Labeling and Graph Embeddings for Unsupervised Legal Document Clustering [1.6267479602370543]
本稿では,教師なしトピックとグラフ埋め込みを教師付きモデルと組み合わせることで,法的テキストを分類するためのハイブリッドアプローチを提案する。
我々はTop2Vecを使ってセマンティックドキュメントの埋め込みを学習し、潜在トピックを自動的に発見し、Node2Vecは法的文書の2部グラフを通して構造的関係をキャプチャします。
法的な文書データセット上での計算により、Top2Vec+Node2Vecの組み合わせは、テキストのみまたはグラフのみの埋め込みよりもクラスタリング品質を向上させることを示した。
論文 参考訳(メタデータ) (2025-08-31T20:53:59Z) - Docopilot: Improving Multimodal Models for Document-Level Understanding [87.60020625241178]
マルチモーダル文書の詳細な理解を支援するために,高品質な文書レベルデータセットDoc-750Kを提案する。
このデータセットには、さまざまなドキュメント構造、広範なクロスページ依存関係、および元のドキュメントから派生した実際の質問と回答のペアが含まれている。
データセットに基づいて、RAGに頼ることなく、文書レベルの依存関係を正確に処理できるネイティブなマルチモーダルモデルであるDocopilotを開発する。
論文 参考訳(メタデータ) (2025-07-19T16:03:34Z) - Benchmarking Unified Face Attack Detection via Hierarchical Prompt Tuning [58.16354555208417]
PADとFFDはそれぞれ物理メディアベースのプレゼンテーションアタックとデジタル編集ベースのDeepFakeから顔データを保護するために提案されている。
これら2つのカテゴリの攻撃を同時に処理する統一顔攻撃検出モデルがないことは、主に2つの要因に起因する。
本稿では,異なる意味空間から複数の分類基準を適応的に探索する,視覚言語モデルに基づく階層型プロンプトチューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-19T16:35:45Z) - Relation-Rich Visual Document Generator for Visual Information Extraction [12.4941229258054]
本稿では2段階のアプローチでこれらの制限に対処するリレーショナルrIchビジュアルドキュメンテーション・ジェネレータ(RIDGE)を提案する。
提案手法は,様々なVIEベンチマークにおける文書理解モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2025-04-14T19:19:26Z) - Learning Refined Document Representations for Dense Retrieval via Deliberate Thinking [58.69615583599489]
Deliberate Thinking based Retriever (Debater) は、段階的な思考プロセスを導入することで文書表現を強化する新しいアプローチである。
Debaterは、いくつかのベンチマークで既存のメソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2025-02-18T15:56:34Z) - MMDocIR: Benchmarking Multi-Modal Retrieval for Long Documents [26.39534684408116]
この研究は、ページレベルとレイアウトレベルの検索という2つの異なるタスクを含むMMDocIRという新しいベンチマークを導入する。
MMDocIRベンチマークは、専門家によって注釈付けされた1,685の質問と、ブートストラップ付きラベル付き173,843の質問を含む、豊富なデータセットで構成されている。
論文 参考訳(メタデータ) (2025-01-15T14:30:13Z) - Unified Multimodal Interleaved Document Representation for Retrieval [57.65409208879344]
複数のモダリティでインターリーブされた文書を階層的に埋め込む手法を提案する。
セグメント化されたパスの表現を1つのドキュメント表現にマージする。
我々は,本手法が関連するベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-10-03T17:49:09Z) - Leveraging Collection-Wide Similarities for Unsupervised Document Structure Extraction [61.998789448260005]
本稿では,コレクション内の文書の典型的構造を特定することを提案する。
任意のヘッダのパラフレーズを抽象化し、各トピックを各ドキュメントのロケーションにグルーピングします。
文書間の類似性を利用した教師なしグラフベース手法を開発した。
論文 参考訳(メタデータ) (2024-02-21T16:22:21Z) - Uncovering Prototypical Knowledge for Weakly Open-Vocabulary Semantic
Segmentation [59.37587762543934]
本稿では,弱開語彙セマンティックセマンティックセグメンテーション(WOVSS)の問題点について検討する。
既存の方法は、グループトークンの使用に関する粒度の矛盾に悩まされる。
マルチモーダル正規化を組み込んだプロトタイプ誘導ネットワーク(PGSeg)を提案する。
論文 参考訳(メタデータ) (2023-10-29T13:18:00Z) - Reading Order Matters: Information Extraction from Visually-rich
Documents by Token Path Prediction [30.827288164068992]
トークンパス予測(TPP)は、ドキュメント内のトークンシーケンスとしてエンティティの参照を予測する単純な予測ヘッドである。
TPPは、ドキュメントレイアウトをトークンの完全な有向グラフとしてモデル化し、グラフ内のトークンパスをエンティティとして予測する。
また, VrD-NERシステムの性能評価のために, スキャンした文書に対して, NERのベンチマークデータセットを2つ改訂した。
論文 参考訳(メタデータ) (2023-10-17T06:08:55Z) - DocumentNet: Bridging the Data Gap in Document Pre-Training [78.01647768018485]
本稿では,Webから大規模かつ弱いラベル付きデータを収集し,VDERモデルの学習に役立てる手法を提案する。
収集されたデータセットはDocumentNetと呼ばれ、特定のドキュメントタイプやエンティティセットに依存しない。
広く採用されているVDERタスクの実験は、DocumentNetを事前トレーニングに組み込んだ場合、大幅に改善されている。
論文 参考訳(メタデータ) (2023-06-15T08:21:15Z) - Mining both Commonality and Specificity from Multiple Documents for
Multi-Document Summarization [1.4629756274247374]
多文書要約タスクでは、設計した要約者が、原文書の重要な情報をカバーする短いテキストを生成する必要がある。
本稿では,文書の階層的クラスタリングに基づくマルチドキュメント要約手法を提案する。
論文 参考訳(メタデータ) (2023-03-05T14:25:05Z) - Large-Scale Multi-Document Summarization with Information Extraction and
Compression [31.601707033466766]
複数の異種文書のラベル付きデータとは無関係に抽象的な要約フレームワークを開発する。
我々のフレームワークは、同じトピックのドキュメントではなく、異なるストーリーを伝えるドキュメントを処理する。
我々の実験は、このより汎用的な設定において、我々のフレームワークが現在の最先端メソッドより優れていることを示した。
論文 参考訳(メタデータ) (2022-05-01T19:49:15Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - Multi-View Document Representation Learning for Open-Domain Dense
Retrieval [87.11836738011007]
本稿では,多視点文書表現学習フレームワークを提案する。
ドキュメントを表現し、異なるクエリに合わせるように強制するために、マルチビューの埋め込みを作成することを目的としている。
実験により,本手法は最近の成果より優れ,最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-03-16T03:36:38Z) - Multilevel Text Alignment with Cross-Document Attention [59.76351805607481]
既存のアライメントメソッドは、1つの事前定義されたレベルで動作します。
本稿では,文書を文書間注目要素で表現するための階層的アテンションエンコーダを予め確立した新しい学習手法を提案する。
論文 参考訳(メタデータ) (2020-10-03T02:52:28Z) - Towards a Multi-modal, Multi-task Learning based Pre-training Framework
for Document Representation Learning [5.109216329453963]
本稿では,新しい事前学習タスクとして,文書トピックモデリングと文書シャッフル予測を導入する。
本稿では,Longformer ネットワークアーキテクチャをバックボーンとして,複数ページの文書からのマルチモーダル情報をエンド・ツー・エンドで符号化する。
論文 参考訳(メタデータ) (2020-09-30T05:39:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。