論文の概要: Sequence-aware multimodal page classification of Brazilian legal
documents
- arxiv url: http://arxiv.org/abs/2207.00748v1
- Date: Sat, 2 Jul 2022 06:23:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-09 10:31:09.569204
- Title: Sequence-aware multimodal page classification of Brazilian legal
documents
- Title(参考訳): ブラジル法文書のシーケンシャルアウェアマルチモーダルページ分類
- Authors: Pedro H. Luz de Araujo, Ana Paula G. S. de Almeida, Fabricio A. Braz,
Nilton C. da Silva, Flavio de Barros Vidal, Teofilo E. de Campos
- Abstract要約: 我々は,新たな6,510件の訴訟のマルチモーダルデータセットをトレーニングし,評価する。
各訴訟は順序付けられたページのシーケンスであり、画像と対応するテキストの両方として格納される。
我々はこれらを視覚的特徴とテキスト的特徴の抽出器として使用し、提案したFusion Moduleを通して組み合わせる。
- 参考スコア(独自算出の注目度): 0.21204495827342434
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Brazilian Supreme Court receives tens of thousands of cases each
semester. Court employees spend thousands of hours to execute the initial
analysis and classification of those cases -- which takes effort away from
posterior, more complex stages of the case management workflow. In this paper,
we explore multimodal classification of documents from Brazil's Supreme Court.
We train and evaluate our methods on a novel multimodal dataset of 6,510
lawsuits (339,478 pages) with manual annotation assigning each page to one of
six classes. Each lawsuit is an ordered sequence of pages, which are stored
both as an image and as a corresponding text extracted through optical
character recognition. We first train two unimodal classifiers: a ResNet
pre-trained on ImageNet is fine-tuned on the images, and a convolutional
network with filters of multiple kernel sizes is trained from scratch on
document texts. We use them as extractors of visual and textual features, which
are then combined through our proposed Fusion Module. Our Fusion Module can
handle missing textual or visual input by using learned embeddings for missing
data. Moreover, we experiment with bi-directional Long Short-Term Memory
(biLSTM) networks and linear-chain conditional random fields to model the
sequential nature of the pages. The multimodal approaches outperform both
textual and visual classifiers, especially when leveraging the sequential
nature of the pages.
- Abstract(参考訳): ブラジル最高裁判所は毎年数万件の事件を審理している。
裁判所職員は、ケース管理ワークフローのより後方の、より複雑な段階から、これらのケースの初期分析と分類を実行するのに数千時間を費やします。
本稿では,ブラジル最高裁判所の文書のマルチモーダル分類について検討する。
6つのクラスの1つに各ページを手動アノテーションで割り当てて、6,510件の訴訟(339,478ページ)からなる新しいマルチモーダルデータセットをトレーニングし,評価した。
各訴訟は順序付けられたページのシーケンスであり、画像として、および光学文字認識によって抽出された対応するテキストとして格納される。
imagenetで事前トレーニングされたresnetをイメージに微調整し、複数のカーネルサイズのフィルタを備えた畳み込みネットワークを文書テキスト上でスクラッチからトレーニングする。
視覚的特徴とテキスト的特徴の抽出器として使用し,提案するフュージョンモジュールを組み合わせる。
私たちのFusion Moduleは、学習した埋め込みを使って、欠落したテキストや視覚的な入力を処理できます。
さらに,2方向長短期記憶(biLSTM)ネットワークと線形鎖条件付きランダムフィールドを用いて,ページの逐次特性をモデル化する実験を行った。
マルチモーダルアプローチは、特にページのシーケンシャルな性質を活用する場合に、テキストとビジュアルの両方の分類器を上回る。
関連論文リスト
- Leopard: A Vision Language Model For Text-Rich Multi-Image Tasks [62.758680527838436]
Leopardは、複数のテキストリッチイメージを含む視覚言語タスクを扱うビジョン言語モデルである。
まず、テキストリッチでマルチイメージのシナリオに合わせて、約100万の高品質なマルチモーダル命令チューニングデータをキュレートした。
第2に,視覚列長の割り当てを動的に最適化する適応型高解像度マルチイメージ符号化モジュールを開発した。
論文 参考訳(メタデータ) (2024-10-02T16:55:01Z) - Hierarchical Multi-modal Transformer for Cross-modal Long Document Classification [74.45521856327001]
階層構造テキストと埋め込み画像で長い文書を分類する方法は、新しい問題である。
本稿では,階層型マルチモーダル変換器 (HMT) を用いたクロスモーダルな文書分類手法を提案する。
本稿では,マルチモーダル変換器と動的マルチスケールマルチモーダル変換器を用いて,画像特徴とセクションと文特徴の複雑な関係をモデル化する。
論文 参考訳(メタデータ) (2024-07-14T07:12:25Z) - Multi-modal Generation via Cross-Modal In-Context Learning [50.45304937804883]
複雑なマルチモーダルプロンプトシーケンスから新しい画像を生成するMGCC法を提案する。
我々のMGCCは、新しい画像生成、マルチモーダル対話の促進、テキスト生成など、多種多様なマルチモーダル機能を示している。
論文 参考訳(メタデータ) (2024-05-28T15:58:31Z) - MMTryon: Multi-Modal Multi-Reference Control for High-Quality Fashion Generation [70.83668869857665]
MMTryonはマルチモーダルなマルチ参照VIrtual Try-ONフレームワークである。
テキスト命令と複数の衣料品画像を入力として、高品質な合成試行結果を生成することができる。
論文 参考訳(メタデータ) (2024-05-01T11:04:22Z) - MM-Interleaved: Interleaved Image-Text Generative Modeling via Multi-modal Feature Synchronizer [106.79844459065828]
本稿では,画像テキストデータのエンドツーエンド生成モデルであるMM-Interleavedを提案する。
マルチスケールおよびマルチイメージ機能同期モジュールを導入し、以前のコンテキストできめ細かい画像機能に直接アクセスできるようにする。
MM-Interleavedはマルチモーダルな指示に従って視覚的詳細を認識し、テキストと視覚の両方の条件に従って一貫した画像を生成する。
論文 参考訳(メタデータ) (2024-01-18T18:50:16Z) - Emu: Generative Pretraining in Multimodality [43.759593451544546]
トランスフォーマーベースのマルチモーダル基礎モデルは、マルチモーダルコンテキストで画像やテキストをシームレスに生成することができる。
Emuは、画像からテキストまでのタスクとテキストから画像へのタスクの両方のための汎用マルチモーダルインターフェースとして機能する。
Emuは最先端の大規模マルチモーダルモデルと比較して非常に高い性能を示す。
論文 参考訳(メタデータ) (2023-07-11T12:45:39Z) - SelfDoc: Self-Supervised Document Representation Learning [46.22910270334824]
SelfDocは、文書イメージ理解のためのタスクに依存しない事前トレーニングフレームワークである。
本フレームワークは,文書中の意味的に意味のあるすべてのコンポーネントの位置情報,テキスト情報,視覚情報を利用する。
複数のダウンストリームタスクにおいて,事前学習段階で使用する文書イメージが従来よりも大幅に少なく,優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-06-07T04:19:49Z) - Towards Open-World Text-Guided Face Image Generation and Manipulation [52.83401421019309]
顔画像生成と操作の両方に統一的なフレームワークを提案する。
本手法は,画像とテキストの両方を含むオープンワールドシナリオをサポートし,再トレーニングや微調整,後処理は行わない。
論文 参考訳(メタデータ) (2021-04-18T16:56:07Z) - Towards a Multi-modal, Multi-task Learning based Pre-training Framework
for Document Representation Learning [5.109216329453963]
本稿では,新しい事前学習タスクとして,文書トピックモデリングと文書シャッフル予測を導入する。
本稿では,Longformer ネットワークアーキテクチャをバックボーンとして,複数ページの文書からのマルチモーダル情報をエンド・ツー・エンドで符号化する。
論文 参考訳(メタデータ) (2020-09-30T05:39:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。