論文の概要: Beyond Document Page Classification: Design, Datasets, and Challenges
- arxiv url: http://arxiv.org/abs/2308.12896v2
- Date: Tue, 29 Aug 2023 15:57:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-30 17:29:19.219018
- Title: Beyond Document Page Classification: Design, Datasets, and Challenges
- Title(参考訳): ドキュメントページ分類を超えて:設計、データセット、挑戦
- Authors: Jordy Van Landeghem, Sanket Biswas, Matthew B. Blaschko,
Marie-Francine Moens
- Abstract要約: 本稿では,文書分類ベンチマークを現実のアプリケーションに近づける必要性を強調した。
我々は、パブリックなマルチページ文書分類データセットの欠如を特定し、アプリケーションシナリオにおける異なる分類タスクを形式化し、効率的なマルチページ文書表現をターゲットとする価値を動機づける。
- 参考スコア(独自算出の注目度): 32.94494070330065
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper highlights the need to bring document classification benchmarking
closer to real-world applications, both in the nature of data tested ($X$:
multi-channel, multi-paged, multi-industry; $Y$: class distributions and label
set variety) and in classification tasks considered ($f$: multi-page document,
page stream, and document bundle classification, ...). We identify the lack of
public multi-page document classification datasets, formalize different
classification tasks arising in application scenarios, and motivate the value
of targeting efficient multi-page document representations. An experimental
study on proposed multi-page document classification datasets demonstrates that
current benchmarks have become irrelevant and need to be updated to evaluate
complete documents, as they naturally occur in practice. This reality check
also calls for more mature evaluation methodologies, covering calibration
evaluation, inference complexity (time-memory), and a range of realistic
distribution shifts (e.g., born-digital vs. scanning noise, shifting page
order). Our study ends on a hopeful note by recommending concrete avenues for
future improvements.}
- Abstract(参考訳): 本稿では、テスト対象データの性質(X$: マルチチャネル、マルチページ、マルチインダストリー、$Y$: クラス分布、ラベルセットの多様性)と、検討対象の分類タスク(f$: マルチページドキュメント、ページストリーム、ドキュメントバンドル分類、...)の両方において、実世界のアプリケーションに文書分類ベンチマークを近づけることの必要性を強調した。
我々は、公開マルチページ文書分類データセットの欠如を特定し、アプリケーションシナリオにおける異なる分類タスクを形式化し、効率的なマルチページ文書表現をターゲットとする価値を動機づける。
提案されているマルチページ文書分類データセットに関する実験的研究は、現在のベンチマークが無関係になり、完全に文書を評価するために更新する必要があることを実証している。
この現実チェックはまた、キャリブレーション評価、推論複雑性(時間メモリ)、および現実的な分散シフト(例えば、出生デジタル対走査ノイズ、ページ順のシフトなど)をカバーする、より成熟した評価手法も要求する。
私たちの研究は、将来の改善のためにコンクリート製アベニューを推奨することで、希望に満ちた注記で終わる。
}
関連論文リスト
- Unified Multi-Modal Interleaved Document Representation for Information Retrieval [57.65409208879344]
我々は、異なるモダリティでインターリーブされた文書を均等に埋め込み、より包括的でニュアンスのある文書表現を生成する。
具体的には、テキスト、画像、テーブルの処理と統合を統一されたフォーマットと表現に統合する、近年のビジョン言語モデルの能力を活用して、これを実現する。
論文 参考訳(メタデータ) (2024-10-03T17:49:09Z) - Generative Retrieval Meets Multi-Graded Relevance [104.75244721442756]
GRADed Generative Retrieval (GR$2$)というフレームワークを紹介します。
GR$2$は2つの重要なコンポーネントに焦点を当てている。
マルチグレードとバイナリの関連性を持つデータセットの実験は,GR$2$の有効性を示した。
論文 参考訳(メタデータ) (2024-09-27T02:55:53Z) - SEAM: A Stochastic Benchmark for Multi-Document Tasks [30.153949809172605]
現在、マルチドキュメントタスクにおける大規模言語モデル(LLM)の能力を測定するベンチマークは存在しない。
マルチドキュメントタスクの評価手法であるSEAM(SEAM: Evaluation Approach for Multi-document task)を提案する。
マルチドキュメントタスクは,70Bパラメータを持つ最先端モデルであっても,LLMにとって大きな課題となる。
論文 参考訳(メタデータ) (2024-06-23T11:57:53Z) - Knowledge-Centric Templatic Views of Documents [2.654058995940072]
著者はしばしば、スライドデッキ、ニュースレター、レポート、ポスターなど、様々な文書形式でアイデアを共有している。
文書生成装置の品質測定に適応できる新しい統一評価フレームワークを提案する。
人間の評価を行い,提案手法を用いて作成した文書の82%を利用者が好んでいることを示す。
論文 参考訳(メタデータ) (2024-01-13T01:22:15Z) - Context-Aware Classification of Legal Document Pages [7.306025535482021]
入力長の制約を克服する,単純だが効果的な手法を提案する。
具体的には、前のページのシーケンシャルな情報を含む余分なトークンで入力を強化する。
英語とポルトガル語の2つの法的データセットを用いて実験を行った結果,提案手法は文書ページ分類の性能を著しく向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-04-05T23:14:58Z) - SciRepEval: A Multi-Format Benchmark for Scientific Document
Representations [52.01865318382197]
SciRepEvalは、科学文書表現のトレーニングと評価のための最初の総合的なベンチマークである。
SPECTERやSciNCLのような最先端のモデルが、タスクフォーマットをまたいだ一般化にどのように苦労しているかを示す。
ドキュメント毎に複数の埋め込みを学習する新しいアプローチは、それぞれ異なるフォーマットに合わせて、パフォーマンスを改善することができる。
論文 参考訳(メタデータ) (2022-11-23T21:25:39Z) - Learning Diverse Document Representations with Deep Query Interactions
for Dense Retrieval [79.37614949970013]
そこで本研究では,問合せの深い文書表現を学習する高密度検索モデルを提案する。
本モデルでは,各文書に生成した擬似クエリをエンコードして,クエリインフォームド・マルチビュー文書表現を得る。
論文 参考訳(メタデータ) (2022-08-08T16:00:55Z) - Efficient Classification of Long Documents Using Transformers [13.927622630633344]
様々なベースラインと多様なデータセットに対して測定された相対的有効性を評価する。
結果として、より複雑なモデルは、単純なベースラインを上回り、データセット間で一貫性のないパフォーマンスを得ることができないことがしばしば示される。
論文 参考訳(メタデータ) (2022-03-21T18:36:18Z) - Out-of-Category Document Identification Using Target-Category Names as
Weak Supervision [64.671654559798]
Out-of-category Detection は、文書が不適格(またはターゲット)カテゴリと意味的関連性に応じて区別することを目的としている。
対象のカテゴリの1つに属する文書の信頼性を効果的に測定する,カテゴリ外検出フレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-24T21:01:25Z) - LeQua@CLEF2022: Learning to Quantify [76.22817970624875]
LeQua 2022は、テキストデータセットで'を定量化する方法を評価するための新しい実験室である。
本研究の目的は、バイナリ設定とシングルラベルのマルチクラス設定の両方において、学習方法の比較評価のための設定を提供することである。
論文 参考訳(メタデータ) (2021-11-22T14:54:20Z) - Modeling Endorsement for Multi-Document Abstractive Summarization [10.166639983949887]
単一文書の要約と多文書の要約の重大な違いは、文書の中で健全なコンテンツがどのように現れるかである。
本稿では,複数文書要約における文書間補完効果とその活用をモデル化する。
提案手法は各文書から合成を生成し,他の文書から有意な内容を識別する支援者として機能する。
論文 参考訳(メタデータ) (2021-10-15T03:55:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。