論文の概要: Are Layout-Infused Language Models Robust to Layout Distribution Shifts?
A Case Study with Scientific Documents
- arxiv url: http://arxiv.org/abs/2306.01058v1
- Date: Thu, 1 Jun 2023 18:01:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 18:20:56.741663
- Title: Are Layout-Infused Language Models Robust to Layout Distribution Shifts?
A Case Study with Scientific Documents
- Title(参考訳): Layout-Infused Language ModelsはLayout Distribution Shiftsにロバストか?
科学文書を用いた事例研究
- Authors: Catherine Chen, Zejiang Shen, Dan Klein, Gabriel Stanovsky, Doug
Downey and Kyle Lo
- Abstract要約: 近年の研究では、レイアウト機能を言語モデル(LM)に注入することで、科学論文などの視覚に富んだ文書の処理が改善されている。
レイアウトを注入したLMがレイアウト分布シフトに対して堅牢であるかどうかを検証する。
- 参考スコア(独自算出の注目度): 54.744701806413204
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent work has shown that infusing layout features into language models
(LMs) improves processing of visually-rich documents such as scientific papers.
Layout-infused LMs are often evaluated on documents with familiar layout
features (e.g., papers from the same publisher), but in practice models
encounter documents with unfamiliar distributions of layout features, such as
new combinations of text sizes and styles, or new spatial configurations of
textual elements. In this work we test whether layout-infused LMs are robust to
layout distribution shifts. As a case study we use the task of scientific
document structure recovery, segmenting a scientific paper into its structural
categories (e.g., "title", "caption", "reference"). To emulate distribution
shifts that occur in practice we re-partition the GROTOAP2 dataset. We find
that under layout distribution shifts model performance degrades by up to 20
F1. Simple training strategies, such as increasing training diversity, can
reduce this degradation by over 35% relative F1; however, models fail to reach
in-distribution performance in any tested out-of-distribution conditions. This
work highlights the need to consider layout distribution shifts during model
evaluation, and presents a methodology for conducting such evaluations.
- Abstract(参考訳): 近年の研究では、レイアウト機能を言語モデル(LM)に注入することで、科学論文などの視覚に富んだ文書の処理が改善されている。
レイアウトを融合したlmmは、慣れ親しんだレイアウト機能を持つ文書(例えば、同じ出版社の論文)で評価されることが多いが、実際には、テキストサイズやスタイルの新しい組み合わせ、テキスト要素の新しい空間構成など、レイアウト特徴の見慣れない分布を持つ文書に遭遇する。
本研究は,レイアウト注入型LMがレイアウト分布シフトに対して堅牢であるかどうかを検証する。
ケーススタディとして、科学論文をその構造カテゴリ(例えば、「タイトル」、「捕獲」、「参照」など)に分割し、科学的文書構造回復のタスクを用いる。
実際に発生する分散シフトをエミュレートするために、GROTOAP2データセットを再分割する。
レイアウト分布下では,モデル性能が最大20 f1に低下することがわかった。
トレーニング多様性の増大のような単純なトレーニング戦略は、この劣化を35%以上の相対f1で減少させることができるが、実験済みのアウトオブディストリビューション条件では、モデルが分散性能に達しない。
本研究は,モデル評価中にレイアウト分布のシフトを考慮する必要性を浮き彫りにして,その評価を行う方法論を提案する。
関連論文リスト
- Towards Aligned Layout Generation via Diffusion Model with Aesthetic Constraints [53.66698106829144]
広い範囲のレイアウト生成タスクを処理する統一モデルを提案する。
このモデルは連続拡散モデルに基づいている。
実験結果から,LACEは高品質なレイアウトを生成することがわかった。
論文 参考訳(メタデータ) (2024-02-07T11:12:41Z) - Enhancing Visually-Rich Document Understanding via Layout Structure
Modeling [91.07963806829237]
レイアウトの知識をモデルに注入する新しい文書理解モデルであるGraphLMを提案する。
我々は、FUNSD、XFUND、CORDなど様々なベンチマークでモデルを評価し、最先端の結果を得た。
論文 参考訳(メタデータ) (2023-08-15T13:53:52Z) - Predicting Software Performance with Divide-and-Learn [3.635696352780227]
本稿では,DALと呼ばれる「分枝学習」の概念に基づくアプローチを提案する。
実世界の8つのシステムと5つのトレーニングデータによる実験結果から、DaLは40件中33件で最高のシステムよりもパフォーマンスが劣っていることが判明した。
論文 参考訳(メタデータ) (2023-06-11T11:16:27Z) - GVdoc: Graph-based Visual Document Classification [17.350393956461783]
グラフに基づく文書分類モデルであるGVdocを提案する。
提案手法では,そのレイアウトに基づいて文書グラフを生成し,グラフニューラルネットワークを用いてノードとグラフの埋め込みを学習する。
パラメータが少なくても、我々のモデルは分布外データ上で最先端のモデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-05-26T19:23:20Z) - Unifying Layout Generation with a Decoupled Diffusion Model [26.659337441975143]
これは、出版物、文書、ユーザーインターフェース(UI)などのフォーマットされたシーンに対する重厚なグラフィックデザイン作業の負担を軽減するための重要なタスクである。
単一分離拡散モデルでそのような統一を実現するためのレイアウト拡散生成モデル(LDGM)を提案する。
提案するLDGMは,任意の属性に対してスクラッチあるいは条件付きでレイアウトを生成することができる。
論文 参考訳(メタデータ) (2023-03-09T05:53:32Z) - SciRepEval: A Multi-Format Benchmark for Scientific Document
Representations [52.01865318382197]
SciRepEvalは、科学文書表現のトレーニングと評価のための最初の総合的なベンチマークである。
SPECTERやSciNCLのような最先端のモデルが、タスクフォーマットをまたいだ一般化にどのように苦労しているかを示す。
ドキュメント毎に複数の埋め込みを学習する新しいアプローチは、それぞれ異なるフォーマットに合わせて、パフォーマンスを改善することができる。
論文 参考訳(メタデータ) (2022-11-23T21:25:39Z) - ERNIE-Layout: Layout Knowledge Enhanced Pre-training for Visually-rich
Document Understanding [52.3895498789521]
レイアウト知識を向上した新しい文書事前学習ソリューションであるERNIEを提案する。
まず、直列化段階で入力シーケンスを並べ替え、相関的な事前学習タスクを示し、順序予測を行い、文書の適切な読み順序を学習する。
実験の結果、ERNIEは様々な下流タスクにおいて優れた性能を示し、キー情報に新たな最先端設定、文書質問応答を実現している。
論文 参考訳(メタデータ) (2022-10-12T12:59:24Z) - Towards Making the Most of Context in Neural Machine Translation [112.9845226123306]
我々は、これまでの研究がグローバルな文脈をはっきりと利用しなかったと論じている。
本研究では,各文の局所的文脈を意図的にモデル化する文書レベルNMTフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T03:30:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。