論文の概要: LoRaLay: A Multilingual and Multimodal Dataset for Long Range and
Layout-Aware Summarization
- arxiv url: http://arxiv.org/abs/2301.11312v1
- Date: Thu, 26 Jan 2023 18:50:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-27 12:50:34.672253
- Title: LoRaLay: A Multilingual and Multimodal Dataset for Long Range and
Layout-Aware Summarization
- Title(参考訳): LoRaLay:Long Range and Layout-Aware Summarizationのためのマルチ言語およびマルチモーダルデータセット
- Authors: Laura Nguyen, Thomas Scialom, Benjamin Piwowarski, Jacopo Staiano
- Abstract要約: テキスト要約は、自然言語処理コミュニティにとって人気のある課題であり、研究の活発な領域である。
すべての公開可能な要約データセットは、プレーンテキストコンテンツのみを提供する。
視覚/レイ情報を伴う長距離要約のためのデータセットのコレクションであるLoRaLayを提示する。
- 参考スコア(独自算出の注目度): 19.301567079372436
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text Summarization is a popular task and an active area of research for the
Natural Language Processing community. By definition, it requires to account
for long input texts, a characteristic which poses computational challenges for
neural models. Moreover, real-world documents come in a variety of complex,
visually-rich, layouts. This information is of great relevance, whether to
highlight salient content or to encode long-range interactions between textual
passages. Yet, all publicly available summarization datasets only provide plain
text content. To facilitate research on how to exploit visual/layout
information to better capture long-range dependencies in summarization models,
we present LoRaLay, a collection of datasets for long-range summarization with
accompanying visual/layout information. We extend existing and popular English
datasets (arXiv and PubMed) with layout information and propose four novel
datasets -- consistently built from scholar resources -- covering French,
Spanish, Portuguese, and Korean languages. Further, we propose new baselines
merging layout-aware and long-range models -- two orthogonal approaches -- and
obtain state-of-the-art results, showing the importance of combining both lines
of research.
- Abstract(参考訳): テキスト要約は自然言語処理コミュニティにとって人気のあるタスクであり、活発な研究領域である。
定義上は、ニューラルモデルに計算上の課題をもたらす特徴である長い入力テキストを考慮する必要がある。
さらに、現実世界のドキュメントには、複雑で視覚的にリッチなレイアウトがある。
この情報は、有能なコンテンツをハイライトするか、テキストパス間の長距離インタラクションをエンコードするか、非常に関連性が高い。
しかし、すべての公開可能な要約データセットは、プレーンテキストコンテンツのみを提供する。
視覚的/レイアウト情報を利用して、要約モデルの長距離依存性をよりよく把握する方法を研究するために、視覚的/レイアウト情報を伴う長距離要約のためのデータセットコレクションであるLoRaLayを提案する。
我々は既存の英語データセット(arxivとpubmed)をレイアウト情報と共に拡張し、フランス語、スペイン語、ポルトガル語、韓国語をカバーする4つの新しいデータセットを提案する。
さらに,2つの直交アプローチであるレイアウト認識モデルと長距離モデルを組み合わせた新しいベースラインを提案する。
関連論文リスト
- ViLCo-Bench: VIdeo Language COntinual learning Benchmark [8.660555226687098]
ビデオテキストタスクの連続学習モデルを評価するために設計されたViLCo-Benchを提案する。
データセットは10分間のビデオと、公開されているデータセットから収集された対応する言語クエリで構成されている。
本稿では,自己教師付き学習を取り入れ,長期記憶効果と短期記憶効果を模倣する新しい記憶効率フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-19T00:38:19Z) - COSMO: COntrastive Streamlined MultimOdal Model with Interleaved
Pre-Training [119.03392147066093]
近年の自己回帰視覚言語モデルは, テキスト生成タスクでは優れているが, アライメントタスクでは課題に直面している。
テキスト生成モデルに対照的な損失を導入し,言語モデルを専用テキスト処理と適応型マルチモーダルデータ処理コンポーネントに分割する。
このギャップを埋めるために、この研究は、包括的なキャプションを備えた最初のインターリーブ付きビデオテキストデータセットであるVideoDatasetNameを導入した。
論文 参考訳(メタデータ) (2024-01-01T18:58:42Z) - MMSum: A Dataset for Multimodal Summarization and Thumbnail Generation
of Videos [106.06278332186106]
マルチモーダル・アウトプット(MSMO)を用いたマルチモーダル・サマリゼーションが有望な研究方向として浮上している。
既存のパブリックMSMOデータセットには多くの制限がある。
textbfMMSumデータセットを精巧にキュレートした。
論文 参考訳(メタデータ) (2023-06-07T07:43:11Z) - $\mu$PLAN: Summarizing using a Content Plan as Cross-Lingual Bridge [72.64847925450368]
言語間の要約は、異なる言語で入力文書が与えられた1つの言語で要約を生成することで構成される。
この研究は、中間計画段階を言語横断橋として利用する言語横断要約へのアプローチである$mu$PLANを提示する。
論文 参考訳(メタデータ) (2023-05-23T16:25:21Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z) - SCROLLS: Standardized CompaRison Over Long Language Sequences [62.574959194373264]
SCROLLSは長いテキストに対する推論を必要とするタスクのスイートである。
SCROLLSには要約、質問応答、自然言語推論タスクが含まれる。
すべてのデータセットを統一されたテキスト・ツー・テキスト形式で利用可能にし、モデルアーキテクチャと事前学習方法の研究を容易にするために、ライブのリーダーボードをホストします。
論文 参考訳(メタデータ) (2022-01-10T18:47:15Z) - Summ^N: A Multi-Stage Summarization Framework for Long Input Dialogues
and Documents [13.755637074366813]
SummNは、典型的な事前訓練されたLMの最大文脈長よりも長いテキストを入力するための、シンプルで柔軟で効果的な多段階フレームワークである。
LMコンテキストサイズを固定したままステージ数を調整することで任意の長さの入力テキストを処理できる。
実験の結果,SummNは従来の最先端手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-10-16T06:19:54Z) - See, Hear, Read: Leveraging Multimodality with Guided Attention for
Abstractive Text Summarization [14.881597737762316]
我々は,NDSS,ICML,NeurIPSなどの著名な学術カンファレンスのプレゼンテーションから収集した,様々な期間のビデオを用いた抽象テキスト要約のための最初の大規模データセットを紹介する。
次に,多モード変換器をベースとしたデコーダのみの言語モデルであるnameを提案し,テキスト要約タスクの様々な入力モードにおけるモーダル内およびモーダル間ダイナミクスを本質的にキャプチャする。
論文 参考訳(メタデータ) (2021-05-20T08:56:33Z) - BookSum: A Collection of Datasets for Long-form Narrative Summarization [42.26628743419607]
booksumは長文要約のためのデータセットのコレクションである。
我々のデータセットは、小説、戯曲、物語などの文学分野の資料をカバーしています。
論文 参考訳(メタデータ) (2021-05-18T00:22:46Z) - A Multi-Perspective Architecture for Semantic Code Search [58.73778219645548]
テキストマッチングのための新しい多言語間ニューラルネットワークを提案する。
CoNaLaデータセットを用いた実験により,提案したモデルでは,従来の手法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2020-05-06T04:46:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。