論文の概要: Slide, Constrain, Parse, Repeat: Synchronous SlidingWindows for Document
AMR Parsing
- arxiv url: http://arxiv.org/abs/2305.17273v1
- Date: Fri, 26 May 2023 21:38:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 20:40:46.254353
- Title: Slide, Constrain, Parse, Repeat: Synchronous SlidingWindows for Document
AMR Parsing
- Title(参考訳): Slide, Constrain, Parse, Repeat: ドキュメントAMR解析のための同期スライディングWindows
- Authors: Sadhana Kumaravel, Tahira Naseem, Ramon Fernandez Astudillo, Radu
Florian, Salim Roukos
- Abstract要約: 本研究では,Structured-BARTの拡張により,文書レベルのAMRのオラクルと解析を開発する。
我々の遷移オラクルは、スライド窓を用いても、金のクロスセグメントリンクのわずか8%しか失われていないことを示す。
提案システムは,Multi-Sentence AMR 3.0コーパス上での文書レベルのAMR解析タスクに対して,最先端パイプライン方式と同等に動作する。
- 参考スコア(独自算出の注目度): 22.73441509190781
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The sliding window approach provides an elegant way to handle contexts of
sizes larger than the Transformer's input window, for tasks like language
modeling. Here we extend this approach to the sequence-to-sequence task of
document parsing. For this, we exploit recent progress in transition-based
parsing to implement a parser with synchronous sliding windows over source and
target. We develop an oracle and a parser for document-level AMR by expanding
on Structured-BART such that it leverages source-target alignments and
constrains decoding to guarantee synchronicity and consistency across
overlapping windows. We evaluate our oracle and parser using the Abstract
Meaning Representation (AMR) parsing 3.0 corpus. On the Multi-Sentence
development set of AMR 3.0, we show that our transition oracle loses only 8\%
of the gold cross-sentential links despite using a sliding window. In practice,
this approach also results in a high-quality document-level parser with
manageable memory requirements. Our proposed system performs on par with the
state-of-the-art pipeline approach for document-level AMR parsing task on
Multi-Sentence AMR 3.0 corpus while maintaining sentence-level parsing
performance.
- Abstract(参考訳): スライディングウィンドウアプローチは、言語モデリングのようなタスクのためにトランスフォーマーの入力ウィンドウよりも大きなサイズのコンテキストを扱うエレガントな方法を提供する。
ここでは,このアプローチを文書解析のシーケンシャル・ツー・シーケンスタスクに拡張する。
そこで本研究では,遷移解析の最近の進歩を利用して,ソースとターゲット上の同期スライディングウィンドウを備えたパーサを実装した。
我々は、ソースターゲットのアライメントと制約デコーディングを活用し、重なり合うウィンドウ間の同期性と一貫性を保証するため、Structured-BARTを拡張して文書レベルのAMRのためのオラクルとパーサを開発する。
抽象的意味表現(AMR)解析3.0コーパスを用いたオラクルとパーサの評価を行った。
AMR 3.0の多文開発セットでは,スライドウィンドウを使用しながら,我々の遷移オラクルは金のクロスセグメントリンクの8倍しか失われていないことがわかった。
実際にこのアプローチは、管理可能なメモリ要件を備えた高品質なドキュメントレベルのパーサも実現します。
提案システムは,文レベルの解析性能を維持しつつ,多文AMR 3.0コーパス上での文書レベルのAMR解析タスクに対して,最先端のパイプライン手法と同等に動作する。
関連論文リスト
- Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - CREPE: Coordinate-Aware End-to-End Document Parser [13.530212337717515]
視覚文書理解のためのOCRフリーシーケンス生成モデル(VDU)を定式化する。
本モデルは,文書画像からテキストを解析するだけでなく,マルチヘッドアーキテクチャに基づくテキストの空間座標も抽出する。
コーディネート・アウェア・エンド・ツー・エンドドキュメンテーション(Coordinate-aware End-to-end Document)と呼ばれる。
CREPEでは,OCRテキスト用の特別なトークンを導入することで,これらの機能を独自に統合する。
論文 参考訳(メタデータ) (2024-05-01T00:30:13Z) - OmniParser: A Unified Framework for Text Spotting, Key Information Extraction and Table Recognition [79.852642726105]
多様なシナリオにまたがって視覚的なテキストを解析するための統一パラダイムを提案する。
具体的には,3つの視覚的なテキスト解析タスクを同時に処理できるOmniというユニバーサルモデルを提案する。
オムニでは、全てのタスクが統一エンコーダ・デコーダアーキテクチャ、統一目的点条件テキスト生成、統一入力表現を共有している。
論文 参考訳(メタデータ) (2024-03-28T03:51:14Z) - Consistency Guided Knowledge Retrieval and Denoising in LLMs for
Zero-shot Document-level Relation Triplet Extraction [43.50683283748675]
文書レベルの関係トリプルト抽出(DocRTE)は、文書から意味的関係を持つエンティティを同時に抽出することを目的とした情報システムの基本課題である。
既存の手法は、かなりの量の完全なラベル付きデータに依存している。
ChatGPTやLLaMAのような最近の先進言語モデル(LLM)は、素晴らしい長文生成能力を示している。
論文 参考訳(メタデータ) (2024-01-24T17:04:28Z) - Cross-Modal Multi-Tasking for Speech-to-Text Translation via Hard
Parameter Sharing [72.56219471145232]
ハードパラメータ共有を伴うST/MTマルチタスクフレームワークを提案する。
本手法は,事前処理による音声文のモダリティギャップを低減する。
我々は,注意エンコーダ・デコーダ,コネクショニスト時間分類(CTC),トランスデューサ,共同CTC/アテンションモデルを平均+0.5BLEUで改善することを示す。
論文 参考訳(メタデータ) (2023-09-27T17:48:14Z) - Structured Dialogue Discourse Parsing [79.37200787463917]
談話解析は、多人数会話の内部構造を明らかにすることを目的としている。
本稿では,符号化と復号化という2つの観点から,従来の作業を改善する原理的手法を提案する。
実験の結果,本手法は,STACでは2.3,Mollweniでは1.5,先行モデルでは2.3を上回った。
論文 参考訳(メタデータ) (2023-06-26T22:51:01Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - Memory-Based Semantic Parsing [79.48882899104997]
文脈依存型セマンティック解析のためのメモリベースモデルを提案する。
逐次的ユーザ発話の累積的意味を維持することにより,メモリ管理を行うコンテキストメモリコントローラを学習する。
論文 参考訳(メタデータ) (2021-09-07T16:15:13Z) - AMR Parsing with Action-Pointer Transformer [18.382148821100152]
文に対するハードアテンテンションとターゲット側アクションポインタ機構を組み合わせたトランジションベースのシステムを提案する。
我々のアクションポインターアプローチは表現性を高め、最高の遷移ベースAMRに対して大きな利益を得ることを示す。
論文 参考訳(メタデータ) (2021-04-29T22:01:41Z) - Open-Domain Frame Semantic Parsing Using Transformers [4.335237318717164]
本稿では,純粋に生成するエンコーダデコーダアーキテクチャがFrameNet 1.7の構文解析において,それまでの最先端技術に勝っていることを示す。
また,マルチタスクの混合復号化手法により,より優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-10-21T13:38:04Z) - Don't Parse, Insert: Multilingual Semantic Parsing with Insertion Based
Decoding [10.002379593718471]
成功した構文は、入力発話をシステムで容易に理解できる動作に変換する。
複雑な解析タスクに対して、最先端の手法は、解析を直接生成するためのシーケンスモデルへの自己回帰シーケンスに基づいている。
論文 参考訳(メタデータ) (2020-10-08T01:18:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。