論文の概要: A Benchmark for Text Expansion: Datasets, Metrics, and Baselines
- arxiv url: http://arxiv.org/abs/2309.09198v1
- Date: Sun, 17 Sep 2023 07:54:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 16:50:22.929699
- Title: A Benchmark for Text Expansion: Datasets, Metrics, and Baselines
- Title(参考訳): テキスト拡張のためのベンチマーク:データセット、メトリック、ベースライン
- Authors: Yi Chen, Haiyun Jiang, Wei Bi, Rui Wang, Longyue Wang, Shuming Shi,
Ruifeng Xu
- Abstract要約: 本研究はテキスト拡張(TE)の新たな課題として,平文の適切な位置に細粒度修飾子を挿入することを目的とする。
補完的な4つのアプローチを活用して、1200万の自動生成インスタンスと2Kの人間注釈付き参照を持つデータセットを構築します。
事前訓練されたテキストインフィルモデルの上にパイプラインと共同でLocate&Infillモデルを構築し、Text2Textベースラインよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 87.47745669317894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work presents a new task of Text Expansion (TE), which aims to insert
fine-grained modifiers into proper locations of the plain text to concretize or
vivify human writings. Different from existing insertion-based writing
assistance tasks, TE requires the model to be more flexible in both locating
and generation, and also more cautious in keeping basic semantics. We leverage
four complementary approaches to construct a dataset with 12 million
automatically generated instances and 2K human-annotated references for both
English and Chinese. To facilitate automatic evaluation, we design various
metrics from multiple perspectives. In particular, we propose Info-Gain to
effectively measure the informativeness of expansions, which is an important
quality dimension in TE. On top of a pre-trained text-infilling model, we build
both pipelined and joint Locate&Infill models, which demonstrate the
superiority over the Text2Text baselines, especially in expansion
informativeness. Experiments verify the feasibility of the TE task and point
out potential directions for future research toward better automatic text
expansion.
- Abstract(参考訳): 本研究は, テキスト拡張(TE)の新たな課題として, 微粒化修飾体を平文の適切な位置に挿入し, 人間の文章を増減・再生することを目的とする。
既存の挿入ベースの書き込み支援タスクとは異なり、TEは、位置と生成の両方においてモデルをより柔軟にし、基本的なセマンティクスを維持するためにより慎重である必要がある。
我々は4つの補完的アプローチを利用して、自動生成された1200万のインスタンスと、英語と中国語の両方に対する2Kの人手による参照を持つデータセットを構築する。
自動評価を容易にするために,複数の視点から様々なメトリクスを設計する。
特に,TEにおける重要な品質次元である拡張の情報伝達性を効果的に測定する情報ゲインを提案する。
事前学習したテキストインフィルモデルに加えて,パイプラインモデルと統合位置・インフィルモデルを構築し,テキスト2テキストベースライン,特に拡張情報性よりも優れていることを示す。
TEタスクの実現可能性を検証する実験と,自動テキスト拡張に向けた今後の研究の方向性を指摘する。
関連論文リスト
- Towards Improving Document Understanding: An Exploration on
Text-Grounding via MLLMs [96.54224331778195]
本稿では,画像中のテキストの空間的位置を識別し,MLLMを強化したテキストグラウンド文書理解モデルTGDocを提案する。
我々は,テキスト検出,認識,スポッティングなどの命令チューニングタスクを定式化し,視覚エンコーダと大言語モデルとの密接なアライメントを容易にする。
提案手法は,複数のテキストリッチベンチマークにまたがる最先端性能を実現し,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-11-22T06:46:37Z) - Automatic and Human-AI Interactive Text Generation [27.05024520190722]
本チュートリアルは、最先端の自然言語生成研究の概要を提供する。
テキストからテキストへの生成タスクは、セマンティック一貫性とターゲット言語スタイルの観点からより制約される。
論文 参考訳(メタデータ) (2023-10-05T20:26:15Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z) - How much do language models copy from their training data? Evaluating
linguistic novelty in text generation using RAVEN [63.79300884115027]
現在の言語モデルは高品質なテキストを生成することができる。
彼らは、これまで見たテキストを単にコピーしているか、それとも一般化可能な言語的抽象化を学んだのか?
本稿では、生成したテキストの新規性を評価するための分析スイートであるRAVENを紹介する。
論文 参考訳(メタデータ) (2021-11-18T04:07:09Z) - Pre-training Language Model Incorporating Domain-specific Heterogeneous Knowledge into A Unified Representation [49.89831914386982]
本研究では, 構造化されていないテキスト, 半構造化されたテキスト, 十分に構造化されたテキストを含む, あらゆる形式のテキストに対して, 統一された事前学習言語モデル (PLM) を提案する。
提案手法は,データの1/4のみを用いて,プレーンテキストの事前学習に優れる。
論文 参考訳(メタデータ) (2021-09-02T16:05:24Z) - GenAug: Data Augmentation for Finetuning Text Generators [21.96895115572357]
本稿では,Yelp Reviews のサブセット上で GPT-2 を微調整するための外部知識を含む様々な拡張手法を提案し,評価する。
実験により,文字レベルの合成ノイズの挿入とハイパーネムのキーワード置換が効果的な拡張法であることを実証した。
論文 参考訳(メタデータ) (2020-10-05T05:46:39Z) - Text Data Augmentation: Towards better detection of spear-phishing
emails [1.6556358263455926]
社内の英語テキストを増強するためのコーパスとタスク拡張フレームワークを提案する。
提案手法は,BERT言語モデル,多段階のバックトランスレーション,アグノシクスなど,様々な手法を組み合わせる。
本研究では,公開モデルとコーパスを用いて,テキスト分類タスクの性能向上を図っている。
論文 参考訳(メタデータ) (2020-07-04T07:45:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。