論文の概要: ChapterBreak: A Challenge Dataset for Long-Range Language Models
- arxiv url: http://arxiv.org/abs/2204.10878v1
- Date: Fri, 22 Apr 2022 18:20:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-28 07:53:01.628768
- Title: ChapterBreak: A Challenge Dataset for Long-Range Language Models
- Title(参考訳): ChapterBreak: 長距離言語モデルのためのチャレンジデータセット
- Authors: Simeng Sun, Katherine Thai, Mohit Iyyer
- Abstract要約: 章境界で終わる物語から長いセグメントのLRLMを提供する挑戦データセットである章Breakを紹介します。
詳細な人間のアノテーションから、私たちのデータセットには多くの複雑な章の遷移が含まれていることが分かる。
ChapterBreakの実験では、既存のLRLMは長距離コンテキストを効果的に活用できないことが示されている。
- 参考スコア(独自算出の注目度): 36.54750186213335
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While numerous architectures for long-range language models (LRLMs) have
recently been proposed, a meaningful evaluation of their discourse-level
language understanding capabilities has not yet followed. To this end, we
introduce ChapterBreak, a challenge dataset that provides an LRLM with a long
segment from a narrative that ends at a chapter boundary and asks it to
distinguish the beginning of the ground-truth next chapter from a set of
negative segments sampled from the same narrative. A fine-grained human
annotation reveals that our dataset contains many complex types of chapter
transitions (e.g., parallel narratives, cliffhanger endings) that require
processing global context to comprehend. Experiments on ChapterBreak show that
existing LRLMs fail to effectively leverage long-range context, substantially
underperforming a segment-level model trained directly for this task. We
publicly release our ChapterBreak dataset to spur more principled future
research into LRLMs.
- Abstract(参考訳): 長距離言語モデル(LRLM)のための多くのアーキテクチャが最近提案されているが、その言論レベルの言語理解能力の有意義な評価はまだ続いていない。
この目的のために、章境界で終わる物語から長いセグメントのLRLMを提供する挑戦データセットである章Breakを紹介し、同じ物語からサンプリングされた負のセグメントの集合と、その次の章の始まりを区別するよう要求する。
きめ細かい人間のアノテーションは、我々のデータセットが、グローバルコンテキストを理解する必要がある多くの複雑な章遷移(例えば、パラレルナラティブ、クリフハンガーエンディング)を含んでいることを示しています。
ChapterBreakの実験では、既存のLRLMは長距離コンテキストを効果的に活用できず、このタスクのために直接訓練されたセグメントレベルのモデルを大幅に上回っている。
LRLMに関するより原理的な研究を促進するために、私たちの章Breakデータセットを公開します。
関連論文リスト
- From Text Segmentation to Smart Chaptering: A Novel Benchmark for
Structuring Video Transcriptions [63.11097464396147]
音声コンテンツに焦点をあてた新しいベンチマークYTSegを導入し、その内容は本質的に非構造的であり、トポロジと構造的にも多様である。
また,高効率な階層分割モデルMiniSegを導入する。
論文 参考訳(メタデータ) (2024-02-27T15:59:37Z) - Salute the Classic: Revisiting Challenges of Machine Translation in the
Age of Large Language Models [91.6543868677356]
ニューラルネットワーク翻訳の進化は、6つのコア課題の影響を受けている。
これらの課題には、ドメインミスマッチ、並列データの量、まれな単語予測、長文の翻訳、単語アライメントとしてのアテンションモデル、そして準最適ビームサーチが含まれる。
この研究はこれらの課題を再考し、先進的な大規模言語モデルにおけるそれらの継続的な関連性についての洞察を提供する。
論文 参考訳(メタデータ) (2024-01-16T13:30:09Z) - Universal Segmentation at Arbitrary Granularity with Language
Instruction [59.76130089644841]
言語命令のガイダンスを用いて任意の意味レベルでセグメンテーションを行うことができるユニバーサルセグメンテーションモデルUniLSegを提案する。
UniLSegをトレーニングするために、元の多様な分布から統一されたデータ形式にタスク群を再構成し、セグメンテーションターゲットを入力として記述したテキストと対応するマスクを出力する。
論文 参考訳(メタデータ) (2023-12-04T04:47:48Z) - PEARL: Prompting Large Language Models to Plan and Execute Actions Over
Long Documents [78.27865456183397]
長い文書に対する推論を改善するためのフレームワークであるPEARLを提案する。
PEARLの各ステージは、最小限の人間の入力でゼロショットまたは少数ショットのプロンプトによって実装される。
PEARLをQuALITYデータセットの挑戦的なサブセットで評価し、長い物語テキストに対して複雑な推論を必要とする質問を含む。
論文 参考訳(メタデータ) (2023-05-23T23:06:04Z) - SCROLLS: Standardized CompaRison Over Long Language Sequences [62.574959194373264]
SCROLLSは長いテキストに対する推論を必要とするタスクのスイートである。
SCROLLSには要約、質問応答、自然言語推論タスクが含まれる。
すべてのデータセットを統一されたテキスト・ツー・テキスト形式で利用可能にし、モデルアーキテクチャと事前学習方法の研究を容易にするために、ライブのリーダーボードをホストします。
論文 参考訳(メタデータ) (2022-01-10T18:47:15Z) - Summ^N: A Multi-Stage Summarization Framework for Long Input Dialogues
and Documents [13.755637074366813]
SummNは、典型的な事前訓練されたLMの最大文脈長よりも長いテキストを入力するための、シンプルで柔軟で効果的な多段階フレームワークである。
LMコンテキストサイズを固定したままステージ数を調整することで任意の長さの入力テキストを処理できる。
実験の結果,SummNは従来の最先端手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-10-16T06:19:54Z) - BookSum: A Collection of Datasets for Long-form Narrative Summarization [42.26628743419607]
booksumは長文要約のためのデータセットのコレクションである。
我々のデータセットは、小説、戯曲、物語などの文学分野の資料をカバーしています。
論文 参考訳(メタデータ) (2021-05-18T00:22:46Z) - Neural Sequence Segmentation as Determining the Leftmost Segments [25.378188980430256]
自然言語文をセグメントレベルで段階的に分割する新しい枠組みを提案する。
セグメンテーションのすべてのステップにおいて、残りのシーケンスの一番左のセグメントを認識する。
3つのデータセットにまたがる構文的チャンキングと中国語のパート・オブ・スパイチ・タギングに関する広範な実験を行った。
論文 参考訳(メタデータ) (2021-04-15T03:35:03Z) - Summarize, Outline, and Elaborate: Long-Text Generation via Hierarchical
Supervision from Extractive Summaries [46.183289748907804]
長文生成のためのアウトライン化,アウトライン化,エラボレートを行うパイプラインシステムSOEを提案する。
SOEは、より高速な収束速度とともに、非常に優れた品質の長いテキストを生成する。
論文 参考訳(メタデータ) (2020-10-14T13:22:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。