Fugu-MT 論文翻訳(概要): ChapterBreak: A Challenge Dataset for Long-Range Language Models

論文の概要: ChapterBreak: A Challenge Dataset for Long-Range Language Models

arxiv url: http://arxiv.org/abs/2204.10878v1
Date: Fri, 22 Apr 2022 18:20:23 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-28 07:53:01.628768
Title: ChapterBreak: A Challenge Dataset for Long-Range Language Models
Title（参考訳）: ChapterBreak: 長距離言語モデルのためのチャレンジデータセット
Authors: Simeng Sun, Katherine Thai, Mohit Iyyer
Abstract要約: 章境界で終わる物語から長いセグメントのLRLMを提供する挑戦データセットである章Breakを紹介します。詳細な人間のアノテーションから、私たちのデータセットには多くの複雑な章の遷移が含まれていることが分かる。 ChapterBreakの実験では、既存のLRLMは長距離コンテキストを効果的に活用できないことが示されている。
参考スコア（独自算出の注目度）: 36.54750186213335
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While numerous architectures for long-range language models (LRLMs) have recently been proposed, a meaningful evaluation of their discourse-level language understanding capabilities has not yet followed. To this end, we introduce ChapterBreak, a challenge dataset that provides an LRLM with a long segment from a narrative that ends at a chapter boundary and asks it to distinguish the beginning of the ground-truth next chapter from a set of negative segments sampled from the same narrative. A fine-grained human annotation reveals that our dataset contains many complex types of chapter transitions (e.g., parallel narratives, cliffhanger endings) that require processing global context to comprehend. Experiments on ChapterBreak show that existing LRLMs fail to effectively leverage long-range context, substantially underperforming a segment-level model trained directly for this task. We publicly release our ChapterBreak dataset to spur more principled future research into LRLMs.
Abstract（参考訳）: 長距離言語モデル(LRLM)のための多くのアーキテクチャが最近提案されているが、その言論レベルの言語理解能力の有意義な評価はまだ続いていない。この目的のために、章境界で終わる物語から長いセグメントのLRLMを提供する挑戦データセットである章Breakを紹介し、同じ物語からサンプリングされた負のセグメントの集合と、その次の章の始まりを区別するよう要求する。きめ細かい人間のアノテーションは、我々のデータセットが、グローバルコンテキストを理解する必要がある多くの複雑な章遷移(例えば、パラレルナラティブ、クリフハンガーエンディング)を含んでいることを示しています。 ChapterBreakの実験では、既存のLRLMは長距離コンテキストを効果的に活用できず、このタスクのために直接訓練されたセグメントレベルのモデルを大幅に上回っている。 LRLMに関するより原理的な研究を促進するために、私たちの章Breakデータセットを公開します。

関連論文リスト

Segment First or Comprehend First? Explore the Limit of Unsupervised Word Segmentation with Large Language Models [92.92512796044471]
本稿では,Large Language Models (LLMs) を用いた教師なし単語セグメンテーションの限界を探索する新しいフレームワークを提案する。我々は,LLMの「理解」を評価するために,複数の言語にまたがる単語セグメンテーションを行うために,現在主流のLLMを使用している。本研究では,文脈情報に基づく動的$n$-gramモデルの構築を可能にする,LACAと呼ばれる新しい教師なし手法を提案する。
論文参考訳（メタデータ） (2025-05-26T07:48:15Z)
New Dataset and Methods for Fine-Grained Compositional Referring Expression Comprehension via Specialist-MLLM Collaboration [49.180693704510006]
Referring Expression (REC) は、言語理解、画像理解、言語と画像の接点の相互作用を評価するためのクロスモーダルなタスクである。 MLLM(Multimodal Large Language Models)の試験場として機能する。
論文参考訳（メタデータ） (2025-02-27T13:58:44Z)
HERA: Improving Long Document Summarization using Large Language Models with Context Packaging and Reordering [6.876612430571396]
HERAと呼ばれる新しい要約生成フレームワークを提案する。まず、その意味構造によって長い文書をセグメンテーションし、同じ事象に関するテキストセグメントを検索し、最後にそれらを並べ替えて入力コンテキストを形成する。実験の結果,HERAはROUGE,BERTScore,忠実度測定において基礎モデルよりも優れていた。
論文参考訳（メタデータ） (2025-02-01T14:55:06Z)
LLM$\times$MapReduce: Simplified Long-Sequence Processing using Large Language Models [73.13933847198395]
本稿では,文書理解を包括的に行うための分割・対数戦略を利用して,長文処理のための学習自由フレームワークを提案する。提案された LLM$times$MapReduce フレームワークは、ドキュメント全体を LLM が読み取るためにいくつかのチャンクに分割し、中間回答を集約して最終的な出力を生成する。
論文参考訳（メタデータ） (2024-10-12T03:13:44Z)
A Novel LLM-based Two-stage Summarization Approach for Long Dialogues [9.835499880812646]
本研究では,長い文書から情報を分割・凝縮する階層的枠組みを提案する。凝縮段階は、教師なし生成モデルを用いて凝縮データを生成する。要約段階は、縮合されたデータ上の抽象的な要約モデルを微調整して最終結果を生成する。
論文参考訳（メタデータ） (2024-10-09T03:42:40Z)
FragRel: Exploiting Fragment-level Relations in the External Memory of Large Language Models [54.13671100638092]
断片接続型階層型メモリベース大規模言語モデル(LLM)を提案する。外部メモリにおけるフラグメントレベルの関係を定式化し、異なるテキストタイプに対していくつかのインスタンスを提示する。長いストーリー理解、リポジトリレベルのコード生成、長期チャットにこれらの関係を組み込むことの利点を検証する。
論文参考訳（メタデータ） (2024-06-05T09:31:37Z)
LaSagnA: Language-based Segmentation Assistant for Complex Queries [39.620806493454616]
視覚のための大規模言語モデル(vLLM)は、バウンディングボックスやマスクを含む知覚結果を生成する。本研究では,これらの問題の主な原因が,学習クエリの複雑さの不足であることを認めた。本稿では,提案フォーマットの直接統合による課題を効果的に解決するための3つの新しい戦略を提案する。
論文参考訳（メタデータ） (2024-04-12T14:40:45Z)
From Text Segmentation to Smart Chaptering: A Novel Benchmark for Structuring Video Transcriptions [63.11097464396147]
音声コンテンツに焦点をあてた新しいベンチマークYTSegを導入し、その内容は本質的に非構造的であり、トポロジと構造的にも多様である。また,高効率な階層分割モデルMiniSegを導入する。
論文参考訳（メタデータ） (2024-02-27T15:59:37Z)
LISA: Reasoning Segmentation via Large Language Model [68.24075852136761]
そこで我々は,新たなセグメンテーションタスク,すなわち推論セグメンテーションを提案する。このタスクは、複雑で暗黙的なクエリテキストを与えられたセグメンテーションマスクを出力するように設計されている。提案するLISA: Large Language Instructed Assistantは,マルチモーダル大規模言語モデルの言語生成能力を継承する。
論文参考訳（メタデータ） (2023-08-01T17:50:17Z)
PEARL: Prompting Large Language Models to Plan and Execute Actions Over Long Documents [78.27865456183397]
長い文書に対する推論を改善するためのフレームワークであるPEARLを提案する。 PEARLの各ステージは、最小限の人間の入力でゼロショットまたは少数ショットのプロンプトによって実装される。 PEARLをQuALITYデータセットの挑戦的なサブセットで評価し、長い物語テキストに対して複雑な推論を必要とする質問を含む。
論文参考訳（メタデータ） (2023-05-23T23:06:04Z)
Summ^N: A Multi-Stage Summarization Framework for Long Input Dialogues and Documents [13.755637074366813]
SummNは、典型的な事前訓練されたLMの最大文脈長よりも長いテキストを入力するための、シンプルで柔軟で効果的な多段階フレームワークである。 LMコンテキストサイズを固定したままステージ数を調整することで任意の長さの入力テキストを処理できる。実験の結果,SummNは従来の最先端手法よりも有意に優れていた。
論文参考訳（メタデータ） (2021-10-16T06:19:54Z)
BookSum: A Collection of Datasets for Long-form Narrative Summarization [42.26628743419607]
booksumは長文要約のためのデータセットのコレクションである。我々のデータセットは、小説、戯曲、物語などの文学分野の資料をカバーしています。
論文参考訳（メタデータ） (2021-05-18T00:22:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。