論文の概要: Improving Citation Text Generation: Overcoming Limitations in Length Control
- arxiv url: http://arxiv.org/abs/2407.14997v1
- Date: Sat, 20 Jul 2024 22:10:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 19:38:36.980550
- Title: Improving Citation Text Generation: Overcoming Limitations in Length Control
- Title(参考訳): 引用文生成の改善:長さ制御における限界を克服する
- Authors: Biswadip Mandal, Xiangci Li, Jessica Ouyang,
- Abstract要約: 引用テキスト生成の鍵となる課題は、生成されたテキストの長さがターゲットの長さとしばしば異なり、生成の質が低下することである。
本研究では,科学的引用文の長さ予測の限界について詳細な研究を行い,所望の長さの推定値の利用について検討する。
- 参考スコア(独自算出の注目度): 10.555859097367286
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A key challenge in citation text generation is that the length of generated text often differs from the length of the target, lowering the quality of the generation. While prior works have investigated length-controlled generation, their effectiveness depends on knowing the appropriate generation length. In this work, we present an in-depth study of the limitations of predicting scientific citation text length and explore the use of heuristic estimates of desired length.
- Abstract(参考訳): 引用テキスト生成における重要な課題は、生成されたテキストの長さがターゲットの長さとしばしば異なり、生成の質が低下することである。
従来の研究は、長さ制御された生成を調査してきたが、その有効性は、適切な生成長を知ることに依存する。
本研究では,科学的引用文長の予測限界について詳細な研究を行い,所望の長さのヒューリスティックな推定値の利用について検討する。
関連論文リスト
- LongGenBench: Benchmarking Long-Form Generation in Long Context LLMs [4.4965596747053]
ロングフォームテキスト生成は、設計提案やクリエイティブな文章作成といったアプリケーションには不可欠である。
新しいロングフォームテキスト評価ベンチマークであるLongGenBenchは、生成されたロングテキストシーケンス内の特定のイベントを識別するモデルの能力をテストする。
論文 参考訳(メタデータ) (2024-09-03T17:25:54Z) - Analysis of Plan-based Retrieval for Grounded Text Generation [78.89478272104739]
幻覚は、言語モデルがそのパラメトリック知識の外で生成タスクが与えられるときに起こる。
この制限に対処するための一般的な戦略は、言語モデルに検索メカニズムを注入することである。
我々は,幻覚の頻度をさらに減少させるために,探索のガイドとして計画をどのように利用できるかを分析する。
論文 参考訳(メタデータ) (2024-08-20T02:19:35Z) - LongLaMP: A Benchmark for Personalized Long-form Text Generation [87.41296912519992]
長文言語モデルパーソナライゼーション(LongLaMP)ベンチマークを開発した。
LongLaMPはパーソナライズされた長文生成のための包括的で多様な評価フレームワークを提供する。
その結果、多種多様な長文生成タスクにおけるパーソナライズの重要性が浮き彫りになった。
論文 参考訳(メタデータ) (2024-06-27T01:52:05Z) - LongWanjuan: Towards Systematic Measurement for Long Text Quality [102.46517202896521]
LongWanjuanは160B以上のトークンを持つ長文タスクのための言語モデルのトレーニングを強化するために特別に設計されたデータセットである。
LongWanjuanでは、長文を全体的、集約的、カオス的なタイプに分類し、長文品質の詳細な分析を可能にする。
我々は,LongWanjuan内で異なるタイプの長文を戦略的にバランスさせるデータ混合レシピを考案し,長文タスクにおけるモデル性能を大幅に改善した。
論文 参考訳(メタデータ) (2024-02-21T07:27:18Z) - LongAlign: A Recipe for Long Context Alignment of Large Language Models [61.85923382850057]
LongAlignは、ロングコンテキストアライメントのための命令データ、トレーニング、評価のレシピである。
我々はSelf-Instructを使って長い命令追従データセットを構築した。
我々は、長さ分布の異なるデータの教師付き微調整を高速化するために、パッキングとソート戦略を採用した。
論文 参考訳(メタデータ) (2024-01-31T18:29:39Z) - LISTER: Neighbor Decoding for Length-Insensitive Scene Text Recognition [27.280917081410955]
LISTER (Longth-Insensitive Scene TExt Recognizer) という手法を提案する。
隣接デコーダを提案し, 隣り合う新しい行列の助けを借りて, 正確なキャラクタアテンションマップを得る。
機能拡張モジュールは、低コストで長距離依存性をモデル化するために設計されている。
論文 参考訳(メタデータ) (2023-08-24T13:26:18Z) - Summarization with Precise Length Control [23.688834410051]
本稿では,トークン数や文数を正確に指定した要約を生成するフレームワークを提案する。
モデルを協調訓練して長さを予測するので、最適な長さの要約を生成することができる。
論文 参考訳(メタデータ) (2023-05-09T04:45:24Z) - Sequentially Controlled Text Generation [97.22539956688443]
GPT-2は、驚くほど人間らしく、長い文書が混ざり合ったり、人間のような文章構造に従わなかったりする文を生成する。
本研究では,長距離テキストにおける命令構造の問題について検討する。
生成と編集が可能な逐次制御型テキスト生成パイプラインを開発した。
論文 参考訳(メタデータ) (2023-01-05T21:23:51Z) - A Survey on Retrieval-Augmented Text Generation [53.04991859796971]
Retrieval-augmented text generationは顕著な利点があり、多くのNLPタスクで最先端のパフォーマンスを実現している。
まず、検索拡張生成の一般的なパラダイムを強調し、異なるタスクに応じて注目すべきアプローチをレビューする。
論文 参考訳(メタデータ) (2022-02-02T16:18:41Z) - LenAtten: An Effective Length Controlling Unit For Text Summarization [5.554982420311913]
固定長要約は、予め設定された単語や文字の数で要約を生成することを目的としている。
近年の研究では、繰り返し復号器への入力として、単語の埋め込みを伴う長さ情報が組み込まれている。
我々は、このトレードオフを断ち切るために、有効長制御ユニットLenAtten(LenAtten)を提案する。
論文 参考訳(メタデータ) (2021-06-01T08:45:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。