Fugu-MT 論文翻訳(概要): Lost-in-the-Middle in Long-Text Generation: Synthetic Dataset, Evaluation Framework, and Mitigation

論文の概要: Lost-in-the-Middle in Long-Text Generation: Synthetic Dataset, Evaluation Framework, and Mitigation

arxiv url: http://arxiv.org/abs/2503.06868v1
Date: Mon, 10 Mar 2025 02:44:36 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-11 20:09:44.672514
Title: Lost-in-the-Middle in Long-Text Generation: Synthetic Dataset, Evaluation Framework, and Mitigation
Title（参考訳）: 長文生成におけるロス・イン・ザ・ミドル:合成データセット、評価フレームワーク、緩和
Authors: Junhao Zhang, Richong Zhang, Fanshuang Kong, Ziyang Miao, Yanhan Ye, Yaowei Zheng,
Abstract要約: 長文生成法は主に短い入力から長文を生成することに集中する。入力が長くなるにつれて、既存の手法は必然的に「中途半端な」現象に遭遇する。本研究では,重要で見過ごされているコンテンツを検索し,復元する検索型長文ライター(RAL-Writer)を開発した。
参考スコア（独自算出の注目度）: 22.0671489874715
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Existing long-text generation methods primarily concentrate on producing lengthy texts from short inputs, neglecting the long-input and long-output tasks. Such tasks have numerous practical applications while lacking available benchmarks. Moreover, as the input grows in length, existing methods inevitably encounter the "lost-in-the-middle" phenomenon. In this paper, we first introduce a Long Input and Output Benchmark (LongInOutBench), including a synthetic dataset and a comprehensive evaluation framework, addressing the challenge of the missing benchmark. We then develop the Retrieval-Augmented Long-Text Writer (RAL-Writer), which retrieves and restates important yet overlooked content, mitigating the "lost-in-the-middle" issue by constructing explicit prompts. We finally employ the proposed LongInOutBench to evaluate our RAL-Writer against comparable baselines, and the results demonstrate the effectiveness of our approach. Our code has been released at https://github.com/OnlyAR/RAL-Writer.
Abstract（参考訳）: 既存の長文生成手法は主に短い入力から長文を生成することに集中し、長文および長文のタスクを無視する。このようなタスクには、利用可能なベンチマークが欠如しながら、多くの実用的な応用がある。さらに、入力が長くなるにつれて、既存の手法は必然的に「中途半端な」現象に遭遇する。本稿では,まず,Long Input and Output Benchmark (LongInOutBench) を紹介する。次に、重要で見過ごされているコンテンツを検索し、復元し、明示的なプロンプトを構築することで「中途半端な」問題を緩和する検索用拡張長文ライター(RAL-Writer)を開発します。最終的に提案したLongInOutBenchを使って、AL-Writerを同等のベースラインに対して評価し、その結果が我々のアプローチの有効性を示している。私たちのコードはhttps://github.com/OnlyAR/RAL-Writer.orgで公開されています。

関連論文リスト

LiveLongBench: Tackling Long-Context Understanding for Spoken Texts from Live Streams [4.917265821383127]
実世界のシナリオの冗長性に富む会話の性質を反映した,ライブストリームから派生した最初の音声長文データセットを構築した。我々は、これらのタスクにおける長文理解能力を評価するために、人気のあるLLMと特殊手法の両方を評価した。本研究は,現在の手法の限界を浮き彫りにし,長文理解の改善に向けた今後の方向性を示唆するものである。
論文参考訳（メタデータ） (2025-04-24T08:27:48Z)
RAPID: Efficient Retrieval-Augmented Long Text Generation with Writing Planning and Information Discovery [69.41989381702858]
直接生成やマルチエージェントの議論といった既存の手法は、幻覚、トピックの不整合、重大な遅延といった問題に悩まされることが多い。本稿では,効率的な検索拡張長文生成フレームワークRAPIDを提案する。私たちの仕事は、自動化された長文生成の課題に対して、堅牢で効率的なソリューションを提供します。
論文参考訳（メタデータ） (2025-03-02T06:11:29Z)
Emulating Retrieval Augmented Generation via Prompt Engineering for Enhanced Long Context Comprehension in LLMs [23.960451986662996]
本稿では,レトリーバル拡張生成(RAG)を特殊エンジニアリングとチェーンオブ思考推論によりエミュレートする手法を提案する。我々は,BABILong から選択したタスクに対するアプローチを評価し,大量の散逸テキストを用いた標準 bAbI QA 問題をインターリーブする。
論文参考訳（メタデータ） (2025-02-18T02:49:40Z)
LongReD: Mitigating Short-Text Degradation of Long-Context Large Language Models via Restoration Distillation [79.90766312484489]
回復蒸留(LongReD)による長期事前トレーニング LongReDは、選択されたレイヤの隠れた状態をオリジナルのモデルから短いテキストで蒸留する。一般的なテキストベンチマークの実験では、LongReDはモデルの短文性能を効果的に維持することを示した。
論文参考訳（メタデータ） (2025-02-11T08:37:16Z)
LongDPO: Unlock Better Long-form Generation Abilities for LLMs via Critique-augmented Stepwise Information [76.26257306813899]
学術論文やリポジトリレベルのコード生成には,長文生成が不可欠だ。選好学習と結果管理を併用する既存の手法は、拡張された文脈に対して詳細なフィードバックを提供するのに失敗することが多い。プロセスの監督を取り入れた長文生成の促進を提案する。
論文参考訳（メタデータ） (2025-02-04T08:25:17Z)
HelloBench: Evaluating Long Text Generation Capabilities of Large Language Models [89.28591263741973]
長文生成における大規模言語モデルの性能を評価するために,階層長文生成ベンチマーク(HelloBench)を導入する。 HelloBenchはブルームの分類に基づいて、長いテキスト生成タスクをオープンエンドQA、要約、チャット、テキスト補完、テキスト生成の5つのサブタスクに分類する。また,人的評価に要する時間と労力を大幅に削減する人的評価手法である階層的長文評価(HelloEval)を提案する。
論文参考訳（メタデータ） (2024-09-24T15:38:11Z)
Long Code Arena: a Set of Benchmarks for Long-Context Code Models [75.70507534322336]
Long Code Arenaは、プロジェクト全体のコンテキストを必要とするコード処理タスクのための6つのベンチマークスイートである。これらのタスクは、ライブラリベースのコード生成、CIビルドの修復、プロジェクトレベルのコード補完、コミットメッセージ生成、バグローカライゼーション、モジュールの要約といった、コード処理のさまざまな側面をカバーする。各タスクに対して、テスト用の手作業によるデータセット、評価スイート、オープンソースのベースラインソリューションを提供しています。
論文参考訳（メタデータ） (2024-06-17T14:58:29Z)
XL$^2$Bench: A Benchmark for Extremely Long Context Understanding with Long-range Dependencies [45.31042312867939]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著なパフォーマンスを示しているが、その小さなコンテキストウィンドウサイズによって制約されている。最大200Kの入力トークンに対応するために、コンテキストウィンドウを拡張するための様々な取り組みが提案されている。 XL$2$Bench という,長距離依存によるコンテキスト理解のためのベンチマークを導入する。
論文参考訳（メタデータ） (2024-04-08T12:29:07Z)
SCROLLS: Standardized CompaRison Over Long Language Sequences [62.574959194373264]
SCROLLSは長いテキストに対する推論を必要とするタスクのスイートである。 SCROLLSには要約、質問応答、自然言語推論タスクが含まれる。すべてのデータセットを統一されたテキスト・ツー・テキスト形式で利用可能にし、モデルアーキテクチャと事前学習方法の研究を容易にするために、ライブのリーダーボードをホストします。
論文参考訳（メタデータ） (2022-01-10T18:47:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。