論文の概要: LiveLongBench: Tackling Long-Context Understanding for Spoken Texts from Live Streams
- arxiv url: http://arxiv.org/abs/2504.17366v1
- Date: Thu, 24 Apr 2025 08:27:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.300136
- Title: LiveLongBench: Tackling Long-Context Understanding for Spoken Texts from Live Streams
- Title(参考訳): LiveLongBench:ライブストリームからのテキストの長いコンテキスト理解に取り組む
- Authors: Yongxuan Wu, Runyu Chen, Peiyu Liu, Hongjin Qian,
- Abstract要約: 実世界のシナリオの冗長性に富む会話の性質を反映した,ライブストリームから派生した最初の音声長文データセットを構築した。
我々は、これらのタスクにおける長文理解能力を評価するために、人気のあるLLMと特殊手法の両方を評価した。
本研究は,現在の手法の限界を浮き彫りにし,長文理解の改善に向けた今後の方向性を示唆するものである。
- 参考スコア(独自算出の注目度): 4.917265821383127
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-context understanding poses significant challenges in natural language processing, particularly for real-world dialogues characterized by speech-based elements, high redundancy, and uneven information density. Although large language models (LLMs) achieve impressive results on existing benchmarks, these datasets fail to reflect the complexities of such texts, limiting their applicability to practical scenarios. To bridge this gap, we construct the first spoken long-text dataset, derived from live streams, designed to reflect the redundancy-rich and conversational nature of real-world scenarios. We construct tasks in three categories: retrieval-dependent, reasoning-dependent, and hybrid. We then evaluate both popular LLMs and specialized methods to assess their ability to understand long-contexts in these tasks. Our results show that current methods exhibit strong task-specific preferences and perform poorly on highly redundant inputs, with no single method consistently outperforming others. We propose a new baseline that better handles redundancy in spoken text and achieves strong performance across tasks. Our findings highlight key limitations of current methods and suggest future directions for improving long-context understanding. Finally, our benchmark fills a gap in evaluating long-context spoken language understanding and provides a practical foundation for developing real-world e-commerce systems. The code and benchmark are available at https://github.com/Yarayx/livelongbench.
- Abstract(参考訳): 長文理解は自然言語処理において重要な課題であり、特に音声ベースの要素、高い冗長性、不均一な情報密度を特徴とする現実世界の対話において重要である。
大きな言語モデル(LLM)は既存のベンチマークで印象的な結果を得るが、これらのデータセットはそのようなテキストの複雑さを反映せず、実用シナリオに限定する。
このギャップを埋めるために,実世界のシナリオの冗長性に富む会話の性質を反映した,ライブストリームから派生した最初の音声長文データセットを構築した。
我々は,検索依存,推論依存,ハイブリッドの3つのカテゴリでタスクを構築する。
次に、これらのタスクにおける長文理解能力を評価するために、人気のあるLLMと専門的な手法の両方を評価する。
この結果から,従来の手法ではタスク固有の好みが強く,冗長な入力では性能が劣ることがわかった。
そこで本研究では,音声テキストの冗長性をよりよく処理し,タスク間での強いパフォーマンスを実現する新しいベースラインを提案する。
本研究は,現在の手法の限界を浮き彫りにし,長文理解の改善に向けた今後の方向性を示唆するものである。
最後に、我々のベンチマークは、長文音声言語理解のギャップを埋め、現実のeコマースシステムを開発するための実践的な基盤を提供する。
コードとベンチマークはhttps://github.com/Yarayx/livelongbench.comで公開されている。
関連論文リスト
- A Survey on Transformer Context Extension: Approaches and Evaluation [12.727256455697011]
Transformer に基づく大規模言語モデル (LLM) は自然言語処理 (NLP) に広く応用されている。
しかし、長いコンテキストのシナリオでは、いくつかの問題によりLLMの性能は低下する。
論文 参考訳(メタデータ) (2025-03-17T15:44:09Z) - WildLong: Synthesizing Realistic Long-Context Instruction Data at Scale [86.25450054683172]
WildLongは、実際のユーザクエリからメタ情報を取り出して、スケーラブルなデータを生成する。
クロスドキュメント比較やアグリゲーションといったマルチドキュメント推論をサポートする。
ベンチマーク全体で、既存のオープンソースの長期コンテキスト最適化モデルを上回っている。
論文 参考訳(メタデータ) (2025-02-23T18:59:09Z) - Generalizing From Short to Long: Effective Data Synthesis for Long-Context Instruction Tuning [103.65680870130839]
本研究では,長期事前学習モデルの学習後段階の指導データを設計する方法について検討する。
制御された研究では、短い文脈で調整されたモデルが、より長いコンテキストに効果的に一般化できることが判明した。
これらの知見に基づいて,新しいデータ合成フレームワークであるコンテキスト合成を提案する。
論文 参考訳(メタデータ) (2025-02-21T17:02:40Z) - Emulating Retrieval Augmented Generation via Prompt Engineering for Enhanced Long Context Comprehension in LLMs [23.960451986662996]
本稿では,レトリーバル拡張生成(RAG)を特殊エンジニアリングとチェーンオブ思考推論によりエミュレートする手法を提案する。
我々は,BABILong から選択したタスクに対するアプローチを評価し,大量の散逸テキストを用いた標準 bAbI QA 問題をインターリーブする。
論文 参考訳(メタデータ) (2025-02-18T02:49:40Z) - A Controlled Study on Long Context Extension and Generalization in LLMs [85.4758128256142]
広義のテキスト理解とテキスト内学習は、完全な文書コンテキストを利用する言語モデルを必要とする。
長期コンテキストモデルを直接訓練する際の実装上の課題のため、長期コンテキストを扱うためにモデルを拡張する多くの方法が提案されている。
我々は,一貫したベースモデルと拡張データを利用して,標準化された評価による拡張メソッドの制御プロトコルを実装した。
論文 参考訳(メタデータ) (2024-09-18T17:53:17Z) - NeedleBench: Can LLMs Do Retrieval and Reasoning in 1 Million Context Window? [37.64593022203498]
NeedleBenchは、バイリンガルの長期コンテキスト能力を評価するための、徐々に難しいタスクからなるフレームワークである。
私たちはこのフレームワークを使って、主要なオープンソースモデルがその疑問に関連する重要な情報をどの程度正確に特定できるかを評価する。
本稿では,実世界の長文タスクに現れる可能性の高い論理的推論課題の複雑さを模倣するAncestral Trace Challengeを提案する。
論文 参考訳(メタデータ) (2024-07-16T17:59:06Z) - KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches [52.02764371205856]
長期の文脈能力は、大規模言語モデル(LLM)にとって重要な能力である
この研究は、現在の手法の分類を提供し、長いコンテキストタスクの7つのカテゴリにまたがる10以上の最先端のアプローチを評価する。
論文 参考訳(メタデータ) (2024-07-01T17:59:47Z) - XL$^2$Bench: A Benchmark for Extremely Long Context Understanding with Long-range Dependencies [45.31042312867939]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著なパフォーマンスを示しているが、その小さなコンテキストウィンドウサイズによって制約されている。
最大200Kの入力トークンに対応するために、コンテキストウィンドウを拡張するための様々な取り組みが提案されている。
XL$2$Bench という,長距離依存によるコンテキスト理解のためのベンチマークを導入する。
論文 参考訳(メタデータ) (2024-04-08T12:29:07Z) - LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding [58.20031627237889]
LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。
英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
論文 参考訳(メタデータ) (2023-08-28T11:53:40Z) - SCROLLS: Standardized CompaRison Over Long Language Sequences [62.574959194373264]
SCROLLSは長いテキストに対する推論を必要とするタスクのスイートである。
SCROLLSには要約、質問応答、自然言語推論タスクが含まれる。
すべてのデータセットを統一されたテキスト・ツー・テキスト形式で利用可能にし、モデルアーキテクチャと事前学習方法の研究を容易にするために、ライブのリーダーボードをホストします。
論文 参考訳(メタデータ) (2022-01-10T18:47:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。