論文の概要: LC-Eval: A Bilingual Multi-Task Evaluation Benchmark for Long-Context Understanding
- arxiv url: http://arxiv.org/abs/2510.16783v1
- Date: Sun, 19 Oct 2025 10:15:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.142992
- Title: LC-Eval: A Bilingual Multi-Task Evaluation Benchmark for Long-Context Understanding
- Title(参考訳): LC-Eval:長期理解のためのバイリンガルマルチタスク評価ベンチマーク
- Authors: Sheikh Jubair, Arwa Omayrah, Amal Alshammari, Alhanoof Althnian, Abdulhamed Alothaimen, Norah A. Alzahrani, Shahad D. Alzaidi, Nora Al-Twairesh, Abdulmohsen Al-Thubaity,
- Abstract要約: 英語とアラビア語の長文理解を評価するために設計されたバイリンガル・マルチタスク評価ベンチマークである textbfLC-Eval を提案する。
このベンチマークには、各タスクのアラビア語と英語の両方のデータセットが含まれており、異なるテキストジャンルにわたるパフォーマンスの比較分析を可能にする。
- 参考スコア(独自算出の注目度): 0.4837072536850575
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in Large Language Models (LLMs) have demonstrated sophisticated capabilities, including the ability to process and comprehend extended contexts. These emergent capabilities necessitate rigorous evaluation methods to effectively assess their performance in long-context understanding. In this paper, we present \textbf{LC-Eval}, a bilingual, multi-task evaluation benchmark designed to evaluate long-context understanding in English and Arabic, targeting context lengths ranging from 4k to over 128k tokens. LC-Eval introduces four novel and challenging tasks: multi-document question answering, bilingual question answering, claim verification within a paragraph, and multiple-choice questions based on long contexts. These tasks are designed to assess LLMs' abilities in deep reasoning, document comprehension, information tracing, and bilingual information extraction and understanding. The benchmark includes datasets in both Arabic and English for each task, allowing for a comparative analysis of their performance across different text genres. Evaluations were conducted on both open-weight and closed LLMs, with results indicating that LC-Eval presents significant challenges. Even high-performing models, such as GPT-4o, struggled with certain tasks, highlighting the complexity and rigor of the benchmark.
- Abstract(参考訳): 近年のLLM(Large Language Models)の進歩は、拡張コンテキストの処理や理解など、高度な機能を示している。
これらの創発的能力は、長期的理解においてその性能を効果的に評価するために厳密な評価方法を必要とする。
本稿では,4kから128k以上のトークンを対象に,英語とアラビア語の長文理解を評価するために設計されたバイリンガル・マルチタスク評価ベンチマークである \textbf{LC-Eval} を提案する。
LC-Evalは、多文書質問応答、バイリンガル質問応答、段落内のクレーム検証、長い文脈に基づく複数選択質問の4つの斬新で挑戦的なタスクを導入している。
これらのタスクは、深い推論、文書理解、情報追跡、バイリンガル情報抽出および理解におけるLLMの能力を評価するように設計されている。
このベンチマークには、各タスクのアラビア語と英語の両方のデータセットが含まれており、異なるテキストジャンルにわたるパフォーマンスの比較分析を可能にする。
LC-Eval はオープンウェイトおよびクローズド LLM の両方で評価を行い,LC-Eval が重要な課題であることを示した。
GPT-4oのような高性能なモデルでさえ、ベンチマークの複雑さと厳密さを強調し、特定のタスクに苦労した。
関連論文リスト
- On the Consistency of Multilingual Context Utilization in Retrieval-Augmented Generation [12.848952248427977]
大規模言語モデル(LLM)を用いた検索言語拡張生成(RAG)は,多言語質問応答タスクにおいて高い性能を示した。
多言語RAGでは、検索されたパスは、ユーザが入力したクエリ以外の言語で書くことができる。
論文 参考訳(メタデータ) (2025-04-01T09:55:23Z) - On Many-Shot In-Context Learning for Long-Context Evaluation [10.500629810624769]
本稿では,マルチショットICLによる長文言語モデルの評価について検討する。
ICLタスクを共通サンプル学習(SSL)と全サンプル学習(ASL)の2つのグループに分類するメトリクスを開発する。
最先端のモデルではSSLタスクで64kトークンまでパフォーマンスが向上するが、ASLタスクで16kトークンしかなかったため、多くのモデルは大幅なパフォーマンス低下を経験している。
論文 参考訳(メタデータ) (2024-11-11T17:00:59Z) - NovelQA: Benchmarking Question Answering on Documents Exceeding 200K Tokens [63.7488938083696]
我々は,大規模言語モデル(LLM)を複雑で拡張された物語で評価するためのベンチマークであるNovellQAを紹介する。
NovelQAは、複雑さ、長さ、物語のコヒーレンスをユニークなブレンドとして提供し、深いテキスト理解を評価するのに理想的なツールである。
ノベルQAにおける長文LLMの評価は,長文LLMの長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文の長文長文長文長文長文の長文
論文 参考訳(メタデータ) (2024-03-18T17:32:32Z) - BAMBOO: A Comprehensive Benchmark for Evaluating Long Text Modeling Capacities of Large Language Models [141.21603469555225]
大規模言語モデル(LLM)は、通常の長さのNLPタスクよりも劇的な熟練を実現している。
マルチタスク長コンテキストベンチマークであるBAMBOOを提案する。
5つの異なる長いテキスト理解タスクから10のデータセットで構成されている。
論文 参考訳(メタデータ) (2023-09-23T11:36:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。