論文の概要: L-CiteEval: Do Long-Context Models Truly Leverage Context for Responding?
- arxiv url: http://arxiv.org/abs/2410.02115v2
- Date: Fri, 4 Oct 2024 12:52:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 08:45:48.535350
- Title: L-CiteEval: Do Long-Context Models Truly Leverage Context for Responding?
- Title(参考訳): L-CiteEval: ロングコンテキストモデルは応答するコンテキストを真に活用するのか?
- Authors: Zecheng Tang, Keyan Zhou, Juntao Li, Baibei Ji, Jianye Hou, Min Zhang,
- Abstract要約: 我々はL-CiteEvalという長文理解のためのベンチマークを紹介した。
L-CiteEvalは、さまざまなドメインから11のタスクをカバーし、コンテキストの長さは8Kから48Kまでである。
オープンソースモデルは、引用精度とリコールの観点から、クローズドソースモデルに遅れを取っていることに気付きました。
- 参考スコア(独自算出の注目度): 23.776257600261133
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-context models (LCMs) have made remarkable strides in recent years, offering users great convenience for handling tasks that involve long context, such as document summarization. As the community increasingly prioritizes the faithfulness of generated results, merely ensuring the accuracy of LCM outputs is insufficient, as it is quite challenging for humans to verify the results from the extremely lengthy context. Yet, although some efforts have been made to assess whether LCMs respond truly based on the context, these works either are limited to specific tasks or heavily rely on external evaluation resources like GPT4.In this work, we introduce L-CiteEval, a comprehensive multi-task benchmark for long-context understanding with citations, aiming to evaluate both the understanding capability and faithfulness of LCMs. L-CiteEval covers 11 tasks from diverse domains, spanning context lengths from 8K to 48K, and provides a fully automated evaluation suite. Through testing with 11 cutting-edge closed-source and open-source LCMs, we find that although these models show minor differences in their generated results, open-source models substantially trail behind their closed-source counterparts in terms of citation accuracy and recall. This suggests that current open-source LCMs are prone to responding based on their inherent knowledge rather than the given context, posing a significant risk to the user experience in practical applications. We also evaluate the RAG approach and observe that RAG can significantly improve the faithfulness of LCMs, albeit with a slight decrease in the generation quality. Furthermore, we discover a correlation between the attention mechanisms of LCMs and the citation generation process.
- Abstract(参考訳): 近年、LCM(Long-context Model)は、文書要約などの長いコンテキストを含むタスクを扱うための利便性をユーザに提供することで、顕著な進歩を遂げている。
コミュニティが生成結果の忠実さをますます優先するにつれて、LCM出力の正確性を保証するだけでは不十分であり、極めて長いコンテキストから結果を検証することは極めて困難である。
しかし,L-CiteEval(L-CiteEval,L-CiteEval,L-CiteEval)は,L-CiteEval(L-CiteEval,L-CiteEval,L-CiteEval,L-CiteEval,L-CiteEval,L-CiteEval,L-CiteEval,L-CiteEval, L-CiteEval,L-CiteEval,L-CiteEval,L-CiteEval,L-CiteEval,L-CiteEval,L-CiteEval,L-CiteEval,L-CiteEval,L -CiteEval,L-CiteEval,L-CiteEval,L-CiteEval,L-CiteEval,L-CiteEval,L-CiteEval,L-CiteEval,L-CiteEval,L- CiteEval,L-L-CiteEval,L-CiteEval,L-CiteEval,L-C,L-C,L-CiteE,L-
L-CiteEvalは、コンテキストの長さを8Kから48Kまで、さまざまなドメインから11のタスクをカバーし、完全に自動化された評価スイートを提供する。
11個の最先端のクローズドソースおよびオープンソースLCMを用いてテストした結果、これらのモデルは生成された結果に小さな違いがあるものの、オープンソースモデルは引用精度とリコールの点でクローズドソースモデルよりもかなり遅れていることがわかった。
これは、現在のオープンソースのLCMは、与えられたコンテキストよりも、その固有の知識に基づいて応答する傾向があり、実用的なアプリケーションにおけるユーザエクスペリエンスに重大なリスクを及ぼすことを示唆している。
また,RAGアプローチを評価し,RAGは生成品質をわずかに低下させることなく,LCMの忠実度を著しく向上させることができることを観察した。
さらに,LCMの注意機構と引用生成過程の相関関係を見いだした。
関連論文リスト
- Understanding the Role of LLMs in Multimodal Evaluation Benchmarks [77.59035801244278]
本稿では,MLLM評価におけるLarge Language Model (LLM)バックボーンの役割について検討する。
本研究は4つのMLLMベンチマークと8つの最先端MLLMベンチマークを含む。
鍵となる発見は、いくつかのベンチマークでは視覚的な入力がなくても高いパフォーマンスを実現しており、最大50%のエラーレートは、LLMバックボーンにおける不十分な世界的知識に起因していることを示している。
論文 参考訳(メタデータ) (2024-10-16T07:49:13Z) - Bridging Context Gaps: Leveraging Coreference Resolution for Long Contextual Understanding [28.191029786204624]
大規模言語モデル(LLM)の性能向上を目的としたLong Question Coreference Adaptation (LQCA) 手法を提案する。
このフレームワークは、長いコンテキストに合わせて調整されたコア参照解決に焦点を当てており、モデルが参照を効果的に識別し、管理することができる。
このフレームワークはLLMの扱いやすいパーティションを提供し、理解を深める。
論文 参考訳(メタデータ) (2024-10-02T15:39:55Z) - DetectiveQA: Evaluating Long-Context Reasoning on Detective Novels [89.51834016940153]
本稿では,100K以上の平均コンテキスト長を持つナラティブ推論ベンチマークであるTectiveQAを紹介する。
探偵小説をデータソースとして使用し、様々な理由付け要素を自然に持っている。
私たちは中国語で600の質問を手動で注釈付けし、文脈情報と質問の英語版も提供しました。
論文 参考訳(メタデータ) (2024-09-04T06:28:22Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA [71.04146366608904]
長いコンテキストモデリング能力は広く注目を集めており、超コンテキストウィンドウを持つLarge Language Models (LLMs) の出現につながっている。
拡張多文書質問応答(QA)によって現実的なシナリオに整合する新しい長文ベンチマークであるLoongを提案する。
Loong氏は、Spotlight Locating, Comparison, Clustering, Chain of Reasoningという、コンテキスト長の4つのタスクを紹介している。
論文 参考訳(メタデータ) (2024-06-25T09:42:56Z) - On the Hardness of Faithful Chain-of-Thought Reasoning in Large Language Models [25.029579061612456]
大規模言語モデル(LLM)は、医療などの重要な領域における現実世界のアプリケーションにますます採用されている。
これらのモデルによって生成されたCoT(Chain-of-Thought)推論が、その基盤となる振る舞いを忠実に捉えることが重要である。
論文 参考訳(メタデータ) (2024-06-15T13:16:44Z) - A RAG Method for Source Code Inquiry Tailored to Long-Context LLMs [0.0]
本研究では,ソースコードに関する質問に対して,実行トレースをRAGに組み込む手法を提案する。
小型実験により, LLM応答品質の向上に寄与する傾向が確認された。
論文 参考訳(メタデータ) (2024-04-09T07:40:37Z) - When does In-context Learning Fall Short and Why? A Study on
Specification-Heavy Tasks [54.71034943526973]
In-context Learning (ICL)は、大規模言語モデル(LLM)のデフォルトメソッドとなっている。
ICLは、複雑で広範囲なタスク仕様を持つタスクである、仕様の重いタスクを処理できないことが分かりました。
我々は、コンテキストを具体的に理解できないこと、タスクスキーマが人間と理解できないこと、長文理解が不十分であること、の3つの主な理由を識別する。
論文 参考訳(メタデータ) (2023-11-15T14:26:30Z) - LooGLE: Can Long-Context Language Models Understand Long Contexts? [46.143956498529796]
LooGLEは、大規模言語モデルの長いコンテキスト理解のためのベンチマークである。
2022年以降に比較的新しい文書が登場し、1ドキュメントあたり24,000以上のトークンと、さまざまな領域にまたがる6,000の新たな質問が提供されている。
LooGLEにおける8つの最先端LCMの評価から,重要な所見が得られた。
論文 参考訳(メタデータ) (2023-11-08T01:45:37Z) - L-Eval: Instituting Standardized Evaluation for Long Context Language
Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。
20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。
その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文 参考訳(メタデータ) (2023-07-20T17:59:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。