Fugu-MT 論文翻訳(概要): DetectiveQA: Evaluating Long-Context Reasoning on Detective Novels

論文の概要: DetectiveQA: Evaluating Long-Context Reasoning on Detective Novels

arxiv url: http://arxiv.org/abs/2409.02465v1
Date: Wed, 4 Sep 2024 06:28:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-05 20:02:12.310818
Title: DetectiveQA: Evaluating Long-Context Reasoning on Detective Novels
Title（参考訳）: DetectiveQA: 小説の長文推論の評価
Authors: Zhe Xu, Jiasheng Ye, Xiangyang Liu, Tianxiang Sun, Xiaoran Liu, Qipeng Guo, Linlin Li, Qun Liu, Xuanjing Huang, Xipeng Qiu,
Abstract要約: 本稿では,100K以上の平均コンテキスト長を持つナラティブ推論ベンチマークであるTectiveQAを紹介する。探偵小説をデータソースとして使用し、様々な理由付け要素を自然に持っている。私たちは中国語で600の質問を手動で注釈付けし、文脈情報と質問の英語版も提供しました。
参考スコア（独自算出の注目度）: 89.51834016940153
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the rapid advancement of Large Language Models (LLMs), long-context information understanding and processing have become a hot topic in academia and industry. However, benchmarks for evaluating the ability of LLMs to handle long-context information do not seem to have kept pace with the development of LLMs. Despite the emergence of various long-context evaluation benchmarks, the types of capability assessed are still limited, without new capability dimensions. In this paper, we introduce DetectiveQA, a narrative reasoning benchmark featured with an average context length of over 100K tokens. DetectiveQA focuses on evaluating the long-context reasoning ability of LLMs, which not only requires a full understanding of context but also requires extracting important evidences from the context and reasoning according to extracted evidences to answer the given questions. This is a new dimension of capability evaluation, which is more in line with the current intelligence level of LLMs. We use detective novels as data sources, which naturally have various reasoning elements. Finally, we manually annotated 600 questions in Chinese and then also provided an English edition of the context information and questions. We evaluate many long-context LLMs on DetectiveQA, including commercial and open-sourced models, and the results indicate that existing long-context LLMs still require significant advancements to effectively process true long-context dependency questions.
Abstract（参考訳）: LLM(Large Language Models)の急速な進歩に伴い、学術や産業において、長期のコンテキスト情報理解と処理がホットな話題となっている。しかし、LLMの長文情報処理能力を評価するためのベンチマークでは、LLMの開発に追随するペースは保たなかったようである。様々な長期コンテキスト評価ベンチマークの出現にもかかわらず、評価された能力のタイプは、新しい機能ディメンションなしでは制限されている。本稿では,100K以上の平均コンテキスト長を持つ物語推論ベンチマークであるTreativeQAを紹介する。 DetectiveQAは、LLMの長期文脈推論能力の評価に重点を置いている。これは、文脈の完全な理解を必要とするだけでなく、与えられた質問に答えるために、抽出された証拠に従って文脈と推論から重要な証拠を抽出する必要がある。これは能力評価の新しい次元であり、現在のLLMのインテリジェンスレベルとより一致している。探偵小説をデータソースとして使用し、様々な理由付け要素を自然に持っている。最後に、中国語で600の質問を手動で注釈付けし、文脈情報と質問の英語版も提供した。我々は、商用およびオープンソースモデルを含む、DectiveQA上の多くの長文LLMを評価し、その結果、既存の長文LLMは、真の長文依存質問を効果的に処理するために、依然としてかなりの進歩を必要としていることを示す。

関連論文リスト

LC-Eval: A Bilingual Multi-Task Evaluation Benchmark for Long-Context Understanding [0.4837072536850575]
英語とアラビア語の長文理解を評価するために設計されたバイリンガル・マルチタスク評価ベンチマークである textbfLC-Eval を提案する。このベンチマークには、各タスクのアラビア語と英語の両方のデータセットが含まれており、異なるテキストジャンルにわたるパフォーマンスの比較分析を可能にする。
論文参考訳（メタデータ） (2025-10-19T10:15:42Z)
LongReasonArena: A Long Reasoning Benchmark for Large Language Models [94.58086553970101]
LongReasonArenaは、Long Language Models (LLMs)のロング推論能力を評価するために設計されたベンチマークである。入力を制御することで、必要な推論長を任意にスケールでき、最も困難なタスクに対して最大100万の推論トークンに達する。
論文参考訳（メタデータ） (2025-08-26T18:41:53Z)
Chain-of-Thought Matters: Improving Long-Context Language Models with Reasoning Path Supervision [40.63870977649693]
Chain-of-Thoughtプロンプトは、多段階推論を約束するが、長文シナリオの有効性は未検討のままである。本稿では,LongRePSを提案する。LongRePSは,長いコンテキスト性能を向上させるための高品質な推論経路をモデルに教えるフレームワークである。本フレームワークには,推論パスをブートストラップする自己サンプリング機構と,長期シナリオ用に設計された新しい品質評価プロトコルが組み込まれている。
論文参考訳（メタデータ） (2025-02-28T07:15:12Z)
LongReason: A Synthetic Long-Context Reasoning Benchmark via Context Expansion [20.293369733522983]
LongReasonは、大規模言語モデルの長文推論能力を評価するための総合ベンチマークである。 LongReasonは、3つのタスクカテゴリにまたがる多様な推論パターンを持つ794の多重選択推論質問で構成されている。 LLMをLongReason上で評価した結果,コンテキスト長の増加に伴い,ほとんどのモデルが大幅な性能低下を経験していることが判明した。
論文参考訳（メタデータ） (2025-01-25T05:32:14Z)
Reducing Distraction in Long-Context Language Models by Focused Learning [6.803882766744194]
本稿では,大規模言語モデルの関連情報を識別する能力を高める新しい学習手法を提案する。長いコンテキストで微調整を行う際、最も関連性の高いセグメントを抽出するために検索器を用いる。次に、元のコンテキストと検索したサブコンテキストからの出力が密接に一致していることを明確にするために、補助的なコントラスト学習対象を導入する。
論文参考訳（メタデータ） (2024-11-08T19:27:42Z)
Needle Threading: Can LLMs Follow Threads through Near-Million-Scale Haystacks? [36.83397306207386]
我々は17大言語モデル(LLM)の能力を評価する。興味深いことに、多くのモデルは驚くほどスレッドセーフで、パフォーマンスに大きな損失を被ることなく、同時に複数のスレッドをフォローできる。有効なコンテキスト制限はサポート対象のコンテキスト長よりも大幅に短く,コンテキストウィンドウが大きくなるにつれて精度が低下することがわかった。
論文参考訳（メタデータ） (2024-11-07T18:59:27Z)
Rethinking Visual Dependency in Long-Context Reasoning for Large Vision-Language Models [62.698520962933195]
LVLM(Large Vision-Language Models)は、クロスモデルタスクでは優れているが、長文推論ではパフォーマンスが低下する。そこで本研究では,重要でないテキスト情報を選択的に除去する,学習不要なコンテキストプルーニング手法を提案する。
論文参考訳（メタデータ） (2024-10-25T17:59:09Z)
ALR$^2$: A Retrieve-then-Reason Framework for Long-context Question Answering [42.146660039671076]
我々は,大規模言語モデル(LLM)のための検索・推論フレームワークを開発した。現代のLLMは、関連した事実を正確に回収するのに苦労し、代わりにしばしば「検索された事実」を幻覚させる。本稿では,LLMの長文推論能力を明示的な2段階手順で拡張する手法であるALR$2$を紹介する。
論文参考訳（メタデータ） (2024-10-04T08:29:12Z)
A Controlled Study on Long Context Extension and Generalization in LLMs [85.4758128256142]
広義のテキスト理解とテキスト内学習は、完全な文書コンテキストを利用する言語モデルを必要とする。長期コンテキストモデルを直接訓練する際の実装上の課題のため、長期コンテキストを扱うためにモデルを拡張する多くの方法が提案されている。我々は,一貫したベースモデルと拡張データを利用して,標準化された評価による拡張メソッドの制御プロトコルを実装した。
論文参考訳（メタデータ） (2024-09-18T17:53:17Z)
NeedleBench: Can LLMs Do Retrieval and Reasoning in 1 Million Context Window? [37.64593022203498]
NeedleBenchは、バイリンガルの長期コンテキスト能力を評価するための、徐々に難しいタスクからなるフレームワークである。私たちはこのフレームワークを使って、主要なオープンソースモデルがその疑問に関連する重要な情報をどの程度正確に特定できるかを評価する。本稿では,実世界の長文タスクに現れる可能性の高い論理的推論課題の複雑さを模倣するAncestral Trace Challengeを提案する。
論文参考訳（メタデータ） (2024-07-16T17:59:06Z)
Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA [71.04146366608904]
長いコンテキストモデリング能力は広く注目を集めており、超コンテキストウィンドウを持つLarge Language Models (LLMs) の出現につながっている。拡張多文書質問応答(QA)によって現実的なシナリオに整合する新しい長文ベンチマークであるLoongを提案する。 Loong氏は、Spotlight Locating, Comparison, Clustering, Chain of Reasoningという、コンテキスト長の4つのタスクを紹介している。
論文参考訳（メタデータ） (2024-06-25T09:42:56Z)
Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks [76.43527940649939]
大規模言語モデル(LLM)の長文理解を評価するベンチマークであるAda-LEvalを紹介する。 Ada-LEvalにはTSortとBestAnswerという2つの挑戦的なサブセットが含まれている。 Ada-LEvalを用いた4つの最先端クローズドソースAPIモデルと6つのオープンソースモデルを評価した。
論文参考訳（メタデータ） (2024-04-09T17:30:48Z)
NovelQA: Benchmarking Question Answering on Documents Exceeding 200K Tokens [63.7488938083696]
NovelQAは拡張テキストによる大規模言語モデルの能力をテストするために設計されたベンチマークである。本稿では,ノベルQAの設計と構築について述べる。 NovelQAにおけるLong-context LLMの評価により,モデルの性能に関する重要な知見が得られた。
論文参考訳（メタデータ） (2024-03-18T17:32:32Z)
LooGLE: Can Long-Context Language Models Understand Long Contexts? [46.143956498529796]
LooGLEは、大規模言語モデルの長いコンテキスト理解のためのベンチマークである。 2022年以降に比較的新しい文書が登場し、1ドキュメントあたり24,000以上のトークンと、さまざまな領域にまたがる6,000の新たな質問が提供されている。 LooGLEにおける8つの最先端LCMの評価から,重要な所見が得られた。
論文参考訳（メタデータ） (2023-11-08T01:45:37Z)
L-Eval: Instituting Standardized Evaluation for Long Context Language Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。 20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文参考訳（メタデータ） (2023-07-20T17:59:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。