Fugu-MT 論文翻訳(概要): One Thousand and One Pairs: A "novel" challenge for long-context language models

論文の概要: One Thousand and One Pairs: A "novel" challenge for long-context language models

arxiv url: http://arxiv.org/abs/2406.16264v3
Date: Tue, 22 Oct 2024 15:09:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:34.04568
Title: One Thousand and One Pairs: A "novel" challenge for long-context language models
Title（参考訳）: One Thousand and One Pairs: 長文言語モデルにおける"ノーベル"な挑戦
Authors: Marzena Karpinska, Katherine Thai, Kyle Lo, Tanya Goyal, Mohit Iyyer,
Abstract要約: NoChaは、67冊の架空の書籍に関する1,001対の真偽の主張のデータセットである。当社のアノテータは、NoChaにおけるペアの最大シェアは、本全体に対するグローバルな推論を必要としていることを確認しています。平均的なモデルでは、文レベルの検索しか必要としないペアの方が、グローバルな推論よりもはるかに優れています。
参考スコア（独自算出の注目度）: 56.60667988954638
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Synthetic long-context LLM benchmarks (e.g., "needle-in-the-haystack") test only surface-level retrieval capabilities, but how well can long-context LLMs retrieve, synthesize, and reason over information across book-length inputs? We address this question by creating NoCha, a dataset of 1,001 minimally different pairs of true and false claims about 67 recently-published English fictional books, written by human readers of those books. In contrast to existing long-context benchmarks, our annotators confirm that the largest share of pairs in NoCha require global reasoning over the entire book to verify. Our experiments show that while human readers easily perform this task, it is enormously challenging for all ten long-context LLMs that we evaluate: no open-weight model performs above random chance (despite their strong performance on synthetic benchmarks), while GPT-4o achieves the highest accuracy at 55.8%. Further analysis reveals that (1) on average, models perform much better on pairs that require only sentence-level retrieval vs. global reasoning; (2) model-generated explanations for their decisions are often inaccurate even for correctly-labeled claims; and (3) models perform substantially worse on speculative fiction books that contain extensive world-building. The methodology proposed in NoCha allows for the evolution of the benchmark dataset and the easy analysis of future models.
Abstract（参考訳）: 合成長文LLMベンチマーク(例えば、"needle-in-the-haystack")は、表面レベルの検索機能のみをテストするが、長文LLMは、ブック長入力を介して情報を検索、合成、理性的にどの程度の精度で取得できるのか? 我々は、最近出版された67冊の英小説に関する1,001組の真実と虚偽の主張のデータセットであるNoChaを作成することで、この問題に対処する。既存の長期コンテキストベンチマークとは対照的に、私たちのアノテータは、NoChaにおけるペアの最大シェアは、本全体に対するグローバルな推論を必要としていることを確認しています。 GPT-4oは55.8%と高い精度で達成されているのに対し、オープンウェイトモデルでは(合成ベンチマークでの強い性能にもかかわらず)ランダムな確率以上は実行されない。さらに分析した結果,(1)文レベルの検索とグローバルな推論のみを必要とするペアにおいて,モデルがより優れていること,(2)正しいラベル付きクレームであっても,モデル生成による判断が不正確であること,(3)広範囲なワールドビルディングを含む推測的フィクションブックにおいて,モデルが著しく悪化すること,などが明らかになった。 NoChaで提案された方法論は、ベンチマークデータセットの進化と将来のモデルの容易な分析を可能にする。

関連論文リスト

SagaScale: A Realistic, Scalable, and High-Quality Long-Context Benchmark Built from Full-Length Novels [5.756472596983042]
SagaScaleは、フル長の小説から作られた、現実的でスケーラブルで高品質な長文のベンチマークである。このベンチマークは、外部リソース(例えばウィキペディアページ)を使用して質問と回答のペアをキュレートする自動データ収集パイプラインを使用して構築されている。
論文参考訳（メタデータ） (2025-12-27T12:19:55Z)
MORABLES: A Benchmark for Assessing Abstract Moral Reasoning in LLMs with Fables [50.29407048003165]
MORABLESは,歴史文献から引用されたファブレットと短編から構築された人間検証ベンチマークである。主なタスクは、道徳的推論をターゲットとした複数選択の質問として構成されており、モデルが浅く抽出された質問応答を超えるよう挑戦する注意深い注意を払っている。以上の結果から,より大きなモデルはより小さなモデルよりも優れているが,敵の操作に敏感であり,真の道徳的推論よりも表面的パターンに頼っていることが示唆された。
論文参考訳（メタデータ） (2025-09-15T19:06:10Z)
A Controllable Examination for Long-Context Language Models [62.845852724511964]
本研究では,長文言語モデルを評価するベンチマークである$textbfLongBioBenchを紹介する。その結果,ほとんどのモデルでは,検索結果に対する意味的理解や基礎的推論が不足していることが判明した。我々のさらなる分析は、文脈的非コヒーレンスなど、既存の合成ベンチマークで採用されているいくつかの設計選択を示している。
論文参考訳（メタデータ） (2025-06-03T14:23:06Z)
Too Long, Didn't Model: Decomposing LLM Long-Context Understanding With Novels [3.537369004801589]
Too Long, Didn't Modelベンチマークをリリースしました。プロットサマリー、ストーリーワールド構成、経過したストーリータイムを報告するモデルの能力をテストする。テストされた7つのフロンティアLSMのうち、64kトークン以上の安定な理解は得られていない。
論文参考訳（メタデータ） (2025-05-20T21:21:09Z)
CLIPPER: Compression enables long-context synthetic data generation [33.09577126461093]
ナラティブなクレーム検証に適した合成データを生成するための圧縮ベースのアプローチであるCLIPPERを紹介する。そこで本研究では,19万冊の合成本を,その原文とチェーン・オブ・シークレットの推論に組み合わせたデータセットを構築した。我々の最良のモデルは、物語的クレーム検証(テストセットで28%から76%の精度)におけるブレークスルー結果を達成し、サブ10Bモデルの新たな最先端モデルを設定します。
論文参考訳（メタデータ） (2025-02-20T18:58:03Z)
CNNSum: Exploring Long-Context Summarization with Large Language Models in Chinese Novels [11.614599448394374]
CNNSumは中国の小説に基づく長文要約のベンチマークである。 4つのサブセットは合計695個のサンプルを持ち、長さは16kから128kである。我々は、長文要約を探索し、改善するための実験を行う。
論文参考訳（メタデータ） (2024-12-03T20:35:57Z)
HELMET: How to Evaluate Long-Context Language Models Effectively and Thoroughly [34.205934899868346]
HELMETは7つの多様なアプリケーション中心のカテゴリを包含する総合ベンチマークである。 NIAHのような合成タスクは、下流のパフォーマンスの予測に適していないことが分かりました。ほとんどのLCLMは完全なNIAHスコアを達成しているが、タスクがフルコンテキスト推論を必要とする場合、オープンソースモデルはクローズドなスコアよりも大幅に遅れている。
論文参考訳（メタデータ） (2024-10-03T17:20:11Z)
WikiContradict: A Benchmark for Evaluating LLMs on Real-World Knowledge Conflicts from Wikipedia [59.96425443250666]
Retrieval-augmented Generation (RAG) は,大規模言語モデル(LLM)の限界を緩和する,有望なソリューションとして登場した。本研究では,ウィキペディアからの矛盾文に基づく質問に対するLLM生成回答の総合評価を行う。我々は、単一のパスを持つRAGと2つの矛盾するパスを持つRAGを含む、様々なQAシナリオ下で、クローズドおよびオープンソース両方のLSMをベンチマークする。
論文参考訳（メタデータ） (2024-06-19T20:13:42Z)
Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文参考訳（メタデータ） (2024-05-31T20:15:10Z)
Optimizing Language Model's Reasoning Abilities with Weak Supervision [48.60598455782159]
弱い教師付きベンチマークであるtextscPuzzleBen について,25,147 の複雑な質問,回答,人為的合理性からなる。データセットのユニークな側面は、10,000の未注釈の質問を含めることであり、LLMの推論能力を高めるために、より少ないスーパーサイズのデータを活用することができる。
論文参考訳（メタデータ） (2024-05-07T07:39:15Z)
Attribution in Scientific Literature: New Benchmark and Methods [41.64918533152914]
大規模言語モデル(LLM)は、科学的コミュニケーションにおいて、自動ソース引用のための有望だが挑戦的なフロンティアを提供する。本稿では、arXivから12の科学領域にまたがる文レベルのアノテーションを備えた新しいデータセットREASONSを紹介する。我々は、GPT-O1、GPT-4O、GPT-3.5、DeepSeekなどのモデルや、Perplexity AI (7B)のような他の小さなモデルで広範な実験を行う。
論文参考訳（メタデータ） (2024-05-03T16:38:51Z)
Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks [76.43527940649939]
大規模言語モデル(LLM)の長文理解を評価するベンチマークであるAda-LEvalを紹介する。 Ada-LEvalにはTSortとBestAnswerという2つの挑戦的なサブセットが含まれている。 Ada-LEvalを用いた4つの最先端クローズドソースAPIモデルと6つのオープンソースモデルを評価した。
論文参考訳（メタデータ） (2024-04-09T17:30:48Z)
Ranking Large Language Models without Ground Truth [24.751931637152524]
大規模言語モデル(LLM)の評価とランキングは,これらのモデルの普及に伴って重要な問題となっている。我々は、プロンプトのデータセットが与えられた場合、根拠となる真実や参照応答にアクセスせずにそれらをランク付けする、新しい視点を提供する。この考え方を繰り返し適用し、LLMをランク付けする2つの方法を提案する。
論文参考訳（メタデータ） (2024-02-21T00:49:43Z)
Investigating Data Contamination in Modern Benchmarks for Large Language Models [27.479260572913724]
近年の観測は、膨らませたベンチマークスコアとLLMの実際の性能の相違を裏付けている。我々は,オープンソースのLLMとプロプライエタリなLLMの両方に適した2つの手法を提案し,データ汚染について検討した。いくつかの商用LCMは、様々なテストセットに欠けているオプションを驚くほど推測できる。
論文参考訳（メタデータ） (2023-11-16T11:03:04Z)
MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning [63.80739044622555]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文参考訳（メタデータ） (2023-10-24T17:59:20Z)
BooookScore: A systematic exploration of book-length summarization in the era of LLMs [53.42917858142565]
我々は,識別されたエラータイプを一切含まない要約文の割合を計測する自動測度BooookScoreを開発した。 GPT-4 や 2 のようなクローズドソース LLM は,オープンソースモデルよりも BooookScore の高いサマリーを生成することがわかった。
論文参考訳（メタデータ） (2023-10-01T20:46:44Z)
COM2SENSE: A Commonsense Reasoning Benchmark with Complementary Sentences [21.11065466376105]
常識推論は人間にとって直感的であるが、人工知能(AI)の長期的な課題である。事前訓練された言語モデルの最近の進歩は、いくつかのCommonsenseベンチマークデータセットで有望な結果を示している。本稿では,自然言語真偽文からなる新しいコモンセンス推論ベンチマークデータセットを提案する。
論文参考訳（メタデータ） (2021-06-02T06:31:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。