論文の概要: AbsenceBench: Language Models Can't Tell What's Missing
- arxiv url: http://arxiv.org/abs/2506.11440v1
- Date: Fri, 13 Jun 2025 03:38:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.644195
- Title: AbsenceBench: Language Models Can't Tell What's Missing
- Title(参考訳): AbsenceBench: 言語モデルでは何が欠けているのかが分からない
- Authors: Harvey Yiyun Fu, Aryan Shrivastava, Jared Moore, Peter West, Chenhao Tan, Ari Holtzman,
- Abstract要約: 我々はAbsenceBenchを導入し、大きな言語モデルの能力を評価し、不足した情報を検出する。
実験の結果,最先端モデルでもF1スコアは69.6%であり,平均コンテキスト長は5Kであることがわかった。
トランスフォーマーのアテンションメカニズムは、文書の「ギャップ」に簡単には対応できない。
- 参考スコア(独自算出の注目度): 35.43207485409651
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly capable of processing long inputs and locating specific information within them, as evidenced by their performance on the Needle in a Haystack (NIAH) test. However, while models excel at recalling surprising information, they still struggle to identify clearly omitted information. We introduce AbsenceBench to assesses LLMs' capacity to detect missing information across three domains: numerical sequences, poetry, and GitHub pull requests. AbsenceBench asks models to identify which pieces of a document were deliberately removed, given access to both the original and edited contexts. Despite the apparent straightforwardness of these tasks, our experiments reveal that even state-of-the-art models like Claude-3.7-Sonnet achieve only 69.6% F1-score with a modest average context length of 5K tokens. Our analysis suggests this poor performance stems from a fundamental limitation: Transformer attention mechanisms cannot easily attend to "gaps" in documents since these absences don't correspond to any specific keys that can be attended to. Overall, our results and analysis provide a case study of the close proximity of tasks where models are already superhuman (NIAH) and tasks where models breakdown unexpectedly (AbsenceBench).
- Abstract(参考訳): 大規模言語モデル(LLM)は、Haystack(NIAH)テストにおけるニードル(Needle)のパフォーマンスによって証明されるように、長い入力を処理し、その内部で特定の情報を見つける能力がますます高まっている。
しかし、モデルは驚くべき情報を思い出すのに優れていますが、明らかに省略された情報の特定には苦戦しています。
我々は、数値シーケンス、詩、GitHubプルリクエストという3つの領域にわたる行方不明情報を検知するLLMの能力を評価するために、AbsenceBenchを紹介した。
AbsenceBench氏は、オリジナルのコンテキストと編集されたコンテキストの両方にアクセスするため、ドキュメントのどの部分が故意に削除されたのかをモデルに尋ねる。
これらのタスクの明らかな単純さにもかかわらず、Claude-3.7-Sonnetのような最先端のモデルでさえ、わずか69.6%のF1スコアしか達成できず、平均コンテキスト長は5Kトークンである。
トランスフォーマーのアテンションメカニズムは、文書の"ギャップ"に簡単には対応できない。
全体として、我々の結果と分析は、モデルがすでに超人(NIAH)であるタスクと、モデルが予期せず崩壊するタスク(AbsenceBench)の近さに関するケーススタディを提供する。
関連論文リスト
- Erasing Without Remembering: Implicit Knowledge Forgetting in Large Language Models [70.78205685001168]
我々は,その一般化に着目して,大規模言語モデルにおける知識の忘れについて検討する。
UGBenchは、スコープ内暗黙の知識の未学習を評価するために特別に設計された最初のベンチマークである。
確率に基づく新しいアンラーニングパラダイムであるPerMUを提案する。
論文 参考訳(メタデータ) (2025-02-27T11:03:33Z) - Knowing When to Stop: Dynamic Context Cutoff for Large Language Models [5.800837821046764]
大規模言語モデル(LLM)は、クエリに応答するために必要な情報がコンテキスト内にローカライズされる場合、入力コンテキスト全体を無差別に処理する。
タスク関連情報を取得する際に, LLM が自己決定処理を行えるようなヒューマンインスピレーション付き手法である動的コンテキストカットオフを提案する。
論文 参考訳(メタデータ) (2025-02-03T03:38:29Z) - IdentifyMe: A Challenging Long-Context Mention Resolution Benchmark for LLMs [22.238377215355545]
IdentifyMeは、Multiple-choice question (MCQ)形式で提示された参照解決のための新しいベンチマークである。
我々は,最先端のサブ10Bオープンモデルとクローズドモデルとの顕著な性能差を観察する。
最も高いスコア付けモデルであるGPT-4oは81.9%の精度を実現し、最先端のLCMの強力な参照能力を強調している。
論文 参考訳(メタデータ) (2024-11-12T01:05:55Z) - AttributionBench: How Hard is Automatic Attribution Evaluation? [19.872081697282002]
AttributionBenchは、様々な既存の属性データセットからコンパイルされた包括的なベンチマークである。
実験の結果,微調整GPT-3.5でさえ,二項分類法で約80%のマクロF1しか達成できないことがわかった。
300以上のエラーケースの詳細な分析では、失敗の大部分は、ナンスされた情報を処理できないことに起因する。
論文 参考訳(メタデータ) (2024-02-23T04:23:33Z) - Look Before You Leap: A Universal Emergent Decomposition of Retrieval
Tasks in Language Models [58.57279229066477]
本研究では,言語モデル(LM)が様々な状況下での検索タスクをどのように解決するかを検討する。
ORIONは6つのドメインにまたがる構造化された検索タスクの集合である。
LMは内部的にモジュール方式で検索タスクを分解する。
論文 参考訳(メタデータ) (2023-12-13T18:36:43Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - On Context Utilization in Summarization with Large Language Models [83.84459732796302]
大きな言語モデル(LLM)は抽象的な要約タスクに優れ、流動的で関連する要約を提供する。
最近の進歩は、100kトークンを超える長期入力コンテキストを扱う能力を拡張している。
要約における文脈利用と位置バイアスに関する最初の総合的研究を行う。
論文 参考訳(メタデータ) (2023-10-16T16:45:12Z) - Fine-tuning and aligning question answering models for complex
information extraction tasks [0.8392546351624164]
質問応答(QA)や通過検索モデルのような抽出言語モデルは、クエリ結果が適切なコンテキスト文書の境界内で見つかることを保証します。
既存のドイツ語のQAモデルを微調整することで,複雑な言語的特徴の抽出タスクをカスタマイズする性能が向上することを示す。
評価基準を再現するために,Levenshtein 距離,F1-Score,Exact Match,ROUGE-L の組合せを推定した。
論文 参考訳(メタデータ) (2023-09-26T10:02:21Z) - When Can Models Learn From Explanations? A Formal Framework for
Understanding the Roles of Explanation Data [84.87772675171412]
個々のデータポイントの説明がモデリング性能を向上させる状況について検討する。
e-SNLI、TACRED、SemEvalの3つの既存のデータセットを使って説明します。
論文 参考訳(メタデータ) (2021-02-03T18:57:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。