論文の概要: SealQA: Raising the Bar for Reasoning in Search-Augmented Language Models
- arxiv url: http://arxiv.org/abs/2506.01062v2
- Date: Wed, 11 Jun 2025 22:00:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.296912
- Title: SealQA: Raising the Bar for Reasoning in Search-Augmented Language Models
- Title(参考訳): SealQA:検索強化言語モデルにおける推論バーのライジング
- Authors: Thinh Pham, Nguyen Nguyen, Pratibha Zunjare, Weiyuan Chen, Yu-Min Tseng, Tu Vu,
- Abstract要約: 本稿では,SEarch-Augmented Languageモデルを評価するための新しい課題ベンチマークであるSealQAを紹介する。
SealQAには、Seal-0、Seal-Hard、LongSealの3つのフレーバーがある。
DeepSeek-R1-671Bやo3-miniのような高度な推論モデルは、ノイズの多い検索結果に対して非常に脆弱であることがわかった。
- 参考スコア(独自算出の注目度): 7.549218139689746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce SealQA, a new challenge benchmark for evaluating SEarch-Augmented Language models on fact-seeking questions where web search yields conflicting, noisy, or unhelpful results. SealQA comes in three flavors: (1) Seal-0 (main) and (2) Seal-Hard, which assess factual accuracy and reasoning capabilities, with Seal-0 focusing on the most challenging questions where chat models (e.g., GPT-4.1) typically achieve near-zero accuracy; and (3) LongSeal, which extends SealQA to test long-context, multi-document reasoning in "needle-in-a-haystack" settings. Our evaluation reveals critical limitations in current models: Even frontier LLMs perform poorly across all SealQA flavors. On Seal-0, frontier agentic models equipped with tools like o3 and o4-mini achieve only 17.1% and 6.3% accuracy, respectively, at their best reasoning efforts. We find that advanced reasoning models such as DeepSeek-R1-671B and o3-mini are highly vulnerable to noisy search results. Notably, increasing test-time compute does not yield reliable gains across o3-mini, o4-mini, and o3, with performance often plateauing or even declining early. Additionally, while recent models are less affected by the "lost-in-the-middle" issue, they still fail to reliably identify relevant documents in LongSeal when faced with numerous distractors. To facilitate future work, we release SealQA at huggingface.co/datasets/vtllms/sealqa.
- Abstract(参考訳): SealQAはSEarch-Augmented Languageモデルを評価するための新しい課題ベンチマークである。
SealQAは、(1)Seal-0(main)と(2)Seal-Hardは、事実の精度と推論能力を評価し、Seal-0は、チャットモデル(例えば、GPT-4.1)が一般的にほぼゼロに近い精度を達成する最も難しい問題に焦点を当てている。
現在のモデルでは,フロンティアのLLMでさえ,すべてのSealQAフレーバーで性能が悪くなっている。
Seal-0では、o3やo4-miniのようなツールを備えたフロンティアエージェントモデルはそれぞれ17.1%と6.3%の精度しか達成していない。
DeepSeek-R1-671Bやo3-miniのような高度な推論モデルは、ノイズの多い検索結果に対して非常に脆弱であることがわかった。
特に、テストタイムの計算量が増加すると、o3-mini、o4-mini、o3にまたがる信頼性が向上しない。
さらに、最近のモデルは「中途半端な」問題の影響を受けていないが、多くの障害に直面した場合、LongSealの関連文書を確実に識別することができない。
今後の作業を容易にするため、face.co/datasets/vtllms/sealqa.comでSealQAをリリースします。
関連論文リスト
- Climbing the Ladder of Reasoning: What LLMs Can-and Still Can't-Solve after SFT? [59.418994222096885]
AIME24データセット上でモデル性能の詳細な解析を行う。
我々は質問を4段階(易、中、硬、極度硬)に分類する。
我々は,SFT-1Kインスタンスが最小限であるR1推論スタイルを採用する必要があることを見出した。
エクレベルの質問は、根本的に異なる課題を示します。
論文 参考訳(メタデータ) (2025-04-16T03:39:38Z) - DocPuzzle: A Process-Aware Benchmark for Evaluating Realistic Long-Context Reasoning Capabilities [39.68147391225923]
大規模言語モデル(LLM)における長文推論能力を評価するための厳格に構築されたベンチマークであるDocPuzzleを提案する。
このベンチマークは、長い実世界の文書に対して多段階の推論を必要とする100のエキスパートレベルのQA問題からなる。
本稿では,チェックリスト誘導プロセス分析による予測バイアスを軽減する,革新的な評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-25T03:29:53Z) - The Relationship Between Reasoning and Performance in Large Language Models -- o3 (mini) Thinks Harder, Not Longer [1.474723404975345]
我々はOmni-MATHベンチマークでo1-miniおよびo3-miniのチェーン長を解析した。
o3-mini (m) は, o1-mini よりも長い推論鎖を必要とすることなく, 精度が高いことがわかった。
この精度低下は、より熟練したモデルでは著しく小さく、新しい世代の推論モデルがテスト時間計算をより効果的に使用することを示唆している。
論文 参考訳(メタデータ) (2025-02-21T17:59:13Z) - Logic Meets Magic: LLMs Cracking Smart Contract Vulnerabilities [9.01567002530713]
本稿では,Solidity v0.8スマートコントラクト検出ソリューションの評価を行う。
適切に設計されたプロンプトは偽陽性率を60%以上削減できることを示す。
驚くべきことに、Solidity v0.8の特定の脆弱性を検出するリコールレートがわずか13%に低下していることもわかりました。
論文 参考訳(メタデータ) (2025-01-13T04:42:45Z) - Verbosity $\neq$ Veracity: Demystify Verbosity Compensation Behavior of Large Language Models [8.846200844870767]
大規模言語モデル(LLM)の好ましくない振る舞いの下位タイプを発見する。
我々はVerbosity Compensation (VC) を不確実性下での人間の鎮静行動と類似しているとしている。
本稿では, 冗長応答を他のモデル生成応答に置き換える, 単純で効果的なカスケードアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-12T15:15:20Z) - A Case Study of Web App Coding with OpenAI Reasoning Models [1.7268889851975326]
我々は,OpenAIの最新推論モデルであるo1-previewとo1-miniによるコーディングタスクのケーススタディを,他のフロンティアモデルと比較した。
o1モデルは、シングルタスクのベンチマークであるWebApp1Kに対して、SOTA結果を提供する。この結果、WebApp1K-Duoは、多くのタスクとテストケースを倍にする、より難しいベンチマークである。
論文 参考訳(メタデータ) (2024-09-19T06:58:02Z) - One Thousand and One Pairs: A "novel" challenge for long-context language models [56.60667988954638]
NoChaは、67冊の架空の書籍に関する1,001対の真偽の主張のデータセットである。
当社のアノテータは、NoChaにおけるペアの最大シェアは、本全体に対するグローバルな推論を必要としていることを確認しています。
平均的なモデルでは、文レベルの検索しか必要としないペアの方が、グローバルな推論よりもはるかに優れています。
論文 参考訳(メタデータ) (2024-06-24T02:03:57Z) - ANetQA: A Large-scale Benchmark for Fine-grained Compositional Reasoning
over Untrimmed Videos [120.80589215132322]
ANetQAは,ActivityNetの未トリミングビデオに対して,詳細な合成推論をサポートする大規模ベンチマークである。
ANetQAは140億のアンバランスと1340万のバランスの取れたQAペアを達成した。
最高のモデルでは44.5%の精度が達成され、人間のパフォーマンスは84.5%に上り、改善の余地は十分残っている。
論文 参考訳(メタデータ) (2023-05-04T03:04:59Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。