論文の概要: Evaluating Reasoning Models for Queries with Presuppositions
- arxiv url: http://arxiv.org/abs/2605.03050v1
- Date: Mon, 04 May 2026 18:15:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.592103
- Title: Evaluating Reasoning Models for Queries with Presuppositions
- Title(参考訳): 前提条件付きクエリの推論モデルの評価
- Authors: Rose Sathyanathan, Kinshuk Vasisht, Danish Pruthi,
- Abstract要約: 我々は,大きな推論モデル(LRM)が基礎となる仮定を推論し,適切なユーザクエリに応答できるかどうかを評価する。
我々は、健康、科学、一般知識にまたがる様々な前提条件のクエリを構築した。
推論モデルは精度がわずかに高い(2-11%)が、偽の前提命題の大多数 (26-42%) に挑戦することができない。
- 参考スコア(独自算出の注目度): 13.688612326499117
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Millions of users turn to AI models for their information needs. It is conceivable that a large number of user queries contain assumptions that may be factually inaccurate. Prior work notes that large language models (LLMs) often fail to challenge such erroneous assumptions, and can reinforce users' misinformed opinions. However, given the recent advances, especially in model's reasoning capabilities, we revisit whether large reasoning models (LRMs) can reason about the underlying assumptions and respond to user queries appropriately. We construct queries with varying degrees of presuppositions spanning health, science, and general knowledge, and use it to evaluate several widely-deployed models When compared to non-reasoning models, we find that reasoning models achieve a slightly higher accuracy (2-11%), but they still fail to challenge a large fraction (26-42%) of false presuppositions. Further, reasoning models remain susceptible to how strongly the presupposition is expressed.
- Abstract(参考訳): 何百万というユーザーが、情報のニーズに応じてAIモデルに目を向ける。
多数のユーザクエリには、事実的に不正確な仮定が含まれていると考えられる。
以前の研究によると、大きな言語モデル(LLM)は、しばしばそのような誤った仮定に挑戦せず、ユーザの誤った意見を強化することができる。
しかし、最近の進歩、特にモデルの推論能力を考えると、大きな推論モデル(LRM)が基礎となる仮定を推論し、適切なユーザクエリに応答できるかどうかを再考する。
我々は、健康、科学、一般知識にまたがる様々な前提条件のクエリを構築し、それを複数の広く展開されたモデルを評価するために使用する。非推論モデルと比較すると、推論モデルはわずかに高い精度(2-11%)を達成できるが、それでも、偽の前提条件のかなりの割合(26-42%)に挑戦することができない。
さらに、推論モデルは、前提がどれだけ強く表現されるかに影響を受けやすいままである。
関連論文リスト
- TopBench: A Benchmark for Implicit Prediction and Reasoning over Tabular Question Answering [80.93487993878836]
現実世界のクエリの一般的なクラスは暗黙的に予測され、単に検索するのではなく、歴史的パターンから観測されていない回答を推測する必要がある。
これらのクエリには、潜在意図を認識することと、大規模テーブル上での信頼性の高い予測推論という2つの課題がある。
単点予測から意思決定,処理効果分析,複雑な推論に至るまで,4つのサブタスクにわたる779のサンプルからなるベンチマークであるTopBenchを紹介する。
論文 参考訳(メタデータ) (2026-04-30T16:22:51Z) - To Think or Not To Think, That is The Question for Large Reasoning Models in Theory of Mind Tasks [56.11584171938381]
心の理論 (ToM) は、モデルが信念、欲望、意図などの隠された精神状態を推測できるかどうかを評価する。
近年のLRM(Large Reasoning Models)の進歩により、数学やコーディングにおけるステップバイステップ推論が向上している。
本研究では,9つの大規模言語モデル(LLM)の体系的研究を行い,推論モデルと非推論モデルを比較した。
論文 参考訳(メタデータ) (2026-02-11T08:16:13Z) - From Black-box to Causal-box: Towards Building More Interpretable Models [57.23201263629627]
本稿では, 因果解釈可能性の概念を導入し, 特定のモデルのクラスから対実的クエリを評価できるときの形式化について述べる。
我々は、与えられたモデルアーキテクチャが与えられた偽物クエリをサポートするかどうかを決定する完全なグラフィカルな基準を導出する。
論文 参考訳(メタデータ) (2025-10-24T20:03:18Z) - Generics and Default Reasoning in Large Language Models [0.0]
本稿では,28の大規模言語モデルにおいて,汎用化を含む20の不可能な推論パターンを推論する能力について検討する。
いくつかのフロンティアモデルが多くのデフォルト推論問題をうまく処理しているのに対して、性能はモデルによって大きく異なり、スタイルが促される。
論文 参考訳(メタデータ) (2025-08-19T10:28:53Z) - Reasoning about Uncertainty: Do Reasoning Models Know When They Don't Know? [7.423494663010787]
推論言語モデルは、多くの挑戦的なベンチマークで最先端(SOTA)レコードを設定している。
従来の言語モデルと同様に、推論モデルは不正確で確実な応答を生成する傾向があります。
これらのモデルをいつ、どの程度信頼するかを知ることは、現実のアプリケーションにおける推論モデルの安全なデプロイに不可欠である。
論文 参考訳(メタデータ) (2025-06-22T21:46:42Z) - Surface Fairness, Deep Bias: A Comparative Study of Bias in Language Models [45.41676783204022]
大規模言語モデル(LLM)におけるバイアスの様々なプロキシ尺度について検討する。
MMLU (Multi-subject benchmark) を用いた人格評価モデルでは, スコアの無作為かつ大半がランダムな差が生じることがわかった。
LLMアシスタントメモリとパーソナライゼーションの最近の傾向により、これらの問題は異なる角度から開かれている。
論文 参考訳(メタデータ) (2025-06-12T08:47:40Z) - Large Language Models Must Be Taught to Know What They Don't Know [97.90008709512921]
正解と誤解の小さなデータセットを微調整すると、高い一般化と計算オーバーヘッドの少ない不確実性推定が得られることを示す。
また,確実な不確実性推定を可能にする機構についても検討し,多くのモデルを汎用的不確実性推定器として利用することができることを示した。
論文 参考訳(メタデータ) (2024-06-12T16:41:31Z) - Getting MoRE out of Mixture of Language Model Reasoning Experts [71.61176122960464]
多様な特殊言語モデルを組み込んだMixture-of-Reasoning-Experts (MoRE) フレームワークを提案する。
実例,マルチホップ,数学的,コモンセンス推論など,さまざまな推論カテゴリに最適化されたプロンプトを備えたバックボーン言語モデルを特化する。
人間の研究では、専門家による予測と回答の選択プロセスが、アノテータがシステムの出力を信頼するタイミングをより正確に調整するのに役立ちます。
論文 参考訳(メタデータ) (2023-05-24T02:00:51Z) - Roses Are Red, Violets Are Blue... but Should Vqa Expect Them To? [0.0]
ドメイン内精度を総合的に測定する標準評価基準は誤解を招くものであると論じる。
これらの問題を克服するためのGQA-OODベンチマークを提案する。
論文 参考訳(メタデータ) (2020-06-09T08:50:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。