論文の概要: Bhatt Conjectures: On Necessary-But-Not-Sufficient Benchmark Tautology for Human Like Reasoning
- arxiv url: http://arxiv.org/abs/2506.11423v2
- Date: Mon, 16 Jun 2025 01:10:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 13:01:17.497532
- Title: Bhatt Conjectures: On Necessary-But-Not-Sufficient Benchmark Tautology for Human Like Reasoning
- Title(参考訳): Bhatt Conjectures:人間のような推論のための必要最低限のベンチマークタウトロジーについて
- Authors: Manish Bhatt,
- Abstract要約: 大きな言語や推論モデル(LLMs/LRMs)が本当の理由なのか、単にパターンマッチがゴールポストのシフトに悩まされているのか、議論する。
という2つの分析--私の精神モデルでその霧を切り抜けたベンチマーク。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Debates about whether Large Language or Reasoning Models (LLMs/LRMs) truly reason or merely pattern-match suffer from shifting goal posts. Two analytic--hence "tautological"--benchmarks cut through that fog in my mental model. https://github.com/mbhatt1/agentreasoning-sdk
- Abstract(参考訳): 大きな言語や推論モデル(LLMs/LRMs)が本当の理由なのか、単にパターンマッチがゴールポストのシフトに悩まされているのか、議論する。
という2つの分析--私の精神モデルでその霧を切り抜けたベンチマーク。
https://github.com/mbhatt1/agentreasoning-sdk
関連論文リスト
- Two Experts Are All You Need for Steering Thinking: Reinforcing Cognitive Effort in MoE Reasoning Models Without Additional Training [86.70255651945602]
我々はReinforcecing Cognitive Experts(RICE)と呼ばれる新しい推論時ステアリング手法を導入する。
RICEは、追加のトレーニングや複雑化なしに推論のパフォーマンスを改善することを目的としている。
先行する MoE ベースの LRM を用いた経験的評価は、推論精度、認知効率、ドメイン間の一般化において顕著で一貫した改善を示す。
論文 参考訳(メタデータ) (2025-05-20T17:59:16Z) - Accelerating Large Language Model Reasoning via Speculative Search [59.48276891032373]
本稿では,大規模言語モデル(LLM)推論を著しく高速化する新しいSpec Searchフレームワークを提案する。
具体的には、SpecSearchは小さなモデルを使用して、思考とトークンのレベルで大きなモデルと戦略的に協力する。
SpecSearchの主要な柱は、大きなモデルの出力よりも品質が低い考えを効果的にフィルタリングする、新しい品質保存の拒絶メカニズムである。
論文 参考訳(メタデータ) (2025-05-03T12:14:08Z) - AGITB: A Signal-Level Benchmark for Evaluating Artificial General Intelligence [0.0]
既存の評価フレームワークは、その中核にある一般性を捉えることができず、ガイダンスを提供していない。
汎用人工知能テストベッド(AGITB)は、12の完全自動化可能なテストからなる、新しく自由に利用可能なベンチマークスイートである。
AGITBは、事前訓練、シンボル操作、セマンティックグラウンドをせずに、時間的シーケンスを予測するモデルを必要とする。
論文 参考訳(メタデータ) (2025-04-06T10:01:15Z) - Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。
モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。
因果関係はこれらの課題を体系的に解決するための 理想的な枠組みを提供します
論文 参考訳(メタデータ) (2025-02-07T17:01:37Z) - BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning [78.63421517563056]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な機能を示した。
本稿では,新しいグラフィカルモデルを用いてLLM推論を定式化する統一確率的フレームワークを提案する。
本稿では,Bootstrapping Reinforced Thinking Process (BRiTE)アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2025-01-31T02:39:07Z) - Exposing Assumptions in AI Benchmarks through Cognitive Modelling [0.0]
文化AIベンチマークは、しばしば測定された構成物に関する暗黙の仮定に頼っており、不適切で明確な相互関係を持つ曖昧な定式化に繋がる。
構造方程式モデルとして定式化された明示的認知モデルを用いて,これらの仮定を明らかにする。
論文 参考訳(メタデータ) (2024-09-25T11:55:02Z) - Towards a Unified Framework for Evaluating Explanations [0.6138671548064356]
我々は、モデルと利害関係者の間の仲介者として、本質的に解釈可能なモデルであれ、不透明なブラックボックスモデルであれ、説明が役立ちます。
本稿では,学習者の行動を予測するための解釈可能なニューラルネットワークの例を用いて,これらの基準と具体的な評価手法について述べる。
論文 参考訳(メタデータ) (2024-05-22T21:49:28Z) - FANToM: A Benchmark for Stress-testing Machine Theory of Mind in
Interactions [94.61530480991627]
現在、マインド評価の理論は、本質的に相互作用性に欠ける受動的物語を用いたテストモデルに焦点を当てている。
本稿では,情報非対称な会話文脈におけるToMのストレステストを目的とした新しいベンチマークであるFANToMを紹介する。
論文 参考訳(メタデータ) (2023-10-24T00:24:11Z) - Towards a Mechanistic Interpretation of Multi-Step Reasoning
Capabilities of Language Models [107.07851578154242]
言語モデル(LM)は強力な多段階推論能力を持つ。
LMが事前学習コーパスから記憶された回答を不正に処理するか,多段階推論機構を用いてタスクを実行するかは明らかでない。
メカニスティックプローブは,ほとんどの例において,モデルの注意から推論ツリーの情報を検出することができることを示す。
論文 参考訳(メタデータ) (2023-10-23T01:47:29Z) - Pseudointelligence: A Unifying Framework for Language Model Evaluation [14.95543156914676]
本稿では,モデルと学習評価器の動的相互作用として,モデル評価キャストの複雑性理論フレームワークを提案する。
このフレームワークは,言語モデル評価における2つのケーススタディを推論し,既存の評価手法を解析するために利用できることを示す。
論文 参考訳(メタデータ) (2023-10-18T17:48:05Z) - MindGames: Targeting Theory of Mind in Large Language Models with
Dynamic Epistemic Modal Logic [0.6537995248511139]
心の理論(ToM)は知性の重要な構成要素であるが、その評価は熱い議論の対象のままである。
そこで本研究では,動的てんかん論理を利用して,ToMの特定の成分を分離し,制御された問題を生成する。
以上の結果から,いくつかの言語モデルスケーリングでは,ランダムな確率よりも連続的に結果が得られないことが示唆された。
論文 参考訳(メタデータ) (2023-05-05T08:14:48Z) - Neural Causal Models for Counterfactual Identification and Estimation [62.30444687707919]
本稿では,ニューラルモデルによる反事実文の評価について検討する。
まず、神経因果モデル(NCM)が十分に表現可能であることを示す。
第2に,反事実分布の同時同定と推定を行うアルゴリズムを開発する。
論文 参考訳(メタデータ) (2022-09-30T18:29:09Z) - Logical Satisfiability of Counterfactuals for Faithful Explanations in
NLI [60.142926537264714]
本稿では, 忠実度スルー・カウンタファクトの方法論について紹介する。
これは、説明に表される論理述語に基づいて、反実仮説を生成する。
そして、そのモデルが表現された論理と反ファクトの予測が一致しているかどうかを評価する。
論文 参考訳(メタデータ) (2022-05-25T03:40:59Z) - E-KAR: A Benchmark for Rationalizing Natural Language Analogical
Reasoning [36.133083454829055]
知識集約型推論ベンチマーク(E-KAR)を提案する。
私たちのベンチマークは、Civil Service Examsから得られた1,655(中国語)と1,251(英語)の問題で構成されています。
提案手法は,類推を記述すべきか否かを記述した自由文説明スキームを設計し,各質問や候補者の回答に対して手作業で注釈を付ける。
論文 参考訳(メタデータ) (2022-03-16T09:16:38Z) - When Stability meets Sufficiency: Informative Explanations that do not Overwhelm [15.897648942908747]
入力の分類を正当化するためには、何が最小限に必要かを強調する特徴に基づく属性法を考える。
最小限の充足性は理解性に類似した魅力的な性質であるが、結果として生じる説明は、人間がモデルの局所的な振る舞いを理解して評価するには不十分であることが多い。
本稿では,与えられた入力に対して,安定かつ十分な説明のシーケンスを出力するPSEM(Path-Sufficient Explanations Method)を提案する。
論文 参考訳(メタデータ) (2021-09-13T16:06:10Z) - A Diagnostic Study of Explainability Techniques for Text Classification [52.879658637466605]
既存の説明可能性技術を評価するための診断特性のリストを作成する。
そこで本研究では, モデルの性能と有理性との整合性の関係を明らかにするために, 説明可能性手法によって割り当てられた有理性スコアと有理性入力領域の人間のアノテーションを比較した。
論文 参考訳(メタデータ) (2020-09-25T12:01:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。