論文の概要: Bhatt Conjectures: On Necessary-But-Not-Sufficient Benchmark Tautology for Human Like Reasoning
- arxiv url: http://arxiv.org/abs/2506.11423v1
- Date: Fri, 13 Jun 2025 02:41:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.63695
- Title: Bhatt Conjectures: On Necessary-But-Not-Sufficient Benchmark Tautology for Human Like Reasoning
- Title(参考訳): Bhatt Conjectures:人間のような推論のための必要最低限のベンチマークタウトロジーについて
- Authors: Manish Bhatt,
- Abstract要約: 推論モデル(LLMs/LRMs)が真の理由なのか、単にパターンマッチがゴールポストのシフトに悩まされているのか、議論する。
私の個人的な意見では、2つの分析的な「タウトロジー」が、私の精神モデルでその霧を切り抜けた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Debates about whether Large Language or Reasoning Models (LLMs/LRMs) truly reason or merely pattern-match suffer from shifting goal posts. In my personal opinion, two analytic--hence "tautological"--benchmarks cut through that fog in my mental model. In this paper, I attempt to write down my mental model in concrete terms.
- Abstract(参考訳): 大きな言語や推論モデル(LLMs/LRMs)が本当の理由なのか、単にパターンマッチがゴールポストのシフトに悩まされているのか、議論する。
私の個人的な意見では、2つの分析的な「タウトロジー」が、私の精神モデルでその霧を切り抜けた。
本稿では,具体的な言葉でメンタルモデルを記述しようと試みる。
関連論文リスト
- Accelerating Large Language Model Reasoning via Speculative Search [59.48276891032373]
本稿では,大規模言語モデル(LLM)推論を著しく高速化する新しいSpec Searchフレームワークを提案する。
具体的には、SpecSearchは小さなモデルを使用して、思考とトークンのレベルで大きなモデルと戦略的に協力する。
SpecSearchの主要な柱は、大きなモデルの出力よりも品質が低い考えを効果的にフィルタリングする、新しい品質保存の拒絶メカニズムである。
論文 参考訳(メタデータ) (2025-05-03T12:14:08Z) - FANToM: A Benchmark for Stress-testing Machine Theory of Mind in
Interactions [94.61530480991627]
現在、マインド評価の理論は、本質的に相互作用性に欠ける受動的物語を用いたテストモデルに焦点を当てている。
本稿では,情報非対称な会話文脈におけるToMのストレステストを目的とした新しいベンチマークであるFANToMを紹介する。
論文 参考訳(メタデータ) (2023-10-24T00:24:11Z) - Towards a Mechanistic Interpretation of Multi-Step Reasoning
Capabilities of Language Models [107.07851578154242]
言語モデル(LM)は強力な多段階推論能力を持つ。
LMが事前学習コーパスから記憶された回答を不正に処理するか,多段階推論機構を用いてタスクを実行するかは明らかでない。
メカニスティックプローブは,ほとんどの例において,モデルの注意から推論ツリーの情報を検出することができることを示す。
論文 参考訳(メタデータ) (2023-10-23T01:47:29Z) - MindGames: Targeting Theory of Mind in Large Language Models with
Dynamic Epistemic Modal Logic [0.6537995248511139]
心の理論(ToM)は知性の重要な構成要素であるが、その評価は熱い議論の対象のままである。
そこで本研究では,動的てんかん論理を利用して,ToMの特定の成分を分離し,制御された問題を生成する。
以上の結果から,いくつかの言語モデルスケーリングでは,ランダムな確率よりも連続的に結果が得られないことが示唆された。
論文 参考訳(メタデータ) (2023-05-05T08:14:48Z) - E-KAR: A Benchmark for Rationalizing Natural Language Analogical
Reasoning [36.133083454829055]
知識集約型推論ベンチマーク(E-KAR)を提案する。
私たちのベンチマークは、Civil Service Examsから得られた1,655(中国語)と1,251(英語)の問題で構成されています。
提案手法は,類推を記述すべきか否かを記述した自由文説明スキームを設計し,各質問や候補者の回答に対して手作業で注釈を付ける。
論文 参考訳(メタデータ) (2022-03-16T09:16:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。