論文の概要: Taming the Centaur(s) with LAPITHS: a framework for a theoretically grounded interpretation of AI performances
- arxiv url: http://arxiv.org/abs/2604.27927v1
- Date: Thu, 30 Apr 2026 14:29:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:54.13643
- Title: Taming the Centaur(s) with LAPITHS: a framework for a theoretically grounded interpretation of AI performances
- Title(参考訳): LAPITHSによるCentaur(s)のモデリング--AIパフォーマンスの理論的基盤解釈のためのフレームワーク
- Authors: Matteo Da Pelo, Alessio Donvito, Claudio Frongia, Pietro Salis, Antonio Lieto,
- Abstract要約: LAPITHS(Language Model Analysis through Paradigm Grounded Interpretations of Theses about Human likenesS)というフレームワークを導入する。
我々は、CENTAURのようなモデルによって先導されたいくつかの主要な主張が、人工認知の統一モデルとして提案され、理論的または経験論的に正当化されていないことを示すためにこれを使用する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a framework called LAPITHS (Language model Analysis through Paradigm grounded Interpretations of Theses about Human likenesS) and use it to show that several major claims advanced by models such as CENTAUR, proposed as an artificial Unified Model of Cognition, are not theoretically or empirically justified. LAPITHS provides a principled reference point for counteracting the current behaviouristic tendency in AI research to interpret the human level performances of transformer based language models as evidence of human like underlying computation and, by extension, as signs of cognitive abilities. The novelty of LAPITHS lies in making explicit the arguments grounded in two quantitative assessments: (i) the Minimal Cognitive Grid, a theoretically motivated method for estimating the cognitive plausibility of artificial systems, and (ii) a behavioural comparison showing that results similar to those reported for CENTAUR like models can be reproduced by other systems that do not satisfy the structural constraints typically associated with cognitive plausibility, and whose outputs do not provide independent explanatory insight into human cognition.
- Abstract(参考訳): 我々はLAPITHS(Language model Analysis through Paradigm Grounded Interpretations of Theses about Human likenesS)というフレームワークを導入し、CENTAURなどのモデルによって先導されたいくつかの主要な主張が、人工認知モデルとして提案されているが、理論的または経験論的に正当化されていないことを示す。
LAPITHSは、AI研究における現在の行動主義的傾向に対抗して、トランスフォーマーベースの言語モデルの人間レベルのパフォーマンスを、基礎となる計算の証拠として解釈し、認知能力の兆候として拡張する、原則化された参照ポイントを提供する。
LAPITHSの新規性は、2つの定量的評価に基づく議論を明確にすることにある。
一 ミニマル認知グリッド、人工システムの認知的妥当性を推定するための理論的動機付けの方法、及び
(II)CENTAUR様モデルに類似した結果が、認知的妥当性に典型的な構造的制約を満たさない他のシステムによって再現され、そのアウトプットが人間の認知に独立した説明的洞察を与えない行動比較。
関連論文リスト
- The Universal Landscape of Human Reasoning [60.72403709545137]
情報フロー追跡(IF-Track)を導入し,情報エントロピーの定量化と,各推論ステップにおけるゲインの定量化を行う。
IF-Trackは,本質的な推論特徴を捉え,系統的な誤りパターンを識別し,個人差を特徴付ける。
このアプローチは理論と測定の間の定量的な橋渡しを確立し、推論のアーキテクチャに関する機械的な洞察を提供する。
論文 参考訳(メタデータ) (2025-10-24T16:26:36Z) - Modeling Open-World Cognition as On-Demand Synthesis of Probabilistic Models [93.1043186636177]
我々は、人々が分散表現と象徴表現の組み合わせを使って、新しい状況に合わせた見知らぬ精神モデルを構築するという仮説を探求する。
モデル合成アーキテクチャ」という概念の計算的実装を提案する。
我々は、新しい推論データセットに基づく人間の判断のモデルとして、MSAを評価した。
論文 参考訳(メタデータ) (2025-07-16T18:01:03Z) - Bhatt Conjectures: On Necessary-But-Not-Sufficient Benchmark Tautology for Human Like Reasoning [0.0]
Bhatt Conjecturesフレームワークは、AI推論と理解を評価するための厳密で階層的なベンチマークを導入している。
Agentreasoning-sdkは実践的な実装を示し、現在のAIモデルが複雑な推論タスクに苦労していることを明らかにする。
論文 参考訳(メタデータ) (2025-06-13T02:41:18Z) - I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data? [76.15163242945813]
大規模言語モデル (LLM) は、多くの人が知能の形式を示すと結論づけている。
本稿では,潜在離散変数として表現される人間解釈可能な概念に基づいてトークンを生成する新しい生成モデルを提案する。
論文 参考訳(メタデータ) (2025-03-12T01:21:17Z) - Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。
モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。
因果関係はこれらの課題を体系的に解決するための 理想的な枠組みを提供します
論文 参考訳(メタデータ) (2025-02-07T17:01:37Z) - On the Reasoning Capacity of AI Models and How to Quantify It [0.0]
大規模言語モデル(LLM)は、その推論能力の基本的な性質に関する議論を激化させている。
GPQAやMMLUのようなベンチマークで高い性能を達成する一方で、これらのモデルはより複雑な推論タスクにおいて制限を示す。
本稿では,モデル行動のメカニズムを解明するために,従来の精度指標を超える新しい現象論的手法を提案する。
論文 参考訳(メタデータ) (2025-01-23T16:58:18Z) - A Novel Neural-symbolic System under Statistical Relational Learning [47.30190559449236]
NSF-SRLと呼ばれる統計的関係学習に基づくニューラルシンボリック・フレームワークを提案する。
シンボリック推論の結果は、深層学習モデルによる予測の洗練と修正に利用され、深層学習モデルはシンボリック推論プロセスの効率を高める。
我々は、このアプローチがニューラルシンボリックシステムの新しい標準となり、汎用人工知能の分野における将来の研究を促進すると信じている。
論文 参考訳(メタデータ) (2023-09-16T09:15:37Z) - Learning a Structural Causal Model for Intuition Reasoning in
Conversation [20.243323155177766]
NLP研究の重要な側面である推論は、一般的なモデルによって適切に対処されていない。
我々は、各発話がどのように情報チャネルを受信し、活性化するかを説明する会話認知モデル(CCM)を開発した。
変分推論を利用することで、暗黙的な原因の代用を探索し、その観測不可能性の問題に対処し、証拠の低い境界を通して発話の因果表現を再構築する。
論文 参考訳(メタデータ) (2023-05-28T13:54:09Z) - Understanding Interpretability by generalized distillation in Supervised
Classification [3.5473853445215897]
最近の解釈戦略は、複雑な機械学習モデルの根底にある決定メカニズムの人間の理解に焦点を当てている。
本稿では,他のMLモデルと相対的に定義される解釈・蒸留式を提案する。
MNIST、Fashion-MNIST、Stanford40データセットに関する提案フレームワークの評価を行った。
論文 参考訳(メタデータ) (2020-12-05T17:42:50Z) - A Meta-Bayesian Model of Intentional Visual Search [0.0]
本稿では,分類的知覚とササード計画の根底にある神経機構のベイズ的解釈を取り入れたビジュアルサーチの計算モデルを提案する。
擬似行動と人的行動の有意義な比較を可能にするため、参加者は視線に追従する窓から隠蔽されたMNIST桁を分類する必要がある。
本モデルは,観察された人間の行動から主観的パラメータを回収し,高い解釈可能性を維持しながら,分類精度などの人間の行動指標を再カプセル化することができる。
論文 参考訳(メタデータ) (2020-06-05T16:10:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。