論文の概要: TCEval: Using Thermal Comfort to Assess Cognitive and Perceptual Abilities of AI
- arxiv url: http://arxiv.org/abs/2512.23217v1
- Date: Mon, 29 Dec 2025 05:41:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.413344
- Title: TCEval: Using Thermal Comfort to Assess Cognitive and Perceptual Abilities of AI
- Title(参考訳): TCEval:AIの認知能力と知覚能力を評価するための熱的快適性
- Authors: Jingming Li,
- Abstract要約: 熱的快適さは、AIシステムの現実の認知能力を評価するための理想的なパラダイムである。
我々は、AIの3つのコア認知能力を評価する最初の評価フレームワークであるTCEvalを提案する。
- 参考スコア(独自算出の注目度): 0.5366500153474746
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: A critical gap exists in LLM task-specific benchmarks. Thermal comfort, a sophisticated interplay of environmental factors and personal perceptions involving sensory integration and adaptive decision-making, serves as an ideal paradigm for evaluating real-world cognitive capabilities of AI systems. To address this, we propose TCEval, the first evaluation framework that assesses three core cognitive capacities of AI, cross-modal reasoning, causal association, and adaptive decision-making, by leveraging thermal comfort scenarios and large language model (LLM) agents. The methodology involves initializing LLM agents with virtual personality attributes, guiding them to generate clothing insulation selections and thermal comfort feedback, and validating outputs against the ASHRAE Global Database and Chinese Thermal Comfort Database. Experiments on four LLMs show that while agent feedback has limited exact alignment with humans, directional consistency improves significantly with a 1 PMV tolerance. Statistical tests reveal that LLM-generated PMV distributions diverge markedly from human data, and agents perform near-randomly in discrete thermal comfort classification. These results confirm the feasibility of TCEval as an ecologically valid Cognitive Turing Test for AI, demonstrating that current LLMs possess foundational cross-modal reasoning ability but lack precise causal understanding of the nonlinear relationships between variables in thermal comfort. TCEval complements traditional benchmarks, shifting AI evaluation focus from abstract task proficiency to embodied, context-aware perception and decision-making, offering valuable insights for advancing AI in human-centric applications like smart buildings.
- Abstract(参考訳): LLMタスク固有のベンチマークには重要なギャップがある。
感性統合と適応的な意思決定を含む、環境要因と個人の知覚の洗練された相互作用である熱快適は、AIシステムの現実的な認知能力を評価するための理想的なパラダイムである。
そこで本研究では,AI,クロスモーダル推論,因果関係,適応的意思決定の3つのコア認知能力を評価する最初の評価フレームワークであるTCEvalを提案する。
本手法は,LDMエージェントを仮想的性格特性で初期化し,衣服の断熱選択と熱的快適性フィードバックを誘導し,ASHRAEグローバルデータベースと中国熱快適データベースに対して出力を検証する。
4つのLCM実験では、エージェントフィードバックは人間との正確な整合性に制限されているものの、方向整合性は1 PMV耐性で著しく改善されている。
統計的検査の結果, LLM 生成した PMV 分布は人体データと大きく異なっており, エージェントは個別の熱的快適度分類においてほぼランダムに作用することがわかった。
これらの結果は、現在のLLMが基本的な相互モーダル推論能力を持っているが、熱的快適性における変数間の非線形関係の正確な因果的理解が欠如していることを示し、生態学的に有効なAIの認知的チューリングテストとしてのTCEvalの有効性を確認した。
TCEvalは従来のベンチマークを補完し、AI評価の焦点を抽象的なタスク習熟度から具体化されたコンテキスト認識と意思決定にシフトし、スマートビルディングのような人間中心のアプリケーションでAIを前進させるための貴重な洞察を提供する。
関連論文リスト
- SelfAI: Building a Self-Training AI System with LLM Agents [79.10991818561907]
SelfAIは、高レベルの研究目的を標準化された実験構成に変換するためのUser Agentを組み合わせた、一般的なマルチエージェントプラットフォームである。
実験マネージャは、連続的なフィードバックのための構造化知識ベースを維持しながら、異種ハードウェアをまたいだ並列かつフォールトトレラントなトレーニングを編成する。
回帰、コンピュータビジョン、科学計算、医用画像、薬物発見ベンチマークなどを通じて、SelfAIは一貫して高いパフォーマンスを達成し、冗長な試行を減らしている。
論文 参考訳(メタデータ) (2025-11-29T09:18:39Z) - Smart but Costly? Benchmarking LLMs on Functional Accuracy and Energy Efficiency [5.771786260272727]
我々は、エネルギー効率と機能的正当性の統一的なスケールでコード言語モデルのベンチマークを行うためのフレームワークBRACEを提案する。
同心性漸進的レーティングサークル(CIRC)と予測レーティング(OTER)の2つの評価手法を提案する。
我々の分析では、文法ベースで構文的に正しい出力を生成するように強制されないため、コード要約タスクにおいて、一般的にモデルの性能が向上することを明らかにした。
論文 参考訳(メタデータ) (2025-11-10T23:44:48Z) - Agentic AI Reasoning for Mobile Edge General Intelligence: Fundamentals, Approaches, and Directions [74.35421055079655]
大規模言語モデル(LLM)は、強力な推論と自律的な意思決定能力を備えたエージェント人工知能(AI)の出現を可能にした。
Mobile Edge General Intelligence (MEGI)は、リアルタイムでプライバシ保護の推論をネットワークエッジにもたらす。
本稿では,MEGIにおけるLLM推論の効率的な展開のための共同最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-27T10:53:48Z) - Synthetic Founders: AI-Generated Social Simulations for Startup Validation Research in Computational Social Science [0.0]
人-対象面接データと大言語モデル(LLM)による合成ペルソナを比較し,AI対応シミュレーションにおける忠実度,分散度,盲点を評価する。
我々は、LLM駆動型ペルソナがハイブリッド社会シミュレーションの一形態であることを示す証拠として、この比較枠組みを解釈する。
論文 参考訳(メタデータ) (2025-08-29T21:54:53Z) - STARec: An Efficient Agent Framework for Recommender Systems via Autonomous Deliberate Reasoning [54.28691219536054]
我々は、自律的な熟考的推論機能を備えたレコメンデータシステムを支援する、ゆっくり考えられた拡張エージェントフレームワークSTARecを紹介する。
我々は,先進的推論モデルと嗜好整合型報酬形成から構造化知識の蒸留を組み合わせた2段階のパラダイムであるアンカー強化訓練を開発する。
MovieLens 1MとAmazon CDsベンチマークの実験では、STARecは最先端のベースラインと比較して、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-08-26T08:47:58Z) - Evaluating AI Alignment in Eleven LLMs through Output-Based Analysis and Human Benchmarking [0.0]
大規模言語モデル(LLM)は、心理学的な研究や実践にますます使われているが、従来のベンチマークでは、実際の相互作用で表現される価値についてはほとんど明らかにされていない。
LLMが表現する値の出力に基づく評価であるPAPERSを導入する。
論文 参考訳(メタデータ) (2025-06-14T20:14:02Z) - A Cognitive-Mechanistic Human Reliability Analysis Framework: A Nuclear Power Plant Case Study [7.583754429526051]
本研究では,IDHEAS-ECA方法論を強化する認知機械的枠組み(COGMIF)を提案する。
ACT-Rベースのヒューマンデジタルツイン(HDT)とTimeGAN強化シミュレーションを統合している。
TimeGANはACT-R生成時系列データに基づいてトレーニングされ、高忠実な合成演算子挙動データセットを生成する。
論文 参考訳(メタデータ) (2025-04-25T00:46:00Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - How Far Are LLMs from Believable AI? A Benchmark for Evaluating the Believability of Human Behavior Simulation [46.42384207122049]
我々は,人間の振る舞いをシミュレートする際の大規模言語モデル (LLM) の信頼性を評価するために SimulateBench を設計する。
SimulateBenchに基づいて、文字をシミュレートする際、広く使われている10個のLLMの性能を評価する。
論文 参考訳(メタデータ) (2023-12-28T16:51:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。