論文の概要: HiVAE: Hierarchical Latent Variables for Scalable Theory of Mind
- arxiv url: http://arxiv.org/abs/2602.16826v1
- Date: Wed, 18 Feb 2026 19:45:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.315364
- Title: HiVAE: Hierarchical Latent Variables for Scalable Theory of Mind
- Title(参考訳): HiVAE: スケーラブルな心の理論のための階層的潜在変数
- Authors: Nigel Doering, Rahath Malladi, Arshia Sangwan, David Danks, Tauhidur Rahman,
- Abstract要約: In this introduced HiVAE, ahierarchical variational architecture that scales ToM reasoning to real domain。
我々の階層は予測を改善するが、学習された潜在表現は実際の精神状態に明確な根拠を欠いている。
本稿では,地域コミュニティのフィードバックを基盤として,自己指導型アライメント戦略を提案する。
- 参考スコア(独自算出の注目度): 3.628695751050104
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Theory of mind (ToM) enables AI systems to infer agents' hidden goals and mental states, but existing approaches focus mainly on small human understandable gridworld spaces. We introduce HiVAE, a hierarchical variational architecture that scales ToM reasoning to realistic spatiotemporal domains. Inspired by the belief-desire-intention structure of human cognition, our three-level VAE hierarchy achieves substantial performance improvements on a 3,185-node campus navigation task. However, we identify a critical limitation: while our hierarchical structure improves prediction, learned latent representations lack explicit grounding to actual mental states. We propose self-supervised alignment strategies and present this work to solicit community feedback on grounding approaches.
- Abstract(参考訳): 心の理論(ToM)は、エージェントの隠れた目標と精神状態を予測するAIシステムを可能にするが、既存のアプローチは主に小さな人間の理解可能なグリッドワールド空間に焦点を当てている。
In this introduced HiVAE, ahierarchical variational architecture that scales ToM reasoning to real spatiotemporal domain。
我々の3段階のVAE階層は、3,185ノードのキャンパスナビゲーションタスクにおいて大幅な性能向上を実現している。
しかし、我々の階層構造は予測を改善するが、学習された潜在表現は実際の精神状態に明確な根拠を欠いている。
本稿では,地域コミュニティのフィードバックを基盤として,自己指導型アライメント戦略を提案する。
関連論文リスト
- Revisiting Multi-Task Visual Representation Learning [52.93947931352643]
本稿では,マルチタスク・ビジュアル事前学習フレームワークであるMTVを紹介する。
我々は、高容量の「エキスパート」モデルを利用して、高密度で構造化された擬似ラベルを大規模に合成する。
以上の結果から,MTV が "Best-of-both-worlds" のパフォーマンスを達成できることが示唆された。
論文 参考訳(メタデータ) (2026-01-20T11:59:19Z) - Thinking with Blueprints: Assisting Vision-Language Models in Spatial Reasoning via Structured Object Representation [52.605647992080485]
空間的推論は視覚的知覚から意味的理解へと視覚言語モデルを前進させる。
物体中心の青写真という認知概念を空間的推論に統合する。
我々の手法は既存の視覚言語モデルより一貫して優れている。
論文 参考訳(メタデータ) (2026-01-05T10:38:26Z) - SpatialTree: How Spatial Abilities Branch Out in MLLMs [109.32057088014942]
低レベル知覚(L1)、メンタルマッピング(L2)、シミュレーション(L3)、エージェント能力(L4)の4つのレベルに空間能力を整理する認知科学に着想を得た階層を導入する。
複雑な推論には役立ちますが、直感的な知覚を損ないます。
本稿では,不必要な熟考を抑制するシンプルな自己思考戦略を提案する。
論文 参考訳(メタデータ) (2025-12-23T18:59:46Z) - How Far are VLMs from Visual Spatial Intelligence? A Benchmark-Driven Perspective [103.44502230776352]
視覚言語モデル(VLM)における視覚空間推論(VSR)の系統的研究について述べる。
空間インテリジェンスを3つのレベル,すなわち基本的な知覚,空間理解,空間計画,および空間インテリジェンスベンチマークSIBenchに分類した。
論文 参考訳(メタデータ) (2025-09-23T12:00:14Z) - Toward Adaptive Categories: Dimensional Governance for Agentic AI [0.0]
次元ガバナンスは、意思決定の権威、プロセスの自律性、説明責任(3A)が人間とAIの関係を動的に分散する方法を追跡するフレームワークである。
このアプローチの重要な利点は、主要なガバナンスしきい値に対するシステムの動きを明示的に監視できることです。
我々は、重要な側面、重要な信頼しきい値、厳格な分類のフレームワークがどこで失敗するかを示す実践例を概説する。
論文 参考訳(メタデータ) (2025-05-16T14:43:12Z) - Contemplative Artificial Intelligence [1.6591901705380634]
我々は、AIシステムにレジリエントなWise World Modelを組み込むことができる4つの公理原理を示す。
第一にマインドフルネスは、創発的なサブゴールの自己監視と再調整を可能にする。
第二に、空の森は犬のゴールを固定し、厳格な事前を緩和する。
第三に、非二重性は敵の自己他の境界を解消する。
第4に、無制限のケアは、苦しみの普遍的な減少を動機づける。
論文 参考訳(メタデータ) (2025-04-21T14:20:49Z) - SPHERE: Unveiling Spatial Blind Spots in Vision-Language Models Through Hierarchical Evaluation [7.659514491338669]
現在の視覚言語モデルは、基本的な空間的手がかりを把握できるが、人間のような理解や現実世界の応用に必要な多次元空間的推論に苦慮している。
我々は,新しい人間注釈付きデータセットをサポートする階層的評価フレームワークであるSPHEREを開発した。
最先端モデルのベンチマーク評価では、特に距離と近接性についての推論において、重大な欠陥が示される。
論文 参考訳(メタデータ) (2024-12-17T09:10:55Z) - Provable Hierarchy-Based Meta-Reinforcement Learning [50.17896588738377]
HRLをメタRL設定で解析し、下流タスクで使用するメタトレーニング中に学習者が潜在階層構造を学習する。
我々は、この自然階層の標本効率の回復を保証し、抽出可能な楽観主義に基づくアルゴリズムとともに「多様性条件」を提供する。
我々の境界は、時間的・状態的・行動的抽象化などのHRL文献に共通する概念を取り入れており、我々の設定と分析が実際にHRLの重要な特徴を捉えていることを示唆している。
論文 参考訳(メタデータ) (2021-10-18T17:56:02Z) - Concept Learners for Few-Shot Learning [76.08585517480807]
本研究では,人間の解釈可能な概念次元に沿って学習することで,一般化能力を向上させるメタ学習手法であるCOMETを提案する。
我々は,細粒度画像分類,文書分類,セルタイプアノテーションなど,さまざまな領域からの少数ショットタスクによるモデルの評価を行った。
論文 参考訳(メタデータ) (2020-07-14T22:04:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。