論文の概要: Neuro-Symbolic Manipulation Understanding with Enriched Semantic Event Chains
- arxiv url: http://arxiv.org/abs/2604.21053v1
- Date: Wed, 22 Apr 2026 19:53:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.162087
- Title: Neuro-Symbolic Manipulation Understanding with Enriched Semantic Event Chains
- Title(参考訳): リッチセマンティックイベントチェーンを用いたニューロシンボリックマニピュレーションの理解
- Authors: Fatemeh Ziaeetabar,
- Abstract要約: 我々は、eSECを、理解を操作するための明示的な事象レベルシンボル状態に変換する、ニューロシンボリックなフレームワークであるeSEC-LAMを提案する。
本研究では, EPIC-KITCHENS-100, EPIC-KITCHENS VISOR, Assembly101について, 行動認識, 次優先予測, 知覚雑音に対する堅牢性, 説明整合性について検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robotic systems operating in human environments must reason about how object interactions evolve over time, which actions are currently being performed, and what manipulation step is likely to follow. Classical enriched Semantic Event Chains (eSECs) provide an interpretable relational description of manipulation, but remain primarily descriptive and do not directly support uncertainty-aware decision making. In this paper, we propose eSEC-LAM, a neuro-symbolic framework that transforms eSECs into an explicit event-level symbolic state for manipulation understanding. The proposed formulation augments classical eSECs with confidence-aware predicates, functional object roles, affordance priors, primitive-level abstraction, and saliency-guided explanation cues. These enriched symbolic states are derived from a foundation-model-based perception front-end through deterministic predicate extraction, while current-action inference and next-primitive prediction are performed using lightweight symbolic reasoning over primitive pre- and post-conditions. We evaluate the proposed framework on EPIC-KITCHENS-100, EPIC-KITCHENS VISOR, and Assembly101 across action recognition, next-primitive prediction, robustness to perception noise, and explanation consistency. Experimental results show that eSEC-LAM achieves competitive action recognition, substantially improves next-primitive prediction, remains more robust under degraded perceptual conditions than both classical symbolic and end-to-end video baselines, and provides temporally consistent explanation traces grounded in explicit relational evidence. These findings demonstrate that enriched Semantic Event Chains can serve not only as interpretable descriptors of manipulation, but also as effective internal states for neuro-symbolic action reasoning.
- Abstract(参考訳): 人間の環境で動くロボットシステムは、オブジェクトの相互作用が時間とともにどのように進化するか、どのアクションが現在実行され、どの操作ステップが続くか、を推論する必要があります。
古典的なリッチなセマンティックイベントチェーン(eSECs)は、操作の解釈可能なリレーショナル記述を提供するが、主に記述的であり、不確実性を認識した意思決定を直接サポートしていない。
本稿では,eSECを明示的な事象レベルのシンボル状態に変換し,理解を操作可能にする,ニューロシンボリックなフレームワークであるeSEC-LAMを提案する。
提案された定式化は、信頼を意識した述語、機能的なオブジェクトロール、空き先、プリミティブレベルの抽象化、サリエンシに導かれた説明手段を備えた古典的なeSECを強化する。
これらの濃密な記号状態は、決定論的述語抽出を通じて基礎モデルに基づく認識フロントエンドから導出され、一方、プリミティブプレコンディションやポストコンディションよりも軽量なシンボル推論を用いて、現在の動作推定と次プライミティブ予測が実行される。
本研究では, EPIC-KITCHENS-100, EPIC-KITCHENS VISOR, Assembly101について, 行動認識, 次優先予測, 知覚雑音に対する堅牢性, 説明整合性について検討した。
実験の結果、eSEC-LAMは競合行動認識を実現し、次の原始的予測を大幅に改善し、古典的シンボリックとエンド・ツー・エンドの両方のビデオベースラインよりも劣化した知覚条件下では頑健であり、明確な関係性証拠に基づく時間的に一貫した説明の痕跡を提供する。
これらの結果から, リッチセマンティックイベントチェーンは, 操作の解釈可能な記述子としてだけでなく, ニューロシンボリック・アクション・推論のための効果的な内部状態としても機能することが示唆された。
関連論文リスト
- \textsc{NaVIDA}: Vision-Language Navigation with Inverse Dynamics Augmentation [50.027425808733994]
textscNaVIDAは、ポリシー学習とアクショングラウンドの視覚力学と適応実行を結合した統合VLNフレームワークである。
textscNaVIDAは、チャンクベースの逆ダイナミクスによるトレーニングを強化し、視覚変化と対応するアクションの因果関係を学習する。
実験の結果,textscNaVIDAはパラメータが少ない最先端の手法に比べてナビゲーション性能が優れていることがわかった。
論文 参考訳(メタデータ) (2026-01-26T06:16:17Z) - Stable Language Guidance for Vision-Language-Action Models [62.80963701282789]
残留セマンティックステアリング(Residual Semantic Steering)は、セマンティック実行から身体的余裕を逸脱する確率的フレームワークである。
RSSは最先端の堅牢性を実現し、敵対的な言語摂動の下でも性能を維持する。
論文 参考訳(メタデータ) (2026-01-07T16:16:10Z) - EASE: Embodied Active Event Perception via Self-Supervised Energy Minimization [6.249768559720122]
アクティブイベント認識は、人間とAIのコラボレーション、補助ロボット工学、自律ナビゲーションといったタスクにおいて、インテリジェンスを具現化する上で不可欠である。
本稿では,自由エネルギーによる表現学習と具体化制御を一体化する自己教師型フレームワークであるEASEを提案する。
論文 参考訳(メタデータ) (2025-06-20T23:45:51Z) - ECATS: Explainable-by-design concept-based anomaly detection for time series [0.5956301166481089]
本稿では,概念をSTL(Signal Temporal Logic)公式として表現する概念に基づくニューロシンボリックアーキテクチャであるECATSを提案する。
我々は,局所的な解釈可能性を確保しつつ,優れた分類性能が得られることを示す。
論文 参考訳(メタデータ) (2024-05-17T08:12:53Z) - Motion-Scenario Decoupling for Rat-Aware Video Position Prediction:
Strategy and Benchmark [49.58762201363483]
本研究では,個人や環境の影響要因を考慮し,生物ロボットの動き予測データセットであるRatPoseを紹介する。
本稿では,シナリオ指向とモーション指向を効果的に分離するDual-stream Motion-Scenario Decouplingフレームワークを提案する。
難易度が異なるタスクに対して,提案したtextitDMSD フレームワークの大幅な性能向上を示す。
論文 参考訳(メタデータ) (2023-05-17T14:14:31Z) - Latent Event-Predictive Encodings through Counterfactual Regularization [0.9449650062296823]
本稿では,新しい正則化方式を用いたSUGAR(Surprise-GAted Recurrent Neural Network)を提案する。
隠れたグラフ構造を交互に並べてシーケンスを生成する階層的シーケンス予測タスクでモデルをテストします。
論文 参考訳(メタデータ) (2021-05-12T18:30:09Z) - Abstract Spatial-Temporal Reasoning via Probabilistic Abduction and
Execution [97.50813120600026]
時空間推論は人工知能(AI)の課題である
最近の研究は、この種の抽象的推論タスクに焦点を当てている -- Raven's Progressive Matrices (RPM)
ニューロシンボリックな確率的アブダクションと実行学習者(PrAE)を提案する。
論文 参考訳(メタデータ) (2021-03-26T02:42:18Z) - Analogous Process Structure Induction for Sub-event Sequence Prediction [111.10887596684276]
本稿では,未確認プロセスのサブイベントシーケンス全体を予測するために,アナログプロセス構造誘導APSIフレームワークを提案する。
我々の実験と分析が示すように、APSIは目に見えないプロセスのための意味のあるサブイベントシーケンスの生成をサポートし、行方不明な事象を予測するのに役立ちます。
論文 参考訳(メタデータ) (2020-10-16T17:35:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。