論文の概要: The Semantic Lifecycle in Embodied AI: Acquisition, Representation and Storage via Foundation Models
- arxiv url: http://arxiv.org/abs/2601.08876v1
- Date: Mon, 12 Jan 2026 08:58:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.115607
- Title: The Semantic Lifecycle in Embodied AI: Acquisition, Representation and Storage via Foundation Models
- Title(参考訳): エンボディードAIにおけるセマンティックライフサイクル:基礎モデルによる獲得、表現、保存
- Authors: Shuai Chen, Hao Chen, Yuanchen Bei, Tianyang Zhao, Zhibo Zhou, Feiran Huang,
- Abstract要約: 基礎モデルによって駆動される具体化されたAIにおける意味的知識の進化を特徴付ける統一的な枠組みを提案する。
この具体的セマンティックライフサイクルによって導かれる私たちは、最近の進歩を3つの重要なステージ(取得、表現、記憶)で分析し、比較する。
- 参考スコア(独自算出の注目度): 23.10603609084322
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic information in embodied AI is inherently multi-source and multi-stage, making it challenging to fully leverage for achieving stable perception-to-action loops in real-world environments. Early studies have combined manual engineering with deep neural networks, achieving notable progress in specific semantic-related embodied tasks. However, as embodied agents encounter increasingly complex environments and open-ended tasks, the demand for more generalizable and robust semantic processing capabilities has become imperative. Recent advances in foundation models (FMs) address this challenge through their cross-domain generalization abilities and rich semantic priors, reshaping the landscape of embodied AI research. In this survey, we propose the Semantic Lifecycle as a unified framework to characterize the evolution of semantic knowledge within embodied AI driven by foundation models. Departing from traditional paradigms that treat semantic processing as isolated modules or disjoint tasks, our framework offers a holistic perspective that captures the continuous flow and maintenance of semantic knowledge. Guided by this embodied semantic lifecycle, we further analyze and compare recent advances across three key stages: acquisition, representation, and storage. Finally, we summarize existing challenges and outline promising directions for future research.
- Abstract(参考訳): 具体化されたAIのセマンティック情報は本質的にマルチソースでマルチステージであり、現実の環境で安定した知覚と行動のループを達成するために完全に活用することは困難である。
初期の研究は、手動エンジニアリングとディープニューラルネットワークを組み合わせることで、特定のセマンティック関連実施タスクの顕著な進歩を実現している。
しかし、ますます複雑な環境やオープンエンドタスクに遭遇するエンボディエージェントにより、より一般化可能で堅牢なセマンティック処理能力の需要が高まっている。
ファンデーションモデル(FM)の最近の進歩は、クロスドメインの一般化能力とリッチなセマンティックな先行性を通じてこの課題に対処し、具体化されたAI研究の風景を再構築している。
本稿では,基礎モデルによって駆動される組込みAIにおける意味的知識の進化を特徴付ける統合フレームワークとして,セマンティックライフサイクルを提案する。
セマンティック処理を独立したモジュールとして扱う従来のパラダイムやタスクを分離したタスクとして扱う従来のパラダイムとは別に、私たちのフレームワークは、セマンティック知識の継続的なフローとメンテナンスをキャプチャする全体論的な視点を提供します。
この具体的セマンティックライフサイクルにより、我々は、獲得、表現、記憶という3つの重要な段階にわたる最近の進歩を分析し、比較する。
最後に、既存の課題を概説し、今後の研究に向けた有望な方向性を概説する。
関連論文リスト
- Forging Spatial Intelligence: A Roadmap of Multi-Modal Data Pre-Training for Autonomous Systems [75.78934957242403]
自動運転車とドローンは、マルチモーダル搭載センサーデータから真の空間情報を必要とする。
本稿では,この目標に向かって進む中核的な技術群を同定し,マルチモーダル・プレトレーニングのためのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-30T17:58:01Z) - Executable Analytic Concepts as the Missing Link Between VLM Insight and Precise Manipulation [70.8381970762877]
VLM(Vision-Language Models)は、セマンティック推論とタスク計画において顕著な能力を示す。
本稿では,VLMに基づく推論を実行可能な解析概念を通じて基礎づける新しいフレームワークであるGRACEを紹介する。
G GRACEは高レベル命令理解と低レベルロボット制御の統一的で解釈可能なインターフェースを提供する。
論文 参考訳(メタデータ) (2025-10-09T09:08:33Z) - The Landscape of Agentic Reinforcement Learning for LLMs: A Survey [103.32591749156416]
エージェント強化学習(Agentic RL)の出現は、大規模言語モデル(LLM RL)に適用された従来の強化学習からパラダイムシフトを示している。
本研究では, LLM-RLの縮退した単段階マルコフ決定過程(MDPs)と, エージェントRLを定義する部分可観測マルコフ決定過程(POMDPs)とを対比することにより, この概念シフトを定式化する。
論文 参考訳(メタデータ) (2025-09-02T17:46:26Z) - Beyond Pixels: Introducing Geometric-Semantic World Priors for Video-based Embodied Models via Spatio-temporal Alignment [2.9493863710375674]
VEMEは、未知の環境における複雑なタスクのためのディープラーニングモデルにおいて、人間のような推論を実現するための新しい方法である。
本フレームワークは,(1)オブジェクト,空間表現,視覚的意味論を時間的手がかりでブリッジするクロスランゲージアライメントフレームワーク,(2)タスク関連メモリリコールを可能にする動的で暗黙的な認知活性化世界埋め込み,(3)長期計画と効率的な探索のための指示に基づくナビゲーションと推論の3つの重要な構成要素を統合する。
論文 参考訳(メタデータ) (2025-08-29T19:47:25Z) - The Future of Continual Learning in the Era of Foundation Models: Three Key Directions [3.805777835466912]
継続的学習は3つの重要な理由から不可欠である、と我々は主張する。
我々は、連続的な学習の再生を象徴する連続的な構成性について論じている。
AIの未来は、単一の静的モデルではなく、継続的に進化し、相互作用するモデルのエコシステムによって定義される。
論文 参考訳(メタデータ) (2025-06-03T19:06:41Z) - Every SAM Drop Counts: Embracing Semantic Priors for Multi-Modality Image Fusion and Beyond [52.486290612938895]
本稿では,Segment Anything Model (SAM) のセグメンテーションモデルからのセグメンテーション知識を利用して,融合結果の質を向上し,下流タスク適応性を実現する手法を提案する。
具体的には、SAMから高レベルなセマンティック・セマンティック・セマンティック・セマンティック・セマンティック・アテンション(SPA)モジュールを抽出し、永続リポジトリを介してソース情報を効率的に保持する。
本手法は,実運用効率を維持しつつ,高品質な視覚結果と下流タスク適応性のバランスを実現する。
論文 参考訳(メタデータ) (2025-03-03T06:16:31Z) - Causality-Aware Transformer Networks for Robotic Navigation [13.719643934968367]
Visual Navigationの現在の研究は、改善の機会を明らかにしている。
RNNとTransformerの直接的な採用はしばしば、Embodied AIと従来のシーケンシャルなデータモデリングの具体的な違いを見落としている。
因果理解モジュールを特徴とするナビゲーション用因果認識変換器(CAT)ネットワークを提案する。
論文 参考訳(メタデータ) (2024-09-04T12:53:26Z) - Empowering Time Series Analysis with Foundation Models: A Comprehensive Survey [32.794229758722985]
時系列データは、様々な現実世界のアプリケーションに分散している。
従来のアプローチは主にタスク固有のもので、限られた機能と低転送性を提供します。
ファンデーションモデルは、その顕著なクロスタスク転送可能性によって、NLPとCVに革命をもたらした。
論文 参考訳(メタデータ) (2024-05-03T03:12:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。