論文の概要: Scene-Driven Multimodal Knowledge Graph Construction for Embodied AI
- arxiv url: http://arxiv.org/abs/2311.03783v2
- Date: Sat, 11 May 2024 14:58:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-15 01:02:54.915978
- Title: Scene-Driven Multimodal Knowledge Graph Construction for Embodied AI
- Title(参考訳): 身近なAIのためのシーン駆動型マルチモーダル知識グラフ構築
- Authors: Song Yaoxian, Sun Penglei, Liu Haoyu, Li Zhixu, Song Wei, Xiao Yanghua, Zhou Xiaofang,
- Abstract要約: Embodied AIは、人工知能とロボティクスにおいて最も人気のある研究の1つである。
環境知識は、エージェントが周囲を理解し、正しい判断をする上で重要である。
シーンMMKG構築法は,従来の知識工学と大規模言語モデルを組み合わせたものである。
- 参考スコア(独自算出の注目度): 2.380943129168748
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Embodied AI is one of the most popular studies in artificial intelligence and robotics, which can effectively improve the intelligence of real-world agents (i.e. robots) serving human beings. Scene knowledge is important for an agent to understand the surroundings and make correct decisions in the varied open world. Currently, knowledge base for embodied tasks is missing and most existing work use general knowledge base or pre-trained models to enhance the intelligence of an agent. For conventional knowledge base, it is sparse, insufficient in capacity and cost in data collection. For pre-trained models, they face the uncertainty of knowledge and hard maintenance. To overcome the challenges of scene knowledge, we propose a scene-driven multimodal knowledge graph (Scene-MMKG) construction method combining conventional knowledge engineering and large language models. A unified scene knowledge injection framework is introduced for knowledge representation. To evaluate the advantages of our proposed method, we instantiate Scene-MMKG considering typical indoor robotic functionalities (Manipulation and Mobility), named ManipMob-MMKG. Comparisons in characteristics indicate our instantiated ManipMob-MMKG has broad superiority in data-collection efficiency and knowledge quality. Experimental results on typical embodied tasks show that knowledge-enhanced methods using our instantiated ManipMob-MMKG can improve the performance obviously without re-designing model structures complexly. Our project can be found at https://sites.google.com/view/manipmob-mmkg
- Abstract(参考訳): Embodied AIは、人工知能とロボット工学において最も人気のある研究の1つであり、人間に仕える現実世界のエージェント(つまりロボット)の知能を効果的に向上させることができる。
環境知識は、エージェントが周囲を理解し、様々なオープンな世界で正しい判断をする上で重要である。
現在、具体的タスクのための知識ベースが欠落しており、既存の作業の多くはエージェントの知性を高めるために一般的な知識ベースまたは事前訓練されたモデルを使用している。
従来の知識ベースでは、データ収集の能力とコストが不足している。
事前訓練されたモデルでは、知識の不確実性と保守の難しさに直面します。
本研究では,シーン駆動型マルチモーダル知識グラフ(Scene-MMKG)の構築手法を提案する。
知識表現のための統合されたシーン知識注入フレームワークが導入された。
提案手法の利点を評価するため,典型的な屋内ロボット機能(マニピュレーションとモビリティ)を考慮したScene-MMKGのインスタンス化を行った。
特徴比較は,我々のインスタントなManipMob-MMKGは,データ収集効率と知識品質において大きな優位性を持っていることを示している。
実験結果から, モデル構造を複雑に再設計することなく, インタライズしたManipMob-MMKGを用いた知識強化手法により, 明らかに性能を向上できることが示された。
私たちのプロジェクトはhttps://sites.google.com/view/manipmob-mmkgで見られます。
関連論文リスト
- Pangu-Agent: A Fine-Tunable Generalist Agent with Structured Reasoning [50.47568731994238]
人工知能(AI)エージェント作成の鍵となる方法は強化学習(RL)である
本稿では,構造化推論をAIエージェントのポリシーに統合し,学習するための一般的なフレームワークモデルを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:57:57Z) - Recognizing Unseen Objects via Multimodal Intensive Knowledge Graph
Propagation [68.13453771001522]
画像の領域と対応するセマンティック埋め込みとをマッチングする多モード集中型ZSLフレームワークを提案する。
我々は、大規模な実世界のデータに基づいて、広範囲な実験を行い、そのモデルを評価する。
論文 参考訳(メタデータ) (2023-06-14T13:07:48Z) - Flexible and Inherently Comprehensible Knowledge Representation for
Data-Efficient Learning and Trustworthy Human-Machine Teaming in
Manufacturing Environments [0.0]
人工知能エージェントの信頼性は、産業生産環境における人間と機械の協調の受容に不可欠である。
我々はエージェントの知識を表現するために、G"ardenforsの認知的にインスピレーションを受けた概念空間フレームワークを利用している。
ファジィカテゴリのメンバシップを決定し、インスタンスを解釈可能に分類するために、シンプルな典型モデルがその上に構築されている。
論文 参考訳(メタデータ) (2023-05-19T11:18:23Z) - ArK: Augmented Reality with Knowledge Interactive Emergent Ability [115.72679420999535]
基礎モデルから新しいドメインへの知識記憶の伝達を学習する無限エージェントを開発する。
私たちのアプローチの核心は、Augmented Reality with Knowledge Inference Interaction (ArK)と呼ばれる新しいメカニズムである。
我々のArKアプローチは,大規模な基礎モデルと組み合わせることで,生成された2D/3Dシーンの品質を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-05-01T17:57:01Z) - Choreographer: Learning and Adapting Skills in Imagination [60.09911483010824]
我々は、その世界モデルを利用して想像力のスキルを学び、適応するモデルベースのエージェントであるChoreographerを紹介する。
提案手法は探索とスキル学習のプロセスを切り離し,モデルの潜在状態空間におけるスキルの発見を可能にする。
Choreographerはオフラインデータからスキルを学ぶことができ、探索ポリシーと同時にデータを集めることができる。
論文 参考訳(メタデータ) (2022-11-23T23:31:14Z) - Towards a Universal Continuous Knowledge Base [49.95342223987143]
複数のニューラルネットワークからインポートされた知識を格納できる継続的知識基盤を構築する方法を提案する。
テキスト分類実験は有望な結果を示す。
我々は複数のモデルから知識ベースに知識をインポートし、そこから融合した知識を単一のモデルにエクスポートする。
論文 参考訳(メタデータ) (2020-12-25T12:27:44Z) - Knowledge-driven Data Construction for Zero-shot Evaluation in
Commonsense Question Answering [80.60605604261416]
本稿では,共通認識課題にまたがるゼロショット質問応答のための新しいニューラルシンボリック・フレームワークを提案する。
言語モデル、トレーニング体制、知識ソース、データ生成戦略のセットを変えて、タスク間の影響を測定します。
個別の知識グラフは特定のタスクに適しているが、グローバルな知識グラフはさまざまなタスクに対して一貫した利得をもたらす。
論文 参考訳(メタデータ) (2020-11-07T22:52:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。