論文の概要: A "Wenlu" Brain System for Multimodal Cognition and Embodied Decision-Making: A Secure New Architecture for Deep Integration of Foundation Models and Domain Knowledge
- arxiv url: http://arxiv.org/abs/2506.00570v1
- Date: Sat, 31 May 2025 14:01:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.204392
- Title: A "Wenlu" Brain System for Multimodal Cognition and Embodied Decision-Making: A Secure New Architecture for Deep Integration of Foundation Models and Domain Knowledge
- Title(参考訳): マルチモーダル認知と身体決定のための"Wenlu"脳システム:基礎モデルとドメイン知識の深い統合のためのセキュアな新しいアーキテクチャ
- Authors: Liang Geng,
- Abstract要約: 本稿では,個人知識と公開モデルとの安全な融合を実現するために,多モード認知と具体的意思決定脳システムWenluを提案する。
このシステムは、脳にインスパイアされたメモリタグ付けと再生機構を導入し、ユーザーのプライベートなデータ、業界固有の知識、汎用言語モデルとシームレスに統合する。
既存のソリューションと比較すると、"Wenlu"はマルチモーダル処理、プライバシセキュリティ、エンドツーエンドのハードウェア制御コード生成、自己学習、持続可能なアップデートにおいて、大きなメリットを示している。
- 参考スコア(独自算出の注目度): 1.0049237739132246
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: With the rapid penetration of artificial intelligence across industries and scenarios, a key challenge in building the next-generation intelligent core lies in effectively integrating the language understanding capabilities of foundation models with domain-specific knowledge bases in complex real-world applications. This paper proposes a multimodal cognition and embodied decision-making brain system, ``Wenlu", designed to enable secure fusion of private knowledge and public models, unified processing of multimodal data such as images and speech, and closed-loop decision-making from cognition to automatic generation of hardware-level code. The system introduces a brain-inspired memory tagging and replay mechanism, seamlessly integrating user-private data, industry-specific knowledge, and general-purpose language models. It provides precise and efficient multimodal services for enterprise decision support, medical analysis, autonomous driving, robotic control, and more. Compared with existing solutions, ``Wenlu" demonstrates significant advantages in multimodal processing, privacy security, end-to-end hardware control code generation, self-learning, and sustainable updates, thus laying a solid foundation for constructing the next-generation intelligent core.
- Abstract(参考訳): 産業やシナリオにおける人工知能の急速な普及により、次世代のインテリジェントコアを構築する上での重要な課題は、基礎モデルの言語理解能力と複雑な現実世界のアプリケーションにおけるドメイン固有の知識ベースを効果的に統合することにある。
本稿では、画像や音声などのマルチモーダルデータの安全な融合、認識からハードウェアレベルのコードの自動生成に至るまでのクローズドループ決定の統一処理を実現するために設計されたマルチモーダル認知・具体化された意思決定脳システム「Wenlu」を提案する。このシステムは、脳にインスパイアされたメモリタギングとリプレイ機構を導入し、ユーザプライドデータ、業界固有の知識、汎用言語モデルをシームレスに統合し、企業の意思決定支援、医療分析、自律運転、ロボット制御などのための正確かつ効率的なマルチモーダルサービスを提供する。既存のソリューションと比較すると、「Wenlu」は、マルチモーダル処理、セキュリティ、エンドツーエンドハードウェアコード生成、自己学習、持続的更新といった、多モーダル処理における大きなメリットを実証している。
関連論文リスト
- From Large AI Models to Agentic AI: A Tutorial on Future Intelligent Communications [57.38526350775472]
このチュートリアルは、大規模人工知能モデル(LAM)とエージェントAI技術の原則、設計、応用に関する体系的な紹介を提供する。
我々は,6G通信の背景を概説し,LAMからエージェントAIへの技術的進化を概説し,チュートリアルのモチベーションと主な貢献を明らかにする。
論文 参考訳(メタデータ) (2025-05-28T12:54:07Z) - Towards deployment-centric multimodal AI beyond vision and language [67.02589156099391]
デプロイ不能なソリューションの可能性を減らすために、デプロイメント制約を早期に組み込んだデプロイメント中心のワークフローを提唱します。
我々は、複数の分野にまたがる共通のマルチモーダルAI固有の課題を特定し、3つの実世界のユースケースについて検討する。
複数の学際的な対話とオープンな研究プラクティスを育むことで、我々のコミュニティは、広く社会に影響を及ぼすためのデプロイメント中心の開発を加速できる。
論文 参考訳(メタデータ) (2025-04-04T17:20:05Z) - Advances and Challenges in Foundation Agents: From Brain-Inspired Intelligence to Evolutionary, Collaborative, and Safe Systems [133.45145180645537]
大規模言語モデル(LLM)の出現は、人工知能の変革的シフトを触媒している。
これらのエージェントがAI研究と実践的応用をますます推進するにつれて、その設計、評価、継続的な改善は複雑で多面的な課題を呈している。
この調査は、モジュール化された脳にインスパイアされたアーキテクチャ内でインテリジェントエージェントをフレーミングする、包括的な概要を提供する。
論文 参考訳(メタデータ) (2025-03-31T18:00:29Z) - Creating Scalable AGI: the Open General Intelligence Framework [0.0]
Open General Intelligence (OGI)は、Artificial General Intelligence (AGI)のマクロデザイン参照として機能する新しいシステムアーキテクチャである。
OGIは、単一のシステムとしてシームレスに動作可能な複数の特別なモジュール間で認識が実行されなければならないという前提に基づいて、インテリジェントシステムの設計にモジュラーアプローチを採用する。
OGIフレームワークは、今日のインテリジェントシステムで見られる課題を克服し、より包括的でコンテキスト対応の問題解決能力を実現することを目的としている。
論文 参考訳(メタデータ) (2024-11-24T13:17:53Z) - A Survey: Collaborative Hardware and Software Design in the Era of Large Language Models [16.250856588632637]
大規模言語モデル(LLM)の急速な発展は、人工知能の分野を大きく変えた。
これらのモデルは多様なアプリケーションに統合され、研究と産業の両方に影響を及ぼす。
本稿では,大規模言語モデルの特徴と制約に対処するために,ハードウェアとソフトウェアの共同設計手法について検討する。
論文 参考訳(メタデータ) (2024-10-08T21:46:52Z) - Foundations of Multisensory Artificial Intelligence [32.56967614091527]
この論文は、多感覚AIの機械学習基盤を前進させることを目的としている。
第1部では,タスクに対する新たな情報を生み出すために,モーダルティが相互にどのように相互作用するかを定式化する理論的枠組みを提案する。
第2部では、多くのモダリティやタスクを一般化する実用的なマルチモーダル基礎モデルの設計について検討する。
論文 参考訳(メタデータ) (2024-04-29T14:45:28Z) - LVLM-Interpret: An Interpretability Tool for Large Vision-Language Models [50.259006481656094]
本稿では,大規模視覚言語モデルの内部メカニズムの理解を目的とした対話型アプリケーションを提案する。
このインタフェースは, 画像パッチの解釈可能性を高めるために設計されており, 応答の生成に有効である。
本稿では,一般的な大規模マルチモーダルモデルであるLLaVAにおける障害機構の理解に,アプリケーションがどのように役立つかのケーススタディを示す。
論文 参考訳(メタデータ) (2024-04-03T23:57:34Z) - MRKL Systems: A modular, neuro-symbolic architecture that combines large
language models, external knowledge sources and discrete reasoning [50.40151403246205]
巨大な言語モデル(LM)は、自然言語ベースの知識タスクのゲートウェイとして機能する、AIの新しい時代を支えている。
離散的な知識と推論モジュールによって補完される、複数のニューラルモデルによる柔軟なアーキテクチャを定義する。
本稿では,MRKL(Modular Reasoning, Knowledge and Language)システムと呼ばれる,このニューロシンボリックアーキテクチャについて述べる。
論文 参考訳(メタデータ) (2022-05-01T11:01:28Z) - Towards open and expandable cognitive AI architectures for large-scale
multi-agent human-robot collaborative learning [5.478764356647437]
多エージェントLfDロボット学習のための新しい認知アーキテクチャを導入し、オープンでスケーラブルで拡張可能なロボットシステムの信頼性の高い展開を可能にする。
この概念化は、ロボットプラットフォームのネットワークの端ノードで動作する複数のAI駆動の認知プロセスを採用することに依存している。
提案フレームワークの適用性は,実世界の産業ケーススタディの例を用いて説明できる。
論文 参考訳(メタデータ) (2020-12-15T09:49:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。