論文の概要: Multiple Thinking Achieving Meta-Ability Decoupling for Object
Navigation
- arxiv url: http://arxiv.org/abs/2302.01520v1
- Date: Fri, 3 Feb 2023 03:29:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-06 17:29:56.554515
- Title: Multiple Thinking Achieving Meta-Ability Decoupling for Object
Navigation
- Title(参考訳): オブジェクトナビゲーションのためのメタ能力デカップリングを実現する多重思考
- Authors: Ronghao Dang, Lu Chen, Liuyi Wang, Zongtao He, Chengju Liu, Qijun Chen
- Abstract要約: 本稿では,メタビリティ・デカップリング(MAD)パラダイムを提案する。
MADパラダイムに基づいて、異なる思考を活用して様々なメタ能力を抽象化する多重思考(MT)モデルを設計する。
提案手法は,マルチシンキングコラボレーション(MTC)モジュールを使用しながら,入力,エンコーディング,報酬の3つの側面からメタ能力を分離する。
- 参考スコア(独自算出の注目度): 11.398193228655437
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a meta-ability decoupling (MAD) paradigm, which brings together
various object navigation methods in an architecture system, allowing them to
mutually enhance each other and evolve together. Based on the MAD paradigm, we
design a multiple thinking (MT) model that leverages distinct thinking to
abstract various meta-abilities. Our method decouples meta-abilities from three
aspects: input, encoding, and reward while employing the multiple thinking
collaboration (MTC) module to promote mutual cooperation between thinking. MAD
introduces a novel qualitative and quantitative interpretability system for
object navigation. Through extensive experiments on AI2-Thor and RoboTHOR, we
demonstrate that our method outperforms state-of-the-art (SOTA) methods on both
typical and zero-shot object navigation tasks.
- Abstract(参考訳): 本稿では、アーキテクチャシステムにおける様々なオブジェクトナビゲーションメソッドを結合し、相互に強化し、一緒に進化させるメタ可能性分離(mad)パラダイムを提案する。
MADパラダイムに基づいて、異なる思考を活用して様々なメタ能力を抽象化する多重思考(MT)モデルを設計する。
提案手法は,複数思考協調(MTC)モジュールを用いて思考間の相互協力を促進するために,入力,エンコーディング,報酬の3つの側面からメタ能力を分離する。
MADは、オブジェクトナビゲーションのための新しい定性的で定量的な解釈可能性システムを導入している。
AI2-ThorとRobothorに関する広範な実験を通じて、本手法が典型的およびゼロショットなオブジェクトナビゲーションタスクにおいて、最先端(SOTA)手法より優れていることを示す。
関連論文リスト
- MAP-Elites with Transverse Assessment for Multimodal Problems in
Creative Domains [2.7869568828212175]
品質多様性の進化を用いたマルチモーダルな創造的タスクを扱う新しい手法を提案する。
我々の貢献は、MAP-Elitesアルゴリズム、MAP-Elites with Transverse Assessment (MEliTA)のバリエーションである。
MeliTAは、アーティファクトのモダリティを分離し、エリート間のクロスポーリングを促進する。
論文 参考訳(メタデータ) (2024-03-11T21:50:22Z) - Multi-modal Semantic Understanding with Contrastive Cross-modal Feature
Alignment [11.897888221717245]
マルチモーダルな特徴アライメントを実現するためのCLIP誘導型コントラスト学習型アーキテクチャを提案する。
我々のモデルはタスク固有の外部知識を使わずに実装が簡単であり、そのため、他のマルチモーダルタスクに容易に移行できる。
論文 参考訳(メタデータ) (2024-03-11T01:07:36Z) - Delving into Multi-modal Multi-task Foundation Models for Road Scene
Understanding: From Learning Paradigm Perspectives [57.3734614555802]
本稿では,道路シーンに特化して設計されたMM-VUFMの系統解析について述べる。
本研究の目的は,タスク特化モデル,統合マルチモーダルモデル,統合マルチタスクモデル,基礎モデル推進技術など,共通プラクティスの包括的概要を提供することである。
我々は、クローズドループ駆動システム、解釈可能性、エンボディドドライブエージェント、世界モデルなど、重要な課題と今後のトレンドに関する洞察を提供する。
論文 参考訳(メタデータ) (2024-02-05T12:47:09Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - MM-GEF: Multi-modal representation meet collaborative filtering [51.04679619309803]
本稿では,グラフアーリーフュージョンを用いたマルチモーダルレコメンデーション MM-GEF を提案する。
MM-GEFはマルチモーダル信号と協調信号の両方から得られる構造情報を注入することにより、洗練された項目表現を学習する。
論文 参考訳(メタデータ) (2023-08-14T15:47:36Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Universal Information Extraction as Unified Semantic Matching [54.19974454019611]
情報抽出を,異なるタスクやスキーマで共有される構造化と概念化という,2つの能力に分割する。
このパラダイムに基づいて、統一意味マッチングフレームワークを用いて様々なIEタスクを普遍的にモデル化することを提案する。
このように、USMはスキーマと入力テキストを共同でエンコードし、サブ構造を一様に並列に抽出し、必要に応じてターゲット構造を制御できる。
論文 参考訳(メタデータ) (2023-01-09T11:51:31Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z) - Improving Multimodal fusion via Mutual Dependency Maximisation [5.73995120847626]
マルチモーダル・感情分析は研究のトレンドとなっている分野であり、マルチモーダル・フュージョンは最も活発なトピックの1つである。
本研究では,未探索の罰則を調査し,モダリティ間の依存性を測定するための新たな目的セットを提案する。
我々は、我々の新しい罰則が様々な最先端モデルに対して一貫した改善(正確性で最大4.3ドル)をもたらすことを示した。
論文 参考訳(メタデータ) (2021-08-31T06:26:26Z) - New Ideas and Trends in Deep Multimodal Content Understanding: A Review [24.576001583494445]
本調査の焦点は、画像とテキストの2つのモーダルな深層学習の分析である。
本稿では, 自動エンコーダ, 生成逆数ネットなどを含む最近の多モード深層モデルと構造について検討する。
論文 参考訳(メタデータ) (2020-10-16T06:50:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。