論文の概要: Multiple Thinking Achieving Meta-Ability Decoupling for Object
Navigation
- arxiv url: http://arxiv.org/abs/2302.01520v1
- Date: Fri, 3 Feb 2023 03:29:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-06 17:29:56.554515
- Title: Multiple Thinking Achieving Meta-Ability Decoupling for Object
Navigation
- Title(参考訳): オブジェクトナビゲーションのためのメタ能力デカップリングを実現する多重思考
- Authors: Ronghao Dang, Lu Chen, Liuyi Wang, Zongtao He, Chengju Liu, Qijun Chen
- Abstract要約: 本稿では,メタビリティ・デカップリング(MAD)パラダイムを提案する。
MADパラダイムに基づいて、異なる思考を活用して様々なメタ能力を抽象化する多重思考(MT)モデルを設計する。
提案手法は,マルチシンキングコラボレーション(MTC)モジュールを使用しながら,入力,エンコーディング,報酬の3つの側面からメタ能力を分離する。
- 参考スコア(独自算出の注目度): 11.398193228655437
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a meta-ability decoupling (MAD) paradigm, which brings together
various object navigation methods in an architecture system, allowing them to
mutually enhance each other and evolve together. Based on the MAD paradigm, we
design a multiple thinking (MT) model that leverages distinct thinking to
abstract various meta-abilities. Our method decouples meta-abilities from three
aspects: input, encoding, and reward while employing the multiple thinking
collaboration (MTC) module to promote mutual cooperation between thinking. MAD
introduces a novel qualitative and quantitative interpretability system for
object navigation. Through extensive experiments on AI2-Thor and RoboTHOR, we
demonstrate that our method outperforms state-of-the-art (SOTA) methods on both
typical and zero-shot object navigation tasks.
- Abstract(参考訳): 本稿では、アーキテクチャシステムにおける様々なオブジェクトナビゲーションメソッドを結合し、相互に強化し、一緒に進化させるメタ可能性分離(mad)パラダイムを提案する。
MADパラダイムに基づいて、異なる思考を活用して様々なメタ能力を抽象化する多重思考(MT)モデルを設計する。
提案手法は,複数思考協調(MTC)モジュールを用いて思考間の相互協力を促進するために,入力,エンコーディング,報酬の3つの側面からメタ能力を分離する。
MADは、オブジェクトナビゲーションのための新しい定性的で定量的な解釈可能性システムを導入している。
AI2-ThorとRobothorに関する広範な実験を通じて、本手法が典型的およびゼロショットなオブジェクトナビゲーションタスクにおいて、最先端(SOTA)手法より優れていることを示す。
関連論文リスト
- Alt-MoE: Multimodal Alignment via Alternating Optimization of Multi-directional MoE with Unimodal Models [7.134682404460003]
そこで我々は、MoE(Mixture of Experts)をモダリティにまたがる統一多方向コネクタとして利用する、新しいトレーニングフレームワークAlt-MoEを紹介する。
我々の手法は、いくつかの優れたユニモーダルモデルで検証されている。
論文 参考訳(メタデータ) (2024-09-09T10:40:50Z) - Encoding Hierarchical Schema via Concept Flow for Multifaceted Ideology Detection [26.702058189138462]
多面的イデオロギー検出(MID)は、テキストの複数の面へのイデオロギー的傾きを検出することを目的としている。
MIDタスクのための新しい概念セマンティクス強化フレームワークを開発する。
提案手法は, クロストピックシナリオを含む, MIDにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-05-29T10:37:28Z) - Leveraging Intra-modal and Inter-modal Interaction for Multi-Modal Entity Alignment [27.28214706269035]
マルチモーダル・エンティティ・アライメント(MMEA)は、異なるマルチモーダル・ナレッジ・グラフ(MMKG)間で等価なエンティティ・ペアを識別することを目的としている。
本稿では,マルチモーダルエンティティアライメントのための多言語インタラクションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-19T08:43:11Z) - AIMDiT: Modality Augmentation and Interaction via Multimodal Dimension Transformation for Emotion Recognition in Conversations [57.99479708224221]
AIMDiTと呼ばれる新しいフレームワークを提案し、深い特徴のマルチモーダル融合の問題を解決する。
公開ベンチマークデータセットMELDでAIMDiTフレームワークを使用して行った実験では、Acc-7とw-F1メトリクスの2.34%と2.87%の改善が明らかにされた。
論文 参考訳(メタデータ) (2024-04-12T11:31:18Z) - Multi-modal Semantic Understanding with Contrastive Cross-modal Feature
Alignment [11.897888221717245]
マルチモーダルな特徴アライメントを実現するためのCLIP誘導型コントラスト学習型アーキテクチャを提案する。
我々のモデルはタスク固有の外部知識を使わずに実装が簡単であり、そのため、他のマルチモーダルタスクに容易に移行できる。
論文 参考訳(メタデータ) (2024-03-11T01:07:36Z) - Delving into Multi-modal Multi-task Foundation Models for Road Scene Understanding: From Learning Paradigm Perspectives [56.2139730920855]
本稿では,道路シーンに特化して設計されたMM-VUFMの系統解析について述べる。
本研究の目的は,タスク特化モデル,統合マルチモーダルモデル,統合マルチタスクモデル,基礎モデル推進技術など,共通プラクティスの包括的概要を提供することである。
我々は、クローズドループ駆動システム、解釈可能性、エンボディドドライブエージェント、世界モデルなど、重要な課題と今後のトレンドに関する洞察を提供する。
論文 参考訳(メタデータ) (2024-02-05T12:47:09Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Universal Information Extraction as Unified Semantic Matching [54.19974454019611]
情報抽出を,異なるタスクやスキーマで共有される構造化と概念化という,2つの能力に分割する。
このパラダイムに基づいて、統一意味マッチングフレームワークを用いて様々なIEタスクを普遍的にモデル化することを提案する。
このように、USMはスキーマと入力テキストを共同でエンコードし、サブ構造を一様に並列に抽出し、必要に応じてターゲット構造を制御できる。
論文 参考訳(メタデータ) (2023-01-09T11:51:31Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。