Fugu-MT 論文翻訳(概要): Multiple Thinking Achieving Meta-Ability Decoupling for Object Navigation

論文の概要: Multiple Thinking Achieving Meta-Ability Decoupling for Object Navigation

arxiv url: http://arxiv.org/abs/2302.01520v1
Date: Fri, 3 Feb 2023 03:29:41 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-06 17:29:56.554515
Title: Multiple Thinking Achieving Meta-Ability Decoupling for Object Navigation
Title（参考訳）: オブジェクトナビゲーションのためのメタ能力デカップリングを実現する多重思考
Authors: Ronghao Dang, Lu Chen, Liuyi Wang, Zongtao He, Chengju Liu, Qijun Chen
Abstract要約: 本稿では,メタビリティ・デカップリング(MAD)パラダイムを提案する。 MADパラダイムに基づいて、異なる思考を活用して様々なメタ能力を抽象化する多重思考(MT)モデルを設計する。提案手法は,マルチシンキングコラボレーション(MTC)モジュールを使用しながら,入力,エンコーディング,報酬の3つの側面からメタ能力を分離する。
参考スコア（独自算出の注目度）: 11.398193228655437
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose a meta-ability decoupling (MAD) paradigm, which brings together various object navigation methods in an architecture system, allowing them to mutually enhance each other and evolve together. Based on the MAD paradigm, we design a multiple thinking (MT) model that leverages distinct thinking to abstract various meta-abilities. Our method decouples meta-abilities from three aspects: input, encoding, and reward while employing the multiple thinking collaboration (MTC) module to promote mutual cooperation between thinking. MAD introduces a novel qualitative and quantitative interpretability system for object navigation. Through extensive experiments on AI2-Thor and RoboTHOR, we demonstrate that our method outperforms state-of-the-art (SOTA) methods on both typical and zero-shot object navigation tasks.
Abstract（参考訳）: 本稿では、アーキテクチャシステムにおける様々なオブジェクトナビゲーションメソッドを結合し、相互に強化し、一緒に進化させるメタ可能性分離(mad)パラダイムを提案する。 MADパラダイムに基づいて、異なる思考を活用して様々なメタ能力を抽象化する多重思考(MT)モデルを設計する。提案手法は,複数思考協調(MTC)モジュールを用いて思考間の相互協力を促進するために,入力,エンコーディング,報酬の3つの側面からメタ能力を分離する。 MADは、オブジェクトナビゲーションのための新しい定性的で定量的な解釈可能性システムを導入している。 AI2-ThorとRobothorに関する広範な実験を通じて、本手法が典型的およびゼロショットなオブジェクトナビゲーションタスクにおいて、最先端(SOTA)手法より優れていることを示す。

関連論文リスト

Think Hierarchically, Act Dynamically: Hierarchical Multi-modal Fusion and Reasoning for Vision-and-Language Navigation [11.23342183103283]
Vision-and-Language Navigation (VLN)は、エンボディエージェントが自然言語の指示に従い、現実の環境でターゲットの場所に到達することを可能にすることを目的としている。本稿では,視覚的観察,言語指導,ナビゲーション履歴の推論能力を高めるため,MFRA(Multi-level Fusion and Reasoning Architecture)を提案する。
論文参考訳（メタデータ） (2025-04-23T08:41:27Z)
A-MESS: Anchor based Multimodal Embedding with Semantic Synchronization for Multimodal Intent Recognition [3.4568313440884837]
セマンティックシンクロナイゼーション(A-MESS)フレームワークを用いたアンカーベースのマルチモーダル埋め込みを提案する。まず、アンカーベースの埋め込み融合機構を用いてマルチモーダル入力を統合するアンカーベースのマルチモーダル埋め込み(A-ME)モジュールを設計する。我々は,マルチモーダル表現とラベル記述を同期させることにより,プロセスの最適化を行う,Triplet Contrastive Learning Pipelineを用いたセマンティックシンクロナイゼーション(SS)戦略を開発した。
論文参考訳（メタデータ） (2025-03-25T09:09:30Z)
Can Atomic Step Decomposition Enhance the Self-structured Reasoning of Multimodal Large Models? [68.72260770171212]
本稿では,最小のセマンティック・アトミックステップから構成される自己構造的思考の連鎖(SCoT)のパラダイムを提案する。本手法は, 複雑なタスクに対して認知的CoT構造を生成するだけでなく, 過度に考える現象を緩和する。我々は,提案したAtomThinkがベースラインMLLMの性能を大幅に向上することを示すため,広範囲な実験を行った。
論文参考訳（メタデータ） (2025-03-08T15:23:47Z)
Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文参考訳（メタデータ） (2024-12-19T13:25:39Z)
AtomThink: Multimodal Slow Thinking with Atomic Step Reasoning [68.65389926175506]
思考の自己構造連鎖(SCoT)の新たなパラダイムを提案する。本手法は, 複雑なタスクに対する認知的CoT構造を生成するだけでなく, より簡単なタスクに対して過度に考える現象を緩和する。我々は,提案したAtomThinkがベースラインMLLMの性能を大幅に向上することを示すため,広範囲な実験を行った。
論文参考訳（メタデータ） (2024-11-18T11:54:58Z)
Alt-MoE: Multimodal Alignment via Alternating Optimization of Multi-directional MoE with Unimodal Models [7.134682404460003]
そこで我々は、MoE(Mixture of Experts)をモダリティにまたがる統一多方向コネクタとして利用する、新しいトレーニングフレームワークAlt-MoEを紹介する。我々の手法は、いくつかの優れたユニモーダルモデルで検証されている。
論文参考訳（メタデータ） (2024-09-09T10:40:50Z)
Encoding Hierarchical Schema via Concept Flow for Multifaceted Ideology Detection [26.702058189138462]
多面的イデオロギー検出(MID)は、テキストの複数の面へのイデオロギー的傾きを検出することを目的としている。 MIDタスクのための新しい概念セマンティクス強化フレームワークを開発する。提案手法は, クロストピックシナリオを含む, MIDにおける最先端性能を実現する。
論文参考訳（メタデータ） (2024-05-29T10:37:28Z)
Leveraging Intra-modal and Inter-modal Interaction for Multi-Modal Entity Alignment [27.28214706269035]
マルチモーダル・エンティティ・アライメント(MMEA)は、異なるマルチモーダル・ナレッジ・グラフ(MMKG)間で等価なエンティティ・ペアを識別することを目的としている。本稿では,マルチモーダルエンティティアライメントのための多言語インタラクションフレームワークを提案する。
論文参考訳（メタデータ） (2024-04-19T08:43:11Z)
AIMDiT: Modality Augmentation and Interaction via Multimodal Dimension Transformation for Emotion Recognition in Conversations [57.99479708224221]
AIMDiTと呼ばれる新しいフレームワークを提案し、深い特徴のマルチモーダル融合の問題を解決する。公開ベンチマークデータセットMELDでAIMDiTフレームワークを使用して行った実験では、Acc-7とw-F1メトリクスの2.34%と2.87%の改善が明らかにされた。
論文参考訳（メタデータ） (2024-04-12T11:31:18Z)
Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment [11.897888221717245]
マルチモーダルな特徴アライメントを実現するためのCLIP誘導型コントラスト学習型アーキテクチャを提案する。我々のモデルはタスク固有の外部知識を使わずに実装が簡単であり、そのため、他のマルチモーダルタスクに容易に移行できる。
論文参考訳（メタデータ） (2024-03-11T01:07:36Z)
Delving into Multi-modal Multi-task Foundation Models for Road Scene Understanding: From Learning Paradigm Perspectives [56.2139730920855]
本稿では,道路シーンに特化して設計されたMM-VUFMの系統解析について述べる。本研究の目的は,タスク特化モデル,統合マルチモーダルモデル,統合マルチタスクモデル,基礎モデル推進技術など,共通プラクティスの包括的概要を提供することである。我々は、クローズドループ駆動システム、解釈可能性、エンボディドドライブエージェント、世界モデルなど、重要な課題と今後のトレンドに関する洞察を提供する。
論文参考訳（メタデータ） (2024-02-05T12:47:09Z)
Unified Multi-modal Unsupervised Representation Learning for Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。 UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文参考訳（メタデータ） (2023-11-06T13:56:57Z)
Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。 MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文参考訳（メタデータ） (2023-07-19T02:11:19Z)
Universal Information Extraction as Unified Semantic Matching [54.19974454019611]
情報抽出を,異なるタスクやスキーマで共有される構造化と概念化という,2つの能力に分割する。このパラダイムに基づいて、統一意味マッチングフレームワークを用いて様々なIEタスクを普遍的にモデル化することを提案する。このように、USMはスキーマと入力テキストを共同でエンコードし、サブ構造を一様に並列に抽出し、必要に応じてターゲット構造を制御できる。
論文参考訳（メタデータ） (2023-01-09T11:51:31Z)
DIME: Fine-grained Interpretations of Multimodal Models via Disentangled Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文参考訳（メタデータ） (2022-03-03T20:52:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。