Fugu-MT 論文翻訳(概要): MaIL: Improving Imitation Learning with Mamba

論文の概要: MaIL: Improving Imitation Learning with Mamba

arxiv url: http://arxiv.org/abs/2406.08234v2
Date: Tue, 19 Nov 2024 14:44:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:33.53199
Title: MaIL: Improving Imitation Learning with Mamba
Title（参考訳）: MaIL: Mambaによる模倣学習の改善
Authors: Xiaogang Jia, Qian Wang, Atalay Donat, Bowen Xing, Ge Li, Hongyi Zhou, Onur Celik, Denis Blessing, Rudolf Lioutikov, Gerhard Neumann,
Abstract要約: Mamba Imitation Learning (MaIL)は、最先端(SoTA)トランスフォーマーベースのポリシーの代替を提供する。 Mambaのアーキテクチャは、重要な特徴に焦点をあてることで、表現学習効率を高める。 MaILは、制限されたデータで全てのLIBEROタスクでトランスフォーマーを一貫して上回る。
参考スコア（独自算出の注目度）: 30.96458274130313
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This work presents Mamba Imitation Learning (MaIL), a novel imitation learning (IL) architecture that provides an alternative to state-of-the-art (SoTA) Transformer-based policies. MaIL leverages Mamba, a state-space model designed to selectively focus on key features of the data. While Transformers are highly effective in data-rich environments due to their dense attention mechanisms, they can struggle with smaller datasets, often leading to overfitting or suboptimal representation learning. In contrast, Mamba's architecture enhances representation learning efficiency by focusing on key features and reducing model complexity. This approach mitigates overfitting and enhances generalization, even when working with limited data. Extensive evaluations on the LIBERO benchmark demonstrate that MaIL consistently outperforms Transformers on all LIBERO tasks with limited data and matches their performance when the full dataset is available. Additionally, MaIL's effectiveness is validated through its superior performance in three real robot experiments. Our code is available at https://github.com/ALRhub/MaIL.
Abstract（参考訳）: この研究は、最先端(SoTA)トランスフォーマーベースのポリシーに代わる新しい模倣学習(IL)アーキテクチャであるMamba Imitation Learning(MaIL)を提示する。 MaILは、データの主要な機能に選択的にフォーカスするように設計された状態空間モデルであるMambaを利用している。トランスフォーマーは、その集中的な注意機構のため、データ豊富な環境において非常に効果的であるが、小さなデータセットと競合する可能性があり、多くの場合、過度な適合や準最適表現学習につながる。対照的に、Mambaのアーキテクチャは、重要な特徴に焦点をあて、モデルの複雑さを減らすことによって、表現学習の効率を高める。このアプローチは、限られたデータを扱う場合であっても、過度な適合を緩和し、一般化を強化する。 LIBEROベンチマークの大規模な評価は、MaILがすべてのLIBEROタスクでトランスフォーマーを一貫して上回っており、完全なデータセットが利用可能になったときのパフォーマンスと一致していることを示している。さらに、3つの実際のロボット実験において、MaILの有効性は優れた性能で検証されている。私たちのコードはhttps://github.com/ALRhub/MaIL.comで公開されています。

関連論文リスト

Differential Mamba [16.613266337054267]
TransformerやRNNのようなシーケンスモデルは、しばしば無関係なコンテキストに注意を向け、ノイズの多い中間表現をもたらす。最近の研究は、差分設計がトランスフォーマーにおけるこの問題を緩和し、様々なアプリケーションにおけるそれらの効果を向上させることを示している。本研究では,マンバへの微分設計の素直な適応は不十分であり,注意深いアーキテクチャ修正が必要であることを示す。
論文参考訳（メタデータ） (2025-07-08T17:30:14Z)
TransMamba: Fast Universal Architecture Adaption from Transformers to Mamba [88.31117598044725]
本稿では,既存のTransformerモデルの知識を,TransMambaと呼ばれる代替アーキテクチャのMambaに伝達するクロスアーキテクチャトレーニングについて検討する。提案手法では,新しいマンバモデルの訓練を高速化し,ユニモーダルタスクおよびクロスモーダルタスクにおける有効性を確保するための2段階戦略を採用している。クロスモーダル学習のために,言語認識をMambaの視覚的特徴に統合し,Mambaアーキテクチャのクロスモーダルインタラクション能力を向上するクロスマンバモジュールを提案する。
論文参考訳（メタデータ） (2025-02-21T01:22:01Z)
MatIR: A Hybrid Mamba-Transformer Image Restoration Model [95.17418386046054]
そこで我々は,MatIRと呼ばれるMamba-Transformerハイブリッド画像復元モデルを提案する。 MatIRはTransformer層とMamba層のブロックをクロスサイクルして特徴を抽出する。 Mambaモジュールでは、4つのスキャンパスに沿って横断するImage Inpainting State Space (IRSS)モジュールを導入する。
論文参考訳（メタデータ） (2025-01-30T14:55:40Z)
MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。効率と性能のバランスをとるMobileMambaフレームワークを提案する。 MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文参考訳（メタデータ） (2024-11-24T18:01:05Z)
Revealing and Mitigating the Local Pattern Shortcuts of Mamba [25.19835905377437]
この問題に対処するために,グローバルな選択モジュールをMambaモデルに導入する。提案手法では,4M余剰パラメータの導入により,分散情報を用いたタスクにおいて,Mambaモデル(130M)が大幅な改善を実現することができる。
論文参考訳（メタデータ） (2024-10-21T06:42:11Z)
Mamba Policy: Towards Efficient 3D Diffusion Policy with Hybrid Selective State Models [27.75507491486422]
Mambaモデルは効率的なモデリングのための有望なソリューションとして登場した。本稿では,従来の政策ネットワークと比較してパラメータ数を80%以上削減するMamba Policyを提案する。大規模な実験では、Mamba PolicyがAdroit、Dexart、MetaWorldのデータセットに優れていることが示されている。
論文参考訳（メタデータ） (2024-09-11T10:21:21Z)
LaMamba-Diff: Linear-Time High-Fidelity Diffusion Models Based on Local Attention and Mamba [54.85262314960038]
局所的意図的マンバブロックは、大域的コンテキストと局所的詳細の両方を線形複雑性でキャプチャする。このモデルは, 256x256の解像度で, ImageNet上の様々なモデルスケールでDiTの性能を上回り, 優れたスケーラビリティを示す。 ImageNet 256x256 と 512x512 の最先端拡散モデルと比較すると,最大 62% GFLOP の削減など,我々の最大のモデルには顕著な利点がある。
論文参考訳（メタデータ） (2024-08-05T16:39:39Z)
An Empirical Study of Mamba-based Pedestrian Attribute Recognition [15.752464463535178]
本論文は,Mambaを2つの典型的なPARフレームワーク,テキスト画像融合アプローチと純粋ビジョンMambaマルチラベル認識フレームワークに設計・適応する。属性タグを追加入力として操作することは、必ずしも改善につながるとは限らない。具体的には、Vimを拡張できるが、VMambaではできない。これらの実験結果は、単にTransformerでMambaを拡張すれば、パフォーマンスが向上するだけでなく、特定の設定でより良い結果が得られることを示している。
論文参考訳（メタデータ） (2024-07-15T00:48:06Z)
MambaUIE&SR: Unraveling the Ocean's Secrets with Only 2.8 GFLOPs [1.7648680700685022]
水中画像強調(UIE)技術は,光吸収・散乱による水中画像劣化問題に対処することを目的としている。近年、畳み込みニューラルネットワーク(CNN)とトランスフォーマーベースの手法が広く研究されている。 MambaUIEは、グローバルおよびローカル情報を効率的に合成することができ、非常に少数のパラメータを高い精度で保持する。
論文参考訳（メタデータ） (2024-04-22T05:12:11Z)
RankMamba: Benchmarking Mamba's Document Ranking Performance in the Era of Transformers [2.8554857235549753]
トランスフォーマーアーキテクチャのコアメカニズム -- 注意には、トレーニングにおけるO(n2)$時間複雑さと推論におけるO(n)$時間複雑さが必要です。状態空間モデルに基づく有名なモデル構造であるMambaは、シーケンスモデリングタスクにおいてトランスフォーマー等価のパフォーマンスを達成した。同じトレーニングレシピを持つトランスフォーマーベースモデルと比較して,Mambaモデルは競争性能が向上することがわかった。
論文参考訳（メタデータ） (2024-03-27T06:07:05Z)
MiM-ISTD: Mamba-in-Mamba for Efficient Infrared Small Target Detection [72.46396769642787]
ネスト構造であるMamba-in-Mamba(MiM-ISTD)を開発した。 MiM-ISTDはSOTA法より8倍高速で、2048×2048$のイメージでテストすると、GPUメモリ使用率を62.2$%削減する。
論文参考訳（メタデータ） (2024-03-04T15:57:29Z)
PointMamba: A Simple State Space Model for Point Cloud Analysis [65.59944745840866]
我々は、最近の代表的状態空間モデル(SSM)であるMambaの成功を、NLPからポイントクラウド分析タスクへ転送するPointMambaを提案する。従来のトランスフォーマーとは異なり、PointMambaは線形複雑性アルゴリズムを採用し、グローバルなモデリング能力を示しながら計算コストを大幅に削減する。
論文参考訳（メタデータ） (2024-02-16T14:56:13Z)
Is Mamba Capable of In-Context Learning? [63.682741783013306]
GPT-4のような技術基盤モデルの現状は、文脈内学習(ICL)において驚くほどよく機能するこの研究は、新たに提案された状態空間モデルであるMambaが同様のICL能力を持つという実証的な証拠を提供する。
論文参考訳（メタデータ） (2024-02-05T16:39:12Z)
Pink: Unveiling the Power of Referential Comprehension for Multi-modal LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文参考訳（メタデータ） (2023-10-01T05:53:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。