Fugu-MT 論文翻訳(概要): Fourier Transporter: Bi-Equivariant Robotic Manipulation in 3D

論文の概要: Fourier Transporter: Bi-Equivariant Robotic Manipulation in 3D

arxiv url: http://arxiv.org/abs/2401.12046v2
Date: Fri, 15 Mar 2024 22:39:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-20 02:22:38.157084
Title: Fourier Transporter: Bi-Equivariant Robotic Manipulation in 3D
Title（参考訳）: フーリエトランスポーター:2種類のロボットマニピュレーションを3Dで実現
Authors: Haojie Huang, Owen Howell, Dian Wang, Xupeng Zhu, Robin Walters, Robert Platt,
Abstract要約: 本稿では,2重のSE(d)xSE(d)対称性をピックプレース問題に適用し,より高い試料効率を実現するフーリエトランスポーター(FourTran)を提案する。 FourTranは、専門家によるデモを使って訓練されたオープンループの行動クローニング手法で、新しい環境におけるピック・プレース・アクションを予測する。
参考スコア（独自算出の注目度）: 19.296797946506604
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Many complex robotic manipulation tasks can be decomposed as a sequence of pick and place actions. Training a robotic agent to learn this sequence over many different starting conditions typically requires many iterations or demonstrations, especially in 3D environments. In this work, we propose Fourier Transporter (FourTran) which leverages the two-fold SE(d)xSE(d) symmetry in the pick-place problem to achieve much higher sample efficiency. FourTran is an open-loop behavior cloning method trained using expert demonstrations to predict pick-place actions on new environments. FourTran is constrained to incorporate symmetries of the pick and place actions independently. Our method utilizes a fiber space Fourier transformation that allows for memory-efficient construction. We test our proposed network on the RLbench benchmark and achieve state-of-the-art results across various tasks.
Abstract（参考訳）: 多くの複雑なロボット操作タスクは、ピック・アンド・プレイス・アクションのシーケンスとして分解することができる。ロボットエージェントを訓練して、多くの異なる開始条件でこのシーケンスを学ぶには、通常、特に3D環境で、多くのイテレーションやデモが必要になる。本研究では,2次元SE(d)xSE(d)対称性を利用するフーリエトランスポーター(FourTran)を提案する。 FourTranは、専門家によるデモを使って訓練されたオープンループの行動クローニング手法で、新しい環境におけるピック・プレース・アクションを予測する。 FourTranは、ピック・アンド・プレイス・アクションの対称性を独立して組み込むよう制約されている。本手法は, メモリ効率の高い構成が可能なファイバ空間フーリエ変換を利用する。提案するネットワークをRLbenchベンチマークでテストし,様々なタスクで最先端の結果を得る。

関連論文リスト

Structural Action Transformer for 3D Dexterous Manipulation [80.07649565189035]
クロス・エボディメント・スキル・トランスファーは、ハイDoFロボットハンドの課題である。既存の手法は、しばしば2次元の観測と時間中心の行動表現に依存し、3次元の空間的関係を捉えるのに苦労する。本稿では、構造中心の視点を導入することで、このパラダイムに挑戦する新しい3Dデクスタラスな操作ポリシーを提案する。
論文参考訳（メタデータ） (2026-03-04T11:38:12Z)
PathFinder: Advancing Path Loss Prediction for Single-to-Multi-Transmitter Scenario [60.906711761476735]
PathFinderは、アンタングル化された特徴符号化を通じて建物や送信機を積極的にモデル化する新しいアーキテクチャである。テストでは、PathFinderは最先端のメソッド、特に挑戦的なマルチトランスミッタシナリオにおいて、大幅にパフォーマンスが向上している。
論文参考訳（メタデータ） (2025-12-16T07:15:15Z)
Quantized Visual Geometry Grounded Transformer [67.15451442018258]
本稿では,VGGTの最初の量子化フレームワーク,すなわちQuantVGGTを提案する。球状前アダマール回転と局所流路平滑化を統合したDual-Smoothed Fine-Grained Quantizationを導入する。また、重層統計量を用いて外周をフィルタするノイズフィルタディバースサンプリングを設計する。
論文参考訳（メタデータ） (2025-09-25T15:17:11Z)
Function Encoders: A Principled Approach to Transfer Learning in Hilbert Spaces [16.849614123426772]
ヒルベルト空間における移動の幾何学的特徴付けを導入し、3種類の帰納的移動を定義する。本稿では,関数エンコーダの理論に基づく3種類の転送を実現する手法を提案する。実験の結果,関数エンコーダは4つのベンチマークタスクと3種類の転送において,最先端の手法よりも優れていた。
論文参考訳（メタデータ） (2025-01-30T14:26:23Z)
The Art of Imitation: Learning Long-Horizon Manipulation Tasks from Few Demonstrations [13.747258771184372]
TP-GMMの適用にはいくつかのオープンな課題がある。我々はロボットのエンドエフェクター速度を方向と大きさに分解する。次に、複雑な実証軌道からセグメントとシーケンスのスキルを抽出する。私たちのアプローチでは,5つのデモから複雑な操作タスクを学習することが可能です。
論文参考訳（メタデータ） (2024-07-18T12:01:09Z)
SAM-E: Leveraging Visual Foundation Model with Sequence Imitation for Embodied Manipulation [62.58480650443393]
Segment Anything (SAM) は、一般化可能なシーン理解とシーケンス模倣のための視覚境界モデルである。我々は,単一パスにおけるアクションシーケンスの予測を可能にする,新しいマルチチャネルヒートマップを開発した。
論文参考訳（メタデータ） (2024-05-30T00:32:51Z)
Deciphering Movement: Unified Trajectory Generation Model for Multi-Agent [53.637837706712794]
任意の軌道をマスク入力として処理する統一軌道生成モデルUniTrajを提案する。具体的には,空間特徴抽出のためのトランスフォーマーエンコーダ内に埋め込まれたゴースト空間マスキング(GSM)モジュールを導入する。バスケットボール-U,サッカー-U,サッカー-Uの3つの実用的なスポーツゲームデータセットをベンチマークして評価を行った。
論文参考訳（メタデータ） (2024-05-27T22:15:23Z)
DITTO: Demonstration Imitation by Trajectory Transformation [31.930923345163087]
そこで本研究では,RGB-Dビデオ録画による実演映像のワンショット模倣の問題に対処する。本稿では,2段階のプロセスを提案する。第1段階では実演軌道をオフラインに抽出し,操作対象のセグメンテーションと,容器などの二次物体に対する相対運動を決定する。オンライン軌道生成段階では、まず全ての物体を再検出し、次にデモ軌道を現在のシーンにワープし、ロボット上で実行します。
論文参考訳（メタデータ） (2024-03-22T13:46:51Z)
Invertible Fourier Neural Operators for Tackling Both Forward and Inverse Problems [18.48295539583625]
前方および逆問題の両方に対処する可逆フーリエニューラル演算子(iFNO)を提案する。我々は,入力空間内の固有構造を捕捉し,後部推論を可能にする変分自動エンコーダを統合した。 5つのベンチマーク問題に対する評価は,提案手法の有効性を実証した。
論文参考訳（メタデータ） (2024-02-18T22:16:43Z)
Deformable Mixer Transformer with Gating for Multi-Task Learning of Dense Prediction [126.34551436845133]
CNNとTransformerには独自の利点があり、MTL(Multi-task Learning)の高密度予測に広く使われている。本稿では,変形可能なCNNと問合せベースのTransformerの長所を共用したMTLモデルを提案する。
論文参考訳（メタデータ） (2023-08-10T17:37:49Z)
Decision S4: Efficient Sequence-Based RL via State Spaces Layers [87.3063565438089]
我々は、S4モデルの訓練効率を維持しつつ、軌道で機能する非政治的な訓練手順を提案する。反復的に訓練され、長距離依存の恩恵を受け、新しい安定したアクター・クリティカルなメカニズムをベースとした、オンデマンドのトレーニング手順。
論文参考訳（メタデータ） (2023-06-08T13:03:53Z)
SepTr: Separable Transformer for Audio Spectrogram Processing [74.41172054754928]
分離可能トランス (Separable Transformer, SepTr) と呼ばれる新しい視覚変換器アーキテクチャを提案する。 SepTrは2つのトランスフォーマーブロックを逐次的に使用し、1つは同じ周波数ビン内のトークンに、もう1つは同じ時間間隔でトークンに出席する。我々は3つのベンチマークデータセットで実験を行い、我々のアーキテクチャが従来のビジョントランスフォーマーや他の最先端の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2022-03-17T19:48:43Z)
ATISS: Autoregressive Transformers for Indoor Scene Synthesis [112.63708524926689]
我々は,合成室内環境を構築するための新しい自己回帰型トランスフォーマーアーキテクチャであるATISSを紹介する。この定式化は、ATISSが完全に自動的な部屋レイアウト合成を超えて一般的に有用になるため、より自然なものであると我々は主張する。本モデルは,ラベル付き3Dバウンディングボックスのみを監督として,自動回帰生成モデルとしてエンドツーエンドで訓練されている。
論文参考訳（メタデータ） (2021-10-07T17:58:05Z)
Learning to Shift Attention for Motion Generation [55.61994201686024]
ロボット学習を用いた動作生成の課題の1つは、人間のデモが1つのタスククエリに対して複数のモードを持つ分布に従うことである。以前のアプローチでは、すべてのモードをキャプチャできなかったり、デモの平均モードを取得できないため、無効なトラジェクトリを生成する傾向があった。この問題を克服する外挿能力を有するモーション生成モデルを提案する。
論文参考訳（メタデータ） (2021-02-24T09:07:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。