論文の概要: Learning Visually Interpretable Oscillator Networks for Soft Continuum Robots from Video
- arxiv url: http://arxiv.org/abs/2511.18322v1
- Date: Sun, 23 Nov 2025 07:27:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.772325
- Title: Learning Visually Interpretable Oscillator Networks for Soft Continuum Robots from Video
- Title(参考訳): 映像からのソフト連続ロボットのための視覚的解釈可能なオシレータネットワークの学習
- Authors: Henrik Krauss, Johann Licher, Naoya Takeishi, Annika Raatz, Takehisa Yairi,
- Abstract要約: 本稿では,自動エンコーダに基づく潜在動的学習のためのプラグイン・アンド・プレイモジュールであるAttention Broadcast Decoder (ABCD)を紹介する。
ABCDは静的背景をフィルタリングしながら、各潜伏次元の寄与をローカライズした画素精度の注意マップを生成する。
ABCDに基づくモデルにより,複数ステップの予測精度が大幅に向上することが実証された。
- 参考スコア(独自算出の注目度): 4.857795247230421
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data-driven learning of soft continuum robot (SCR) dynamics from high-dimensional observations offers flexibility but often lacks physical interpretability, while model-based approaches require prior knowledge and can be computationally expensive. We bridge this gap by introducing (1) the Attention Broadcast Decoder (ABCD), a plug-and-play module for autoencoder-based latent dynamics learning that generates pixel-accurate attention maps localizing each latent dimension's contribution while filtering static backgrounds. (2) By coupling these attention maps to 2D oscillator networks, we enable direct on-image visualization of learned dynamics (masses, stiffness, and forces) without prior knowledge. We validate our approach on single- and double-segment SCRs, demonstrating that ABCD-based models significantly improve multi-step prediction accuracy: 5.7x error reduction for Koopman operators and 3.5x for oscillator networks on the two-segment robot. The learned oscillator network autonomously discovers a chain structure of oscillators. Unlike standard methods, ABCD models enable smooth latent space extrapolation beyond training data. This fully data-driven approach yields compact, physically interpretable models suitable for control applications.
- Abstract(参考訳): ソフト連続ロボット(SCR)の高次元観測からのデータ駆動学習は柔軟性を提供するが、物理的解釈性に欠けることが多い。
本研究では,(1)アテンションブロードキャストデコーダ(ABCD, Attention Broadcast Decoder)を導入してこのギャップを埋める。これは,静的背景をフィルタリングしながら,各潜時次元の寄与をローカライズする画素精度の注意マップを生成する自動エンコーダに基づく潜時ダイナミクス学習用プラグイン・アンド・プレイモジュールである。
2)これらの注意図を2次元発振器ネットワークに結合することにより,学習されたダイナミックス(質量,剛性,力)を事前の知識なく直接画像上で可視化することができる。
ABCDをベースとしたモデルでは,Koopman演算子の5.7倍の誤差低減と2段ロボットの発振器ネットワークの3.5倍の精度で,マルチステップ予測精度が大幅に向上することが実証された。
学習された発振器ネットワークは、発振器の連鎖構造を自律的に発見する。
標準手法とは異なり、ABCDモデルはトレーニングデータ以外のスムーズな遅延空間外挿を可能にする。
この完全データ駆動のアプローチは、制御アプリケーションに適したコンパクトで物理的に解釈可能なモデルをもたらす。
関連論文リスト
- A Lesson in Splats: Teacher-Guided Diffusion for 3D Gaussian Splats Generation with 2D Supervision [65.33043028101471]
本稿では,2次元監視のみを用いた3次元画像調和拡散モデルの学習フレームワークを提案する。
既存の3D生成モデルは、大規模な3Dデータセットが不足しているため、完全に3Dの監視に依存している。
論文 参考訳(メタデータ) (2024-12-01T00:29:57Z) - VidMan: Exploiting Implicit Dynamics from Video Diffusion Model for Effective Robot Manipulation [79.00294932026266]
VidManは、安定性を高め、データ利用効率を向上させるために、2段階のトレーニングメカニズムを使用する新しいフレームワークである。
我々のフレームワークは、CALVINベンチマークで最先端のベースラインモデルGR-1を上回り、11.7%の相対的な改善を実現し、OXEの小規模データセットで9%以上の精度向上を示す。
論文 参考訳(メタデータ) (2024-11-14T03:13:26Z) - Joint Beam Search Integrating CTC, Attention, and Transducer Decoders [53.297697898510194]
4つのデコーダが同一のエンコーダを共有するような共同モデリング手法を提案する。
4Dモデルは共同で訓練され、モデルの正規化とモデルの堅牢性を最大化する。
さらに,3つのデコーダを組み合わせることで,新しい3つのビーム探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-05T05:18:20Z) - Copilot4D: Learning Unsupervised World Models for Autonomous Driving via Discrete Diffusion [36.321494200830244]
Copilot4Dは、まずVQVAEでセンサ観測をトークン化し、次に離散拡散によって未来を予測する新しい世界モデリング手法である。
本研究は,ロボット工学におけるGPTのような非教師なし学習のパワーを,トークン化エージェント体験における離散拡散によって解き放つことを示す。
論文 参考訳(メタデータ) (2023-11-02T06:21:56Z) - Dynamic Encoding and Decoding of Information for Split Learning in
Mobile-Edge Computing: Leveraging Information Bottleneck Theory [1.1151919978983582]
Split Learning(スプリットラーニング)は、MLモデルを2つの部分(エンコーダとデコーダ)に分割する、プライバシ保護の分散学習パラダイムである。
モバイルエッジコンピューティングでは、エンコーダがユーザ機器(UE)に、デコーダがエッジネットワークに、分割学習によってネットワーク機能を訓練することができる。
本稿では,送信リソース消費の動的バランスと,共有潜在表現の情報化を両立させるためのフレームワークとトレーニング機構を提案する。
論文 参考訳(メタデータ) (2023-09-06T07:04:37Z) - Denoising Diffusion Autoencoders are Unified Self-supervised Learners [58.194184241363175]
本稿では,拡散モデルにおけるネットワーク,すなわち拡散オートエンコーダ(DDAE)が,自己教師型学習者の統合であることを示す。
DDAEはすでに、補助エンコーダを使わずに、中間層内で線形分離可能な表現を強く学習している。
CIFAR-10 と Tiny-ImageNet の線形評価精度は95.9% と 50.0% である。
論文 参考訳(メタデータ) (2023-03-17T04:20:47Z) - Real-to-Sim: Predicting Residual Errors of Robotic Systems with Sparse
Data using a Learning-based Unscented Kalman Filter [65.93205328894608]
我々は,動的・シミュレータモデルと実ロボット間の残差を学習する。
学習した残差誤差により、動的モデル、シミュレーション、および実際のハードウェア間の現実的ギャップをさらに埋めることができることを示す。
論文 参考訳(メタデータ) (2022-09-07T15:15:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。