論文の概要: Learning Visually Interpretable Oscillator Networks for Soft Continuum Robots from Video
- arxiv url: http://arxiv.org/abs/2511.18322v1
- Date: Sun, 23 Nov 2025 07:27:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.772325
- Title: Learning Visually Interpretable Oscillator Networks for Soft Continuum Robots from Video
- Title(参考訳): 映像からのソフト連続ロボットのための視覚的解釈可能なオシレータネットワークの学習
- Authors: Henrik Krauss, Johann Licher, Naoya Takeishi, Annika Raatz, Takehisa Yairi,
- Abstract要約: 本稿では,自動エンコーダに基づく潜在動的学習のためのプラグイン・アンド・プレイモジュールであるAttention Broadcast Decoder (ABCD)を紹介する。
ABCDは静的背景をフィルタリングしながら、各潜伏次元の寄与をローカライズした画素精度の注意マップを生成する。
ABCDに基づくモデルにより,複数ステップの予測精度が大幅に向上することが実証された。
- 参考スコア(独自算出の注目度): 4.857795247230421
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data-driven learning of soft continuum robot (SCR) dynamics from high-dimensional observations offers flexibility but often lacks physical interpretability, while model-based approaches require prior knowledge and can be computationally expensive. We bridge this gap by introducing (1) the Attention Broadcast Decoder (ABCD), a plug-and-play module for autoencoder-based latent dynamics learning that generates pixel-accurate attention maps localizing each latent dimension's contribution while filtering static backgrounds. (2) By coupling these attention maps to 2D oscillator networks, we enable direct on-image visualization of learned dynamics (masses, stiffness, and forces) without prior knowledge. We validate our approach on single- and double-segment SCRs, demonstrating that ABCD-based models significantly improve multi-step prediction accuracy: 5.7x error reduction for Koopman operators and 3.5x for oscillator networks on the two-segment robot. The learned oscillator network autonomously discovers a chain structure of oscillators. Unlike standard methods, ABCD models enable smooth latent space extrapolation beyond training data. This fully data-driven approach yields compact, physically interpretable models suitable for control applications.
- Abstract(参考訳): ソフト連続ロボット(SCR)の高次元観測からのデータ駆動学習は柔軟性を提供するが、物理的解釈性に欠けることが多い。
本研究では,(1)アテンションブロードキャストデコーダ(ABCD, Attention Broadcast Decoder)を導入してこのギャップを埋める。これは,静的背景をフィルタリングしながら,各潜時次元の寄与をローカライズする画素精度の注意マップを生成する自動エンコーダに基づく潜時ダイナミクス学習用プラグイン・アンド・プレイモジュールである。
2)これらの注意図を2次元発振器ネットワークに結合することにより,学習されたダイナミックス(質量,剛性,力)を事前の知識なく直接画像上で可視化することができる。
ABCDをベースとしたモデルでは,Koopman演算子の5.7倍の誤差低減と2段ロボットの発振器ネットワークの3.5倍の精度で,マルチステップ予測精度が大幅に向上することが実証された。
学習された発振器ネットワークは、発振器の連鎖構造を自律的に発見する。
標準手法とは異なり、ABCDモデルはトレーニングデータ以外のスムーズな遅延空間外挿を可能にする。
この完全データ駆動のアプローチは、制御アプリケーションに適したコンパクトで物理的に解釈可能なモデルをもたらす。
関連論文リスト
- Efficient Sequential Neural Network with Spatial-Temporal Attention and Linear LSTM for Robust Lane Detection Using Multi-Frame Images [3.8825198843426345]
レーン検出は、自動走行車(AV)と先進運転支援システムにとって重要な認識課題である。
現行の手法では、正確で堅牢でリアルタイムに車線検出を実現するための汎用性が欠如している。
本研究では,車線の重要な特徴に焦点をあてる空間的注意機構を備えた新しい逐次ニューラルネットワークモデルを提案する。
論文 参考訳(メタデータ) (2026-02-03T15:51:29Z) - Future Optical Flow Prediction Improves Robot Control & Video Generation [100.87884718953099]
本稿では,VLM(Vision-Language Model)と拡散アーキテクチャを組み合わせた新しい光フロー予測モデルFOFPredを紹介する。
我々のモデルは、高度にスケーラブルだが非構造化のソースである、Webスケールの人間活動データに基づいて訓練されている。
言語駆動設定下でのロボット操作とビデオ生成による評価は、FOFPredのクロスドメインの汎用性を確立する。
論文 参考訳(メタデータ) (2026-01-15T18:49:48Z) - mimic-video: Video-Action Models for Generalizable Robot Control Beyond VLAs [5.109732854501585]
そこで我々は,事前学習したインターネットスケールのビデオモデルと,その潜在表現に条件付けされたフローマッチングに基づくアクションデコーダを組み合わせた,新しいビデオ・アクション・モデル(VAM)を提案する。
提案手法は,シミュレーションおよび実世界のロボット操作タスクにおける最先端性能を実現し,サンプル効率を10倍,収束速度を2倍向上させる。
論文 参考訳(メタデータ) (2025-12-17T18:47:31Z) - Reinforced Interactive Continual Learning via Real-time Noisy Human Feedback [59.768119380109084]
本稿では,AIモデルがリアルタイムフィードバックから新たなスキルを動的に学習する対話型連続学習パラダイムを提案する。
大規模言語モデル(LLM)を活用した強化型対話型連続学習フレームワークRiCLを提案する。
我々のRiCLアプローチは、最先端のオンライン連続学習とノイズラベル学習の既存の組み合わせを大幅に上回っている。
論文 参考訳(メタデータ) (2025-05-15T03:22:03Z) - A Lesson in Splats: Teacher-Guided Diffusion for 3D Gaussian Splats Generation with 2D Supervision [65.33043028101471]
本稿では,2次元監視のみを用いた3次元画像調和拡散モデルの学習フレームワークを提案する。
既存の3D生成モデルは、大規模な3Dデータセットが不足しているため、完全に3Dの監視に依存している。
論文 参考訳(メタデータ) (2024-12-01T00:29:57Z) - VidMan: Exploiting Implicit Dynamics from Video Diffusion Model for Effective Robot Manipulation [79.00294932026266]
VidManは、安定性を高め、データ利用効率を向上させるために、2段階のトレーニングメカニズムを使用する新しいフレームワークである。
我々のフレームワークは、CALVINベンチマークで最先端のベースラインモデルGR-1を上回り、11.7%の相対的な改善を実現し、OXEの小規模データセットで9%以上の精度向上を示す。
論文 参考訳(メタデータ) (2024-11-14T03:13:26Z) - 4D Contrastive Superflows are Dense 3D Representation Learners [62.433137130087445]
我々は,LiDARとカメラのペアを連続的に利用して事前学習の目的を確立するための,新しいフレームワークであるSuperFlowを紹介する。
学習効率をさらに向上するため,カメラビューから抽出した知識の整合性を高めるプラグイン・アンド・プレイ・ビュー・一貫性モジュールを組み込んだ。
論文 参考訳(メタデータ) (2024-07-08T17:59:54Z) - Joint Beam Search Integrating CTC, Attention, and Transducer Decoders [53.297697898510194]
4つのデコーダが同一のエンコーダを共有するような共同モデリング手法を提案する。
4Dモデルは共同で訓練され、モデルの正規化とモデルの堅牢性を最大化する。
さらに,3つのデコーダを組み合わせることで,新しい3つのビーム探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-05T05:18:20Z) - Copilot4D: Learning Unsupervised World Models for Autonomous Driving via Discrete Diffusion [36.321494200830244]
Copilot4Dは、まずVQVAEでセンサ観測をトークン化し、次に離散拡散によって未来を予測する新しい世界モデリング手法である。
本研究は,ロボット工学におけるGPTのような非教師なし学習のパワーを,トークン化エージェント体験における離散拡散によって解き放つことを示す。
論文 参考訳(メタデータ) (2023-11-02T06:21:56Z) - Dynamic Encoding and Decoding of Information for Split Learning in
Mobile-Edge Computing: Leveraging Information Bottleneck Theory [1.1151919978983582]
Split Learning(スプリットラーニング)は、MLモデルを2つの部分(エンコーダとデコーダ)に分割する、プライバシ保護の分散学習パラダイムである。
モバイルエッジコンピューティングでは、エンコーダがユーザ機器(UE)に、デコーダがエッジネットワークに、分割学習によってネットワーク機能を訓練することができる。
本稿では,送信リソース消費の動的バランスと,共有潜在表現の情報化を両立させるためのフレームワークとトレーニング機構を提案する。
論文 参考訳(メタデータ) (2023-09-06T07:04:37Z) - Denoising Diffusion Autoencoders are Unified Self-supervised Learners [58.194184241363175]
本稿では,拡散モデルにおけるネットワーク,すなわち拡散オートエンコーダ(DDAE)が,自己教師型学習者の統合であることを示す。
DDAEはすでに、補助エンコーダを使わずに、中間層内で線形分離可能な表現を強く学習している。
CIFAR-10 と Tiny-ImageNet の線形評価精度は95.9% と 50.0% である。
論文 参考訳(メタデータ) (2023-03-17T04:20:47Z) - Real-to-Sim: Predicting Residual Errors of Robotic Systems with Sparse
Data using a Learning-based Unscented Kalman Filter [65.93205328894608]
我々は,動的・シミュレータモデルと実ロボット間の残差を学習する。
学習した残差誤差により、動的モデル、シミュレーション、および実際のハードウェア間の現実的ギャップをさらに埋めることができることを示す。
論文 参考訳(メタデータ) (2022-09-07T15:15:12Z) - Physics-Inspired Temporal Learning of Quadrotor Dynamics for Accurate
Model Predictive Trajectory Tracking [76.27433308688592]
クオーロタのシステムダイナミクスを正確にモデル化することは、アジャイル、安全、安定したナビゲーションを保証する上で非常に重要です。
本稿では,ロボットの経験から,四重項系の力学を純粋に学習するための新しい物理インスパイアされた時間畳み込みネットワーク(PI-TCN)を提案する。
提案手法は,スパース時間的畳み込みと高密度フィードフォワード接続の表現力を組み合わせて,正確なシステム予測を行う。
論文 参考訳(メタデータ) (2022-06-07T13:51:35Z) - RAUM-VO: Rotational Adjusted Unsupervised Monocular Visual Odometry [0.0]
本稿では,フレーム間動き推定のためのモデルフリーなエピポーラ制約に基づくRAUM-VOを提案する。
RAUM-VOは、KITTIデータセット上の他の教師なしポーズネットワークと比較してかなり精度が向上している。
論文 参考訳(メタデータ) (2022-03-14T15:03:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。