論文の概要: OPAL: Encoding Causal Understanding of Physical Systems for Robot Learning
- arxiv url: http://arxiv.org/abs/2504.06538v1
- Date: Wed, 09 Apr 2025 02:29:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-10 13:05:36.066314
- Title: OPAL: Encoding Causal Understanding of Physical Systems for Robot Learning
- Title(参考訳): OPAL:ロボット学習のための物理システムの因果理解を符号化する
- Authors: Daniel Tcheurekdjian, Joshua Klasmeier, Tom Cooney, Christopher McCann, Tyler Fenstermaker,
- Abstract要約: 本稿では,ロボット制御のためのフローマッチングにトポロジ的制約を導入する,視覚-言語-アクションアーキテクチャであるOPALを提案する。
10の複雑な操作タスクにまたがる実験結果から、OPALは従来のアプローチよりも優れた性能を示している。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We present OPAL (Operant Physical Agent with Language), a novel vision-language-action architecture that introduces topological constraints to flow matching for robotic control. To do so, we further introduce topological attention. Our approach models action sequences as topologically-structured representations with non-trivial constraints. Experimental results across 10 complex manipulation tasks demonstrate OPAL's superior performance compared to previous approaches, including Octo, OpenVLA, and ${\pi}$0. Our architecture achieves significant improvements in zero-shot performance without requiring task-specific fine-tuning, while reducing inference computational requirements by 42%. The theoretical guarantees provided by our topological approach result in more coherent long-horizon action sequences. Our results highlight the potential of constraining the search space of learning problems in robotics by deriving from fundamental physical laws, and the possibility of using topological attention to embed causal understanding into transformer architectures.
- Abstract(参考訳): 本稿では,ロボット制御のためのフローマッチングにトポロジ的制約を導入する新しい視覚-言語-アクションアーキテクチャであるOPAL(Operant Physical Agent with Language)を提案する。
そのために、トポロジカルアテンションをさらに導入する。
提案手法は,非自明な制約を持つトポロジカルな表現として行動列をモデル化する。
10の複雑な操作タスクに対する実験結果は、OPALがOcto、OpenVLA、${\pi}$0といった従来のアプローチに比べて優れた性能を示した。
本アーキテクチャは,タスク固有の微調整を必要とせず,推論計算の要求を42%削減し,ゼロショット性能の大幅な向上を実現している。
トポロジカルアプローチによって提供される理論的保証は、よりコヒーレントなロングホライゾンアクションシーケンスをもたらす。
本研究は,ロボット工学における学習問題の探索空間を,基本的物理法則から導出することで制約する可能性,およびトポロジカル・アテンションを用いて因果的理解をトランスフォーマー・アーキテクチャに組み込む可能性を強調した。
関連論文リスト
- Over the Edge of Chaos? Excess Complexity as a Roadblock to Artificial General Intelligence [4.901955678857442]
我々は、AIの性能が臨界複雑性しきい値を超えると不安定になるかもしれない複雑なシステムにおける位相遷移に類似した臨界点の存在を仮定した。
我々のシミュレーションは、AIシステムの複雑さの増加が、より高い臨界閾値を超え、予測不可能なパフォーマンス行動を引き起こすことを実証した。
論文 参考訳(メタデータ) (2024-07-04T05:46:39Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Explainable Equivariant Neural Networks for Particle Physics: PELICAN [51.02649432050852]
PELICANは、新しい置換同変であり、ローレンツ不変アグリゲーターネットワークである。
本稿では,タグ付け(分類)とローレンツ発泡トップクォークの再構成(回帰)の両文脈におけるPELICANアルゴリズムアーキテクチャについて述べる。
PELICANの適用範囲を、クォーク開始時とグルーオン開始時とを識別するタスクに拡張し、5種類のジェットを対象とするマルチクラス同定を行う。
論文 参考訳(メタデータ) (2023-07-31T09:08:40Z) - Beyond Multilayer Perceptrons: Investigating Complex Topologies in
Neural Networks [0.12289361708127873]
ニューラルネットワーク(ANN)の近似能力に及ぼすネットワークトポロジの影響について検討する。
本稿では,Barab'asi-Albert,ErdHos-R'enyi,Watts-Strogatz,Multilayer perceptrons(MLPs)など,様々なトポロジに基づく複雑なANNの構築手法を提案する。
構築されたネットワークは、多様体学習ジェネレータから生成された合成データセット、タスクの難易度とノイズのレベル、およびUCIの実際のデータセットに基づいて評価される。
論文 参考訳(メタデータ) (2023-03-31T09:48:16Z) - Persformer: A Transformer Architecture for Topological Machine Learning [0.0]
Persformerは、永続化ダイアグラムを入力として受け入れる最初のTransformerニューラルネットワークアーキテクチャである。
本稿では、永続化ダイアグラムを入力として受け入れる最初のTransformerニューラルネットワークアーキテクチャであるPersformerを紹介する。
論文 参考訳(メタデータ) (2021-12-30T21:10:17Z) - GANTL: Towards Practical and Real-Time Topology Optimization with
Conditional GANs and Transfer Learning [0.0]
生成的設計探索のための生成的敵ネットワークに基づく深層学習手法を提案する。
提案手法は,条件付きGANの生成能力と伝達学習手法の知識伝達能力を組み合わせて,未知境界条件に対する最適位相を推定する。
論文 参考訳(メタデータ) (2021-05-07T03:13:32Z) - Structured Prediction for CRiSP Inverse Kinematics Learning with
Misspecified Robot Models [39.513301957826435]
本稿では,データ駆動戦略とフォワードキネマティックス関数を組み合わせた構造化予測アルゴリズムを提案する。
提案手法により、予測された関節構成がロボットの制約内に適切に収まることが保証される。
論文 参考訳(メタデータ) (2021-02-25T15:39:33Z) - Investigating Bi-Level Optimization for Learning and Vision from a
Unified Perspective: A Survey and Beyond [114.39616146985001]
機械学習やコンピュータビジョンの分野では、モチベーションやメカニズムが異なるにもかかわらず、複雑な問題の多くは、一連の密接に関連するサブプロトコルを含んでいる。
本稿では,BLO(Bi-Level Optimization)の観点から,これらの複雑な学習と視覚問題を一様に表現する。
次に、値関数に基づく単一レベル再構成を構築し、主流勾配に基づくBLO手法を理解し、定式化するための統一的なアルゴリズムフレームワークを確立する。
論文 参考訳(メタデータ) (2021-01-27T16:20:23Z) - A Trainable Optimal Transport Embedding for Feature Aggregation and its
Relationship to Attention [96.77554122595578]
固定サイズのパラメータ化表現を導入し、与えられた入力セットから、そのセットとトレーニング可能な参照の間の最適な輸送計画に従って要素を埋め込み、集約する。
我々のアプローチは大規模なデータセットにスケールし、参照のエンドツーエンドのトレーニングを可能にすると同時に、計算コストの少ない単純な教師なし学習メカニズムも提供する。
論文 参考訳(メタデータ) (2020-06-22T08:35:58Z) - Belief Propagation Reloaded: Learning BP-Layers for Labeling Problems [83.98774574197613]
最も単純な推論手法の1つとして、切り詰められた最大積のBelief伝播を取り上げ、それをディープラーニングモデルの適切なコンポーネントにするために必要となるものを加えます。
このBP-Layerは畳み込みニューラルネットワーク(CNN)の最終ブロックまたは中間ブロックとして使用できる
このモデルは様々な密集予測問題に適用可能であり、パラメータ効率が高く、ステレオ、光フロー、セマンティックセグメンテーションにおける堅牢な解を提供する。
論文 参考訳(メタデータ) (2020-03-13T13:11:35Z) - Local Propagation in Constraint-based Neural Network [77.37829055999238]
ニューラルネットワークアーキテクチャの制約に基づく表現について検討する。
本稿では,いわゆるアーキテクチャ制約を満たすのに適した簡単な最適化手法について検討する。
論文 参考訳(メタデータ) (2020-02-18T16:47:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。