論文の概要: DISC: Decoupling Instruction from State-Conditioned Control via Policy Generation
- arxiv url: http://arxiv.org/abs/2605.20856v1
- Date: Wed, 20 May 2026 07:45:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.558212
- Title: DISC: Decoupling Instruction from State-Conditioned Control via Policy Generation
- Title(参考訳): DISC:政策生成による国家要求制御からの指示の分離
- Authors: Hanxiang Ren, Pei Zhou, Xunzhe Zhou, Yanchao Yang,
- Abstract要約: 言語条件の操作ポリシーは通常、共有ネットワークパラメータを通して命令と観察を処理する。
DISCはハイパーネットワークを使用して、命令のみからタスク固有のビジュモータポリシーを生成する。
DISCは、現実世界のベンチマークにおいて、絡み合った代替品を大幅に上回っている。
- 参考スコア(独自算出の注目度): 11.471799914814467
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language-conditioned manipulation policies typically process instructions and observations through shared network parameters. This task-state entanglement provides a pathway for observation leakage -- networks learn scene-to-action shortcuts that bypass language grounding entirely. DISC eliminates this failure structurally. Rather than conditioning a universal policy on language, DISC uses a hypernetwork to generate the entire parameter set of a task-specific visuomotor policy from the instruction alone. The generated policy never directly accesses language; therefore, its task-awareness must come from the language. Consequently, observation leakage has no pathway to emerge. On the other hand, generating coherent high-dimensional policy weights is itself a challenging problem. We address it with a two-stage hypernetwork whose refinement stage embeds the structure of gradient-based optimization as a feed-forward inductive bias, producing globally consistent parameters without actual gradient computation. Trained entirely from scratch on standard data budgets, DISC outperforms all entangled baselines on LIBERO-90 and Meta-World, with advantages that widen on complex, long-horizon tasks -- and surpasses the large-scale pretrained $π_0$ despite using no external pretraining data. On a real-world benchmark where all tasks share identical visual context, DISC substantially outperforms entangled alternatives, directly confirming that language-generated policy parameters, not visual shortcuts, drive behavior. The hypernetwork further learns a semantically structured parameter manifold that enables few-shot adaptation from minimal demonstrations and robust generalization across paraphrased instructions. Our code is available at: {https://github.com/ReNginx/DISC}.
- Abstract(参考訳): 言語条件の操作ポリシーは通常、共有ネットワークパラメータを通して命令と観察を処理する。
このタスク状態の絡み合いは、監視リークの経路を提供する -- ネットワークは、言語基盤を完全にバイパスするシーン間ショートカットを学習する。
DISCはこの故障を構造的に排除する。
DISCは、言語に普遍的なポリシーを条件付けるのではなく、ハイパーネットワークを使用して、命令のみからタスク固有のビジュモータポリシーのパラメータセット全体を生成する。
生成されたポリシーは言語に直接アクセスしないので、そのタスク認識は言語から来なければならない。
その結果、観測漏れは発生経路を持たない。
一方、コヒーレントな高次元政策重みの生成は、それ自体が困難な問題である。
そこで我々は,2段階のハイパーネットワークを用いて,勾配に基づく最適化構造をフィードフォワードインダクティブバイアスとして組み込んで,実際の勾配計算を行なわずに一貫したパラメータを生成する。
標準データ予算のスクラッチから完全にトレーニングされた DisC は,LIBERO-90 と Meta-World のすべての絡み合ったベースラインを上回り,複雑な長期タスクを対象とするメリットがある – 外部事前トレーニングデータを使用しなくても,大規模な事前トレーニングされた$π_0$ を超えている。
全てのタスクが同一の視覚的コンテキストを共有する実世界のベンチマークでは、disCは絡み合った代替案を著しく上回り、視覚的ショートカットではなく、言語が生成するポリシーパラメータを直接確認し、振る舞いを駆動する。
ハイパーネットワークはさらに意味的に構造化されたパラメータ多様体を学習し、最小限のデモンストレーションから少数ショット適応とパラフレーズ命令による堅牢な一般化を可能にした。
私たちのコードは以下の通りです。
関連論文リスト
- Referring-Aware Visuomotor Policy Learning for Closed-Loop Manipulation [91.20850436220267]
Referring-Aware Visuomotor Policy(ReV)について紹介する。
ReVは、人間または高レベルの推論プランナーによって提供されるスパース参照ポイントを組み込む。
これは、専門家のデモンストレーションにターゲットの摂動を適用することでのみ訓練される。
論文 参考訳(メタデータ) (2026-04-07T07:41:11Z) - DISC: Dense Integrated Semantic Context for Large-Scale Open-Set Semantic Mapping [5.520073359436354]
オープンセットセマンティックマッピングは、言語駆動型ロボット知覚を可能にする。
現在のインスタンス中心のアプローチは、コンテキスト分離と計算コストの高い作物ベースの特徴抽出によってボトルネック化されている。
DISC(Dense Integrated Semantic Context)を導入し,新しいシングルパス,距離重み付き抽出機構を特徴とする。
論文 参考訳(メタデータ) (2026-03-04T10:47:06Z) - UniManip: General-Purpose Zero-Shot Robotic Manipulation with Agentic Operational Graph [23.060488218180936]
We present UniManip, a framework based on a Bi-level Agentic Operational Graph (AOG)
タスクオーケストレーションのための高レベルのエージェント層と、動的状態表現のための低レベルのScene Layerを結合することにより、システムは、抽象的な計画と幾何学的制約を継続的に整合させる。
実験では、未確認のオブジェクトやタスクに対するシステムの堅牢なゼロショット能力を評価し、最先端のVLAや階層的なベースラインと比較して22.5%と25.0%の成功率を示した。
論文 参考訳(メタデータ) (2026-02-13T16:47:26Z) - V-CAGE: Context-Aware Generation and Verification for Scalable Long-Horizon Embodied Tasks [6.820118518027692]
V-CAGEは、大規模なセマンティックアライメントデータセットを生成するクローズドループフレームワークである。
本研究では,シーン合成における幾何学的整合性を実現する文脈認識型インスタンス化機構を提案する。
また、階層的な命令分解モジュールを用いて、抽象意図と低レベル制御のギャップを埋める。
論文 参考訳(メタデータ) (2026-01-21T16:41:51Z) - Ground-Compose-Reinforce: Grounding Language in Agentic Behaviours using Limited Data [17.614395125762304]
認識と行動における接地言語は、人間や他のエージェントと対話できる位置にあるエージェントを構築する上で、言語を介して重要な課題である。
高レベルタスク仕様から直接RLエージェントを訓練するためのエンドツーエンドのニューロシンボリックフレームワークであるGround-Compose-Reinforceを提案する。
論文 参考訳(メタデータ) (2025-07-14T19:05:15Z) - Embodied-RAG: General Non-parametric Embodied Memory for Retrieval and Generation [69.01029651113386]
Embodied-RAGは、非パラメトリックメモリシステムによるエンボディエージェントのモデルを強化するフレームワークである。
コアとなるEmbodied-RAGのメモリはセマンティックフォレストとして構成され、言語記述を様々なレベルで詳細に保存する。
Embodied-RAGがRAGをロボット領域に効果的にブリッジし、250以上の説明とナビゲーションクエリをうまく処理できることを実証する。
論文 参考訳(メタデータ) (2024-09-26T21:44:11Z) - Foundation Policies with Hilbert Representations [54.44869979017766]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。
我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。
実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文 参考訳(メタデータ) (2024-02-23T19:09:10Z) - Offline Imitation Learning with Variational Counterfactual Reasoning [17.344961438658427]
エージェントは、オフライン模倣学習(IL)において、オンライン環境を付加せずに最適な専門家の行動ポリシーを学習することを目的としている。
本稿では,アンダーライン・アンダーライン・インダーライン・インダーラインLearning with UnderlineCounterfactual Data UnderlineAugmentation (OILCA) by doing counterfactual Inferenceを提案する。
論文 参考訳(メタデータ) (2023-10-07T06:52:18Z) - GenURL: A General Framework for Unsupervised Representation Learning [58.59752389815001]
教師なし表現学習(URL)は、教師なしの高次元データのコンパクトな埋め込みを学習する。
本稿では,様々なURLタスクにスムーズに適応可能な類似性ベースの統合URLフレームワークGenURLを提案する。
実験により、GenURLは、自己教師付き視覚学習、無教師付き知識蒸留(KD)、グラフ埋め込み(GE)、次元縮小において、一貫した最先端性能を達成することが示された。
論文 参考訳(メタデータ) (2021-10-27T16:24:39Z) - MirrorWiC: On Eliciting Word-in-Context Representations from Pretrained
Language Models [61.48034827104998]
言語モデルにおけるワード・イン・コンテクスト(WiC)表現を改善するための教師なしアプローチを提案する。
MirrorWiCは標準的なコントラスト学習設定内でコンテキスト対応の単語表現を学習する。
提案した完全教師なしMirrorWiCモデルは,モノリンガル,マルチリンガル,クロスリンガルのすべてのセットアップにおいて,市販のPLMよりも大幅に向上する。
論文 参考訳(メタデータ) (2021-09-19T22:19:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。