Fugu-MT 論文翻訳(概要): Towards Interpretable Foundation Models of Robot Behavior: A Task Specific Policy Generation Approach

論文の概要: Towards Interpretable Foundation Models of Robot Behavior: A Task Specific Policy Generation Approach

arxiv url: http://arxiv.org/abs/2407.08065v1
Date: Wed, 10 Jul 2024 21:55:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-12 21:19:34.330964
Title: Towards Interpretable Foundation Models of Robot Behavior: A Task Specific Policy Generation Approach
Title（参考訳）: ロボット行動の解釈可能な基礎モデルに向けて:タスク特異的ポリシー生成アプローチ
Authors: Isaac Sheidlower, Reuben Aronson, Elaine Schaertl Short,
Abstract要約: ファンデーションモデルは、汎用的でユーザフレンドリーなロボットへの、有望な道のりだ。特に、タスク間のモジュラリティの欠如は、モデルの重みが更新されると、他の無関係なタスクの振る舞いが影響を受ける可能性があることを意味します。本稿では,スタンドアロンのタスク固有のポリシーを生成するロボット基盤モデルの設計に対する代替的アプローチを提案する。
参考スコア（独自算出の注目度）: 1.7205106391379026
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Foundation models are a promising path toward general-purpose and user-friendly robots. The prevalent approach involves training a generalist policy that, like a reinforcement learning policy, uses observations to output actions. Although this approach has seen much success, several concerns arise when considering deployment and end-user interaction with these systems. In particular, the lack of modularity between tasks means that when model weights are updated (e.g., when a user provides feedback), the behavior in other, unrelated tasks may be affected. This can negatively impact the system's interpretability and usability. We present an alternative approach to the design of robot foundation models, Diffusion for Policy Parameters (DPP), which generates stand-alone, task-specific policies. Since these policies are detached from the foundation model, they are updated only when a user wants, either through feedback or personalization, allowing them to gain a high degree of familiarity with that policy. We demonstrate a proof-of-concept of DPP in simulation then discuss its limitations and the future of interpretable foundation models.
Abstract（参考訳）: ファンデーションモデルは、汎用的でユーザフレンドリーなロボットへの、有望な道のりだ。一般的なアプローチは、強化学習政策と同様に、観察を使用して行動を生成する一般政策を訓練することである。このアプローチは多くの成功をおさめたが、デプロイやエンドユーザとのインタラクションを考慮すると、いくつかの懸念が生じている。特に、タスク間のモジュラリティの欠如は、モデルウェイトが更新された場合(例えば、ユーザがフィードバックを提供するとき)、他の非関連タスクの振る舞いが影響を受ける可能性があることを意味します。これはシステムの解釈可能性やユーザビリティに悪影響を及ぼす可能性がある。本稿では,ロボット基盤モデルの設計に対する代替的アプローチとしてDPP(Diffusion for Policy Parameters)を提案する。これらのポリシーはファンデーションモデルから切り離されているため、フィードバックやパーソナライゼーションを通じて、ユーザが望む場合にのみ更新される。シミュレーションにおけるDPPの概念実証を実証し,その限界と解釈可能な基礎モデルの将来について論じる。

関連論文リスト

Zero-Shot Whole-Body Humanoid Control via Behavioral Foundation Models [71.34520793462069]
教師なし強化学習(RL)は、複雑な環境下で幅広い下流タスクを解くことができる事前学習エージェントを目標としている。本稿では,ラベルのない行動データセットからトラジェクトリを模倣するための,教師なしRLの正規化アルゴリズムを提案する。我々は,この手法の有効性を,挑戦的なヒューマノイド制御問題において実証する。
論文参考訳（メタデータ） (2025-04-15T10:41:11Z)
Dense Policy: Bidirectional Autoregressive Learning of Actions [51.60428100831717]
本稿では,行動予測における自己回帰的政策の新たなパラダイムを確立するために,Dense Policyと呼ばれる双方向拡張学習手法を提案する。軽量なエンコーダのみのアーキテクチャを使用して、アクションシーケンスを初期単一フレームからターゲットシーケンスへ粗い方法で反復的に展開する。実験により、我々の密集した政策は自己回帰学習能力に優れており、既存の全体的生成ポリシーを超越できることが示された。
論文参考訳（メタデータ） (2025-03-17T14:28:08Z)
FDPP: Fine-tune Diffusion Policy with Human Preference [57.44575105114056]
人間の嗜好を考慮した微調整拡散政策は、嗜好に基づく学習を通して報酬関数を学習する。この報酬は、訓練済みの政策を強化学習で微調整するために使われる。実験により、FDPPは性能を損なうことなく、効果的にポリシーの動作をカスタマイズできることが示されている。
論文参考訳（メタデータ） (2025-01-14T17:15:27Z)
TAB-Fields: A Maximum Entropy Framework for Mission-Aware Adversarial Planning [2.4903631775244213]
我々は、既知の制約に整合した最も偏りのない確率分布を計算することにより、時間とともに敵状態の分布をキャプチャする表現を開発する。我々は,TAB条件付きPOMCPを導入することで,TAB-Fieldsを標準計画アルゴリズムと統合する。提案手法は,特定の敵政策を前提としたベースラインや,ミッション制約を完全に無視するベースラインと比較して,優れた性能を達成できることを実証する。
論文参考訳（メタデータ） (2024-12-03T16:55:27Z)
Inference-Time Policy Steering through Human Interactions [54.02655062969934]
推論中、人間はしばしばポリシー実行ループから取り除かれる。本稿では,人間のインタラクションを活用して生成するサンプリングプロセスにバイアスを与える推論時ポリシーステアリングフレームワークを提案する。提案手法は,アライメントと分布シフトの最良のトレードオフを実現する。
論文参考訳（メタデータ） (2024-11-25T18:03:50Z)
Make-An-Agent: A Generalizable Policy Network Generator with Behavior-Prompted Diffusion [41.52811286996212]
Make-An-Agentは、行動から政治への生成のための新しいポリシーパラメータジェネレータである。所望の行動の1つの実演をプロンプトとして、エージェントに対して制御ポリシーを生成する方法を示す。また,Make-An-Agentによって生成されたポリシーを,ロコモーションタスク上で現実世界のロボットに展開する。
論文参考訳（メタデータ） (2024-07-15T17:59:57Z)
Residual Q-Learning: Offline and Online Policy Customization without Value [53.47311900133564]
イミテーション・ラーニング(Imitation Learning, IL)は、実演から模倣行動を学ぶためのフレームワークである。政策カスタマイズと呼ばれる新しい問題設定を定式化する。本稿では,従来の政策を活かして定式化MDPを解くための新しいフレームワークであるResidual Q-learningを提案する。
論文参考訳（メタデータ） (2023-06-15T22:01:19Z)
Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文参考訳（メタデータ） (2023-06-09T07:22:12Z)
Goal-Conditioned Imitation Learning using Score-based Diffusion Policies [3.49482137286472]
スコアベース拡散モデル(SDM)に基づく新しいポリシー表現を提案する。我々はゴール・コンディションド・イミテーション・ラーニング(GCIL)の領域に新しい政策表現を適用した。直感的なガイダンスを用いて,遊びデータから目標に依存しないポリシーを学習するためにBESOをどのように利用できるかを示す。
論文参考訳（メタデータ） (2023-04-05T15:52:34Z)
To the Noise and Back: Diffusion for Shared Autonomy [2.341116149201203]
拡散モデルの前方および逆拡散過程を変調した共有自律性に対する新しいアプローチを提案する。我々のフレームワークは望ましい行動の空間上の分布を学習する。次に、拡散モデルを使用して、ユーザのアクションをこのディストリビューションのサンプルに変換する。
論文参考訳（メタデータ） (2023-02-23T18:58:36Z)
Policy Adaptation from Foundation Model Feedback [31.5870515250885]
視覚言語基盤モデルの最近の進歩は、汎用ロボットの構築に大きな進歩をもたらした。事前訓練されたモデルを使用してシーンと命令を意思決定の入力としてエンコードすることで、命令条件付きポリシーはさまざまなオブジェクトやタスクにわたって一般化することができる。本研究では,基礎モデルフィードバック(PAFF)からのポリシー適応を提案する。 PAFFはすべてのケースにおいて大きなマージンでベースラインを改善することを示す。
論文参考訳（メタデータ） (2022-12-14T18:31:47Z)
PARTNR: Pick and place Ambiguity Resolving by Trustworthy iNteractive leaRning [5.046831208137847]
本稿では,選択と配置のポーズにおける複数のモーダルを解析することにより,訓練されたポリシーのあいまいさを検出できるPartinNRアルゴリズムを提案する。 PartNRは、追加のユーザデモが必要なかどうかを判断する適応型、感度ベースのゲーティング機能を採用している。テーブルトップのピック・アンド・プレイス・タスクにおけるPartinNRの性能を実演する。
論文参考訳（メタデータ） (2022-11-15T17:07:40Z)
Diffusion Policies as an Expressive Policy Class for Offline Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文参考訳（メタデータ） (2022-08-12T09:54:11Z)
Evaluating model-based planning and planner amortization for continuous control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文参考訳（メタデータ） (2021-10-07T12:00:40Z)
Guided Uncertainty-Aware Policy Optimization: Combining Learning and Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文参考訳（メタデータ） (2020-05-21T19:47:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。