論文の概要: PANDORA: Diffusion Policy Learning for Dexterous Robotic Piano Playing
- arxiv url: http://arxiv.org/abs/2503.14545v1
- Date: Mon, 17 Mar 2025 17:22:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:21:40.249424
- Title: PANDORA: Diffusion Policy Learning for Dexterous Robotic Piano Playing
- Title(参考訳): PANDORA:Dexterous Robotic Piano Playingのための拡散政策学習
- Authors: Yanjia Huang, Renjie Li, Zhengzhong Tu,
- Abstract要約: 本稿では,ロボットピアノ演奏のための新しい拡散型ポリシー学習フレームワークであるPANDORAについて述べる。
提案手法では,FILMに基づくグローバルコンディショニングにより拡張された条件付きU-Netアーキテクチャを用いて,ノイズの多い動作シーケンスをスムーズな高次元トラジェクトリに繰り返し分解する。
本研究では,タスク固有精度,音声の忠実度,および大規模言語モデル(LLM)オラクルからの高レベルな意味フィードバックを組み込んだ複合報酬関数を設計する。
- 参考スコア(独自算出の注目度): 7.026712993513959
- License:
- Abstract: We present PANDORA, a novel diffusion-based policy learning framework designed specifically for dexterous robotic piano performance. Our approach employs a conditional U-Net architecture enhanced with FiLM-based global conditioning, which iteratively denoises noisy action sequences into smooth, high-dimensional trajectories. To achieve precise key execution coupled with expressive musical performance, we design a composite reward function that integrates task-specific accuracy, audio fidelity, and high-level semantic feedback from a large language model (LLM) oracle. The LLM oracle assesses musical expressiveness and stylistic nuances, enabling dynamic, hand-specific reward adjustments. Further augmented by a residual inverse-kinematics refinement policy, PANDORA achieves state-of-the-art performance in the ROBOPIANIST environment, significantly outperforming baselines in both precision and expressiveness. Ablation studies validate the critical contributions of diffusion-based denoising and LLM-driven semantic feedback in enhancing robotic musicianship. Videos available at: https://taco-group.github.io/PANDORA
- Abstract(参考訳): 本稿では,ロボットピアノ演奏のための新しい拡散型ポリシー学習フレームワークであるPANDORAについて述べる。
提案手法では,FILMに基づくグローバルコンディショニングにより拡張された条件付きU-Netアーキテクチャを用いて,ノイズの多い動作シーケンスをスムーズな高次元トラジェクトリに繰り返し分解する。
そこで我々は,大規模言語モデル(LLM)のオラクルからタスク固有精度,音声の忠実度,高レベルな意味フィードバックを組み込んだ合成報酬関数を設計した。
LLMオラクルは、音楽的な表現力とスタイリスティックなニュアンスを評価し、動的で手固有の報酬調整を可能にする。
さらに, ROBOPIANIST環境下では, 精度と表現性の両方において, 基線を著しく上回っている。
アブレーション研究は、ロボット音楽の強化における拡散に基づく認知とLLMによる意味フィードバックの重要な貢献を検証している。
https://taco-group.github.io/PANDORA
関連論文リスト
- A Real-to-Sim-to-Real Approach to Robotic Manipulation with VLM-Generated Iterative Keypoint Rewards [29.923942622540356]
動的タスク仕様として機能するPythonベースの報酬関数であるIterative Keypoint Reward(IKER)を紹介する。
我々はシミュレーションで現実のシーンを再構築し、生成した報酬を使って強化学習ポリシーを訓練する。
この結果から,ロボットが動的環境下で複数ステップのタスクを行えるようにしたIKERの有効性が示唆された。
論文 参考訳(メタデータ) (2025-02-12T18:57:22Z) - QUART-Online: Latency-Free Large Multimodal Language Model for Quadruped Robot Learning [35.11412101089823]
本稿では,多モーダル大規模言語モデル(MLLM)を4つの視覚-言語-アクションタスクに展開する際の,固有の推論遅延問題に対処する。
言語基盤モデルの性能を劣化させることなく推論効率を向上させるために, QUIRT-Online と呼ばれる新しい待ち時間フリーの4重結合MLLMモデルを提案する。
実験の結果, QUIRT-Onlineは既存のMLLMシステムと連動して動作し, 制御周波数に同期してリアルタイムの推論を実現することがわかった。
論文 参考訳(メタデータ) (2024-12-20T05:17:06Z) - Align-SLM: Textless Spoken Language Models with Reinforcement Learning from AI Feedback [50.84142264245052]
テキストレス音声言語モデル(SLM)のセマンティック理解を強化するためのAlign-SLMフレームワークを導入する。
提案手法は、与えられたプロンプトから複数の音声継続を生成し、意味的指標を用いて、直接選好最適化(DPO)のための選好データを生成する。
語彙および構文モデリングのためのZeroSpeech 2021ベンチマーク、意味的コヒーレンスのためのStoryClozeデータセットの音声バージョン、GPT4-oスコアや人間評価などの音声生成指標を用いて、フレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-11-04T06:07:53Z) - Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning [79.38140606606126]
強化学習(RL)を用いた視覚言語モデル(VLM)を微調整するアルゴリズムフレームワークを提案する。
我々のフレームワークはタスク記述を提供し、次にVLMにチェーン・オブ・シント(CoT)推論を生成するよう促す。
提案手法は,VLMエージェントの様々なタスクにおける意思決定能力を向上させる。
論文 参考訳(メタデータ) (2024-05-16T17:50:19Z) - ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。
ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。
LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T10:11:26Z) - ALaRM: Align Language Models via Hierarchical Rewards Modeling [41.79125107279527]
ALaRMは、人間からのフィードバックから強化学習において、階層的な報酬をモデル化する最初のフレームワークである。
このフレームワークは、全体的な報酬とアスペクト固有の報酬を統合することで、現在のアライメントアプローチの限界に対処する。
我々は、長文質問応答および機械翻訳タスクの応用を通して、我々のアプローチを検証する。
論文 参考訳(メタデータ) (2024-03-11T14:28:40Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - DITTO: Diffusion Inference-Time T-Optimization for Music Generation [49.90109850026932]
Diffusion Inference-Time T-Optimization (DITTO) は、事前訓練されたテキストから音楽への拡散モデルを推論時に制御するためのフレームワークである。
我々は、インペイント、アウトペイント、ループ化、強度、メロディ、音楽構造制御など、驚くほど幅広い音楽生成応用を実証する。
論文 参考訳(メタデータ) (2024-01-22T18:10:10Z) - Leaping Into Memories: Space-Time Deep Feature Synthesis [93.10032043225362]
内部モデルから映像を合成するアーキテクチャ非依存の手法であるLEAPSを提案する。
我々は,Kineetics-400に基づく多種多様なアーキテクチャの進化的注目を反転させることにより,LEAPSの適用性を定量的かつ定性的に評価する。
論文 参考訳(メタデータ) (2023-03-17T12:55:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。