論文の概要: BiFold: Bimanual Cloth Folding with Language Guidance
- arxiv url: http://arxiv.org/abs/2501.16458v1
- Date: Mon, 27 Jan 2025 19:37:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-29 16:40:42.653127
- Title: BiFold: Bimanual Cloth Folding with Language Guidance
- Title(参考訳): BiFold: 言語指導による両用衣服の折り畳み
- Authors: Oriol Barbany, Adrià Colomé, Carme Torras,
- Abstract要約: 本研究では,テキストコマンドを条件とした折りたたみ動作の学習を行う。
我々は、事前学習された視覚言語モデルを活用し、操作行動を予測するためにそれを再利用する。
BiFoldはデータセット上で最高のパフォーマンスを実現し、新しいインストラクションや衣服、環境に転送することができます。
- 参考スコア(独自算出の注目度): 6.0914269533287175
- License:
- Abstract: Cloth folding is a complex task due to the inevitable self-occlusions of clothes, their complicated dynamics, and the disparate materials, geometries, and textures that garments can have. In this work, we learn folding actions conditioned on text commands. Translating high-level, abstract instructions into precise robotic actions requires sophisticated language understanding and manipulation capabilities. To do that, we leverage a pre-trained vision-language model and repurpose it to predict manipulation actions. Our model, BiFold, can take context into account and achieves state-of-the-art performance on an existing language-conditioned folding benchmark. Given the lack of annotated bimanual folding data, we devise a procedure to automatically parse actions of a simulated dataset and tag them with aligned text instructions. BiFold attains the best performance on our dataset and can transfer to new instructions, garments, and environments.
- Abstract(参考訳): 布の折りたたみは、衣服の避けられない自己閉塞、その複雑な力学、異なる素材、ジオメトリー、そして衣服が持つことができるテクスチャによって、複雑な作業である。
本研究では,テキストコマンドを条件とした折りたたみ動作の学習を行う。
高レベルの抽象的な命令を正確なロボット動作に変換するには、洗練された言語理解と操作能力が必要である。
そこで我々は,事前学習した視覚言語モデルを活用し,操作動作の予測に再利用する。
我々のモデルであるBiFoldは、既存の言語条件の折りたたみベンチマークでコンテキストを考慮し、最先端のパフォーマンスを達成することができる。
注釈付き双方向の折り畳みデータがないため、シミュレーションデータセットの動作を自動的に解析し、整列したテキスト命令でタグ付けする手順を考案する。
BiFoldはデータセット上で最高のパフォーマンスを実現し、新しいインストラクションや衣服、環境に転送することができます。
関連論文リスト
- Instruct-SCTG: Guiding Sequential Controlled Text Generation through
Instructions [42.67608830386934]
Instruct-SCTGは、命令調整言語モデルを利用して構造的に一貫性のあるテキストを生成するシーケンシャルフレームワークである。
本フレームワークは,自然言語命令を用いて,所望の人体構造に整合して記事を生成する。
論文 参考訳(メタデータ) (2023-12-19T16:20:49Z) - InstructSeq: Unifying Vision Tasks with Instruction-conditioned
Multi-modal Sequence Generation [59.24938416319019]
InstructSeqは命令条件付きマルチモーダルモデリングフレームワークである。
柔軟な自然言語制御と視覚データとテキストデータの扱いにより、多様な視覚タスクを統一する。
論文 参考訳(メタデータ) (2023-11-30T18:59:51Z) - Instruction-following Evaluation through Verbalizer Manipulation [64.73188776428799]
本稿では,動詞操作と呼ばれる新しい指示追従評価プロトコルを提案する。
モデルにタスクラベルを、異なる範囲のモデル先行と整合した単語で言語化するように指示する。
異なる家族や規模にわたるモデルの指示追従能力は、より自然な話し手の性能によって著しく異なることが観察された。
論文 参考訳(メタデータ) (2023-07-20T03:54:24Z) - Did You Read the Instructions? Rethinking the Effectiveness of Task
Definitions in Instruction Learning [74.70157466822612]
教科学習におけるタスク定義の役割を体系的に研究する。
タスク出力を記述する内容を削除すると,モデルの性能が大幅に低下することがわかった。
本稿では,モデルのタスク命令の活用を支援するための2つの戦略を提案する。
論文 参考訳(メタデータ) (2023-06-01T21:11:24Z) - Contrastive Language, Action, and State Pre-training for Robot Learning [1.1000499414131326]
本稿では,ロボット学習における下流作業を支援するために,言語,行動,状態情報を共有埋め込み空間に統一する手法を提案する。
提案手法であるCLASP(Contrastive Language, Action, and State Pre-training)は,CLIPの定式化を拡張し,分散学習を取り入れ,振る舞いテキストアライメントにおける固有の複雑さと一対多の関係を捉える。
本手法は,ゼロショットテキストビヘイビア検索,未知のロボット動作のキャプション,言語条件の強化学習に先立って動作を学習する,といった下流作業に有効であることを示す。
論文 参考訳(メタデータ) (2023-04-21T07:19:33Z) - Learning by Distilling Context [38.848071335962935]
文脈蒸留は言語モデルを学習するための一般的な手法であり、3種類の訓練信号を効果的に内部化できることを示す。
文脈蒸留は言語モデルを学習するための一般的な手法であり、3種類の訓練信号を効果的に内部化できることを示す。
論文 参考訳(メタデータ) (2022-09-30T02:30:15Z) - Skill Induction and Planning with Latent Language [94.55783888325165]
我々は、ゴールがハイレベルなサブタスク記述のシーケンスを生成するアクションシーケンスの生成モデルを定式化する。
本稿では、このモデルを、主に注釈のないデモを用いて、名前付きハイレベルなサブタスクのシーケンスに解析する方法について述べる。
訓練されたモデルでは、自然言語コマンドの空間はスキルのライブラリを索引付けする;エージェントはこれらのスキルを使って、新しい目標に適した高いレベルの命令シーケンスを生成する。
論文 参考訳(メタデータ) (2021-10-04T15:36:32Z) - Improving Cross-Modal Alignment in Vision Language Navigation via
Syntactic Information [83.62098382773266]
ビジョン言語ナビゲーションは、エージェントが自然言語の指示に基づいて3D環境をナビゲートする必要があるタスクです。
命令と現在の視覚シーンの整合性を高めるために,依存木から派生した構文情報を利用したナビゲーションエージェントを提案する。
このエージェントは3つの言語による命令を含むroom-across-roomデータセットの新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-19T19:18:41Z) - Exemplar-Controllable Paraphrasing and Translation using Bitext [57.92051459102902]
私たちは、バイリンガルテキスト(bitext)からのみ学ぶことができるように、以前の作業からモデルを適用する。
提案した1つのモデルでは、両言語で制御されたパラフレーズ生成と、両言語で制御された機械翻訳の4つのタスクを実行することができる。
論文 参考訳(メタデータ) (2020-10-12T17:02:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。