論文の概要: Learning Gentle Grasping Using Vision, Sound, and Touch
- arxiv url: http://arxiv.org/abs/2503.07926v1
- Date: Tue, 11 Mar 2025 00:12:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:44:38.827189
- Title: Learning Gentle Grasping Using Vision, Sound, and Touch
- Title(参考訳): 視覚・音・触覚を用いたジェントルグラスピングの学習
- Authors: Ken Nakahara, Roberto Calandra,
- Abstract要約: 本稿では,視覚的,触覚的,聴覚的信号を用いて物体を安定かつ優雅に把握・再生することを提案する。
音声信号は、把握中の優しさの指標として使用し、次に、生のビジュオ触覚入力から行動条件モデルのエンド・ツー・エンドを訓練する。
1500以上の握力試験を多指ハンドで行った実験結果から,本モデルは柔らかい握力に有用であることが判明した。
- 参考スコア(独自算出の注目度): 4.482495915731277
- License:
- Abstract: In our daily life, we often encounter objects that are fragile and can be damaged by excessive grasping force, such as fruits. For these objects, it is paramount to grasp gently -- not using the maximum amount of force possible, but rather the minimum amount of force necessary. This paper proposes using visual, tactile, and auditory signals to learn to grasp and regrasp objects stably and gently. Specifically, we use audio signals as an indicator of gentleness during the grasping, and then train end-to-end an action-conditional model from raw visuo-tactile inputs that predicts both the stability and the gentleness of future grasping candidates, thus allowing the selection and execution of the most promising action. Experimental results on a multi-fingered hand over 1,500 grasping trials demonstrated that our model is useful for gentle grasping by validating the predictive performance (3.27\% higher accuracy than the vision-only variant) and providing interpretations of their behavior. Finally, real-world experiments confirmed that the grasping performance with the trained multi-modal model outperformed other baselines (17\% higher rate for stable and gentle grasps than vision-only). Our approach requires neither tactile sensor calibration nor analytical force modeling, drastically reducing the engineering effort to grasp fragile objects. Dataset and videos are available at https://lasr.org/research/gentle-grasping.
- Abstract(参考訳): 私たちの日常生活では、果実のような過度につかむ力によって、壊れやすい物体に遭遇することが多い。
これらの物体にとって、できるだけの力量ではなく、必要最小の力量を使うのではなく、緩やかにつかむことが最重要である。
本稿では,視覚的,触覚的,聴覚的信号を用いて物体を安定かつ優雅に把握・再生することを提案する。
具体的には、握り時の優しさの指標として音声信号を使用し、次に、将来の把握候補の安定性と優しさを予測し、最も有望なアクションの選択と実行を可能にする生のビジュオ触覚入力から行動条件モデルをエンドツーエンドに訓練する。
多指ハンドを用いた1500以上のグルーピング実験の結果, 予測性能(3.27 %)を検証し, その動作の解釈を提供することにより, 本モデルが緩やかなグルーピングに有用であることを実証した。
最後に、実世界の実験により、訓練されたマルチモーダルモデルによる把持性能が、他のベースラインよりも17.5%高い速度で、視力のみよりも安定かつ穏やかな把持性能を示した。
本手法では, 触覚センサキャリブレーションや解析力モデリングは必要とせず, 脆弱物体の把握に要する工学的労力を大幅に削減する。
データセットとビデオはhttps://lasr.org/research/gentle-grasping.comで公開されている。
関連論文リスト
- Vision-Language Models are Strong Noisy Label Detectors [76.07846780815794]
本稿では、視覚言語モデルに適応するためのDeFTと呼ばれるDenoising Fine-Tuningフレームワークを提案する。
DeFTは、何百万もの補助的な画像テキストペアで事前訓練されたテキストと視覚的特徴のロバストなアライメントを利用して、ノイズの多いラベルを抽出する。
7つの合成および実世界のノイズデータセットの実験結果から,ノイズラベル検出と画像分類の両方においてDeFTの有効性が検証された。
論文 参考訳(メタデータ) (2024-09-29T12:55:17Z) - Learning Gentle Grasping from Human-Free Force Control Demonstration [4.08734863805696]
そこで本研究では,データサイズに制限のある人手と同様の動作を実現するために,理想的な力制御実験から把握する手法を提案する。
提案手法は,人間の実演を伴わない参照力曲線の自動生成に,既知の接触特性を持つ物体を用いる。
この方法は視覚に基づく触覚センサに効果的に適用でき、地面からの物体の緩やかで安定した把握を可能にする。
論文 参考訳(メタデータ) (2024-09-16T15:14:53Z) - Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。
データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文 参考訳(メタデータ) (2024-07-26T10:49:14Z) - Advancing the Robustness of Large Language Models through Self-Denoised Smoothing [50.54276872204319]
大規模言語モデル(LLM)は大きな成功を収めたが、敵の摂動に対する脆弱性は大きな懸念を引き起こしている。
本稿では,LLMのマルチタスク特性を活用して,まずノイズの入力を識別し,次にこれらの復号化バージョンに基づいて予測を行う。
LLMのロバスト性を高めるために個別のモデルを訓練する必要がある従来のコンピュータビジョンのスムース化技術とは異なり、本手法は効率と柔軟性を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-18T15:47:00Z) - Existence Is Chaos: Enhancing 3D Human Motion Prediction with Uncertainty Consideration [27.28184416632815]
トレーニングデータにおける記録された動きは、所定の結果ではなく、将来の可能性の観測である可能性が示唆された。
不確実性を考慮した計算効率の良いエンコーダデコーダモデルを提案する。
論文 参考訳(メタデータ) (2024-03-21T03:34:18Z) - Neural feels with neural fields: Visuo-tactile perception for in-hand
manipulation [57.60490773016364]
マルチフィンガーハンドの視覚と触覚を組み合わせることで,手動操作時の物体の姿勢と形状を推定する。
提案手法であるNeuralFeelsは,ニューラルネットワークをオンラインで学習することでオブジェクトの形状を符号化し,ポーズグラフ問題を最適化して共同で追跡する。
私たちの結果は、タッチが少なくとも、洗練され、そして最も最良のものは、手動操作中に視覚的推定を曖昧にすることを示しています。
論文 参考訳(メタデータ) (2023-12-20T22:36:37Z) - Exploring Model Transferability through the Lens of Potential Energy [78.60851825944212]
トランスファーラーニングは、事前訓練されたディープラーニングモデルが広く利用可能であることから、コンピュータビジョンタスクにおいて重要になっている。
既存のトレーニング済みモデルの転送可能性の測定方法は、符号化された静的特徴とタスクラベルの間の統計的相関に依存する。
我々はこれらの課題に対処するために,PEDという物理に着想を得たアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-29T07:15:57Z) - Robustness of Demonstration-based Learning Under Limited Data Scenario [54.912936555876826]
実証に基づく学習は、限られたデータシナリオ下で事前訓練された言語モデルの能力を刺激する大きな可能性を示している。
実演と予測の間に明確な整合性がないため、なぜこのような実演が学習プロセスに有益なのかは不明だ。
本稿では,実証に基づくシーケンスラベリングの頑健さを深く掘り下げるために,標準情報から直感的に有用な情報を徐々に取り除き,病理デモを設計する。
論文 参考訳(メタデータ) (2022-10-19T16:15:04Z) - Action Conditioned Tactile Prediction: case study on slip prediction [0.562479170374811]
実世界の物理ロボットインタラクションタスクにおいて,触覚信号を予測するための2つの新しいデータ駆動行動条件モデルを提案する。
我々は、最先端の予測モデルの解析とテストが難しい磁気式触覚センサと、現存する唯一の美味しい触覚予測モデルを使用する。
実世界のロボット操作作業の51,000個の触覚フレームを含む触覚対応データセットを,11個の平滑な家庭用物体を用いて比較検討した。
論文 参考訳(メタデータ) (2022-05-19T09:45:26Z) - Visual-Tactile Multimodality for Following Deformable Linear Objects
Using Reinforcement Learning [15.758583731036007]
本稿では,視覚と触覚入力を併用して変形可能な線形物体を追従するタスクを完遂する問題について検討する。
我々は,異なる感覚モーダルを用いた強化学習エージェントを作成し,その動作をどのように促進するかを検討する。
実験の結果,視覚入力と触覚入力の両方を使用することで,最大92%の症例で作業が完了することがわかった。
論文 参考訳(メタデータ) (2022-03-31T21:59:08Z) - Leveraging distributed contact force measurements for slip detection: a
physics-based approach enabled by a data-driven tactile sensor [5.027571997864706]
本稿では,新たなモデルに基づくスリップ検出パイプラインについて述べる。
分散力を正確に推定する視覚ベースの触覚センサを、6自由度コボットと2フィンガーグリップパーからなる把握装置に統合した。
その結果, 形状, 材料, 重量の異なる物体を操作しながら, スリップを確実に予測できることがわかった。
論文 参考訳(メタデータ) (2021-09-23T17:12:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。