論文の概要: Leveraging Post Hoc Context for Faster Learning in Bandit Settings with
Applications in Robot-Assisted Feeding
- arxiv url: http://arxiv.org/abs/2011.02604v2
- Date: Thu, 25 Mar 2021 22:04:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 11:39:07.009044
- Title: Leveraging Post Hoc Context for Faster Learning in Bandit Settings with
Applications in Robot-Assisted Feeding
- Title(参考訳): ロボット支援給餌における帯域設定の高速学習のためのポストホックコンテキストの活用
- Authors: Ethan K. Gordon, Sumegh Roychowdhury, Tapomayukh Bhattacharjee, Kevin
Jamieson, Siddhartha S. Srinivasa
- Abstract要約: 自律的なロボット支援給餌には、さまざまな食品を入手する能力が必要である。
以前の研究では、問題は視覚的コンテキストを持つ線形バンディットとして表現できることが示されていた。
本稿では,ポストホックコンテキストを付加したリニアコンテキスト帯域幅フレームワークを提案する。
- 参考スコア(独自算出の注目度): 23.368884607763093
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous robot-assisted feeding requires the ability to acquire a wide
variety of food items. However, it is impossible for such a system to be
trained on all types of food in existence. Therefore, a key challenge is
choosing a manipulation strategy for a previously unseen food item. Previous
work showed that the problem can be represented as a linear bandit with visual
context. However, food has a wide variety of multi-modal properties relevant to
manipulation that can be hard to distinguish visually. Our key insight is that
we can leverage the haptic context we collect during and after manipulation
(i.e., "post hoc") to learn some of these properties and more quickly adapt our
visual model to previously unseen food. In general, we propose a modified
linear contextual bandit framework augmented with post hoc context observed
after action selection to empirically increase learning speed and reduce
cumulative regret. Experiments on synthetic data demonstrate that this effect
is more pronounced when the dimensionality of the context is large relative to
the post hoc context or when the post hoc context model is particularly easy to
learn. Finally, we apply this framework to the bite acquisition problem and
demonstrate the acquisition of 8 previously unseen types of food with 21% fewer
failures across 64 attempts.
- Abstract(参考訳): 自律的なロボット支援給餌には、さまざまな食品を入手する能力が必要である。
しかし、このような制度が現存するあらゆる種類の食品で訓練されることは不可能である。
したがって、未確認食品の操作戦略を選択することが重要な課題である。
以前の研究では、この問題は視覚的なコンテキストを持った線形バンドとして表現できることを示した。
しかし、食品には、視覚的に区別が難しい操作に関連する様々なマルチモーダル特性がある。
私たちの重要な洞察は、操作中および操作後(つまりポストホック)に収集した触覚コンテキストを利用して、これらの特性を学習し、以前見られなかった食べ物に視覚モデルをより迅速に適応できるということです。
一般に,行動選択後に観察されるポストホックコンテキストを付加した修正線形文脈バンディットフレームワークを提案し,学習速度を経験的に向上させ,累積後悔を低減させる。
合成データに関する実験により、文脈の次元がポストホックな文脈に対して大きい場合やポストホックな文脈モデルが特に学習しやすい場合、この効果はより顕著であることが示される。
最後に、この枠組みを咬合獲得問題に適用し、64回の試行で21%の失敗率で8種類の食品を入手できることを実証した。
関連論文リスト
- ActionCOMET: A Zero-shot Approach to Learn Image-specific Commonsense Concepts about Actions [66.20773952864802]
我々は8.5k画像と59.3k画像に接地されたアクションに関する59.3kの推論からなるデータセットを開発する。
本稿では、提供された視覚入力に特有の言語モデルに存在する知識を識別するフレームワークであるActionCOMETを提案する。
論文 参考訳(メタデータ) (2024-10-17T15:22:57Z) - IMRL: Integrating Visual, Physical, Temporal, and Geometric Representations for Enhanced Food Acquisition [16.32678094159896]
IMRL(Integrated Multi-dimensional Representation Learning, 統合多次元表現学習)を導入し, 食品取得におけるILの堅牢性と一般化性を高めるために視覚的, 物理的, 時間的, 幾何学的表現を統合した。
提案手法は, 食品の種類や物理的特性を捉え, 獲得行動の時間的ダイナミクスをモデル化し, 最適スクーピング点を決定するための幾何学的情報を導入する。
IMRLにより、ILはコンテキストに基づいてスクーピング戦略を適応的に調整し、多様な食品取得シナリオを扱うロボットの能力を改善することができる。
論文 参考訳(メタデータ) (2024-09-18T16:09:06Z) - Adaptive Visual Imitation Learning for Robotic Assisted Feeding Across Varied Bowl Configurations and Food Types [17.835835270751176]
ロボット支援給餌(RAF)のための空間的注意モジュールを備えた新しい視覚模倣ネットワークを提案する。
本研究では,視覚認識と模倣学習を統合して,ロボットがスクーピング中に多様なシナリオを扱えるようにするためのフレームワークを提案する。
AVIL(adaptive visual mimicion learning, 適応的視覚模倣学習)と呼ばれる我々のアプローチは、異なるボウル構成にまたがる適応性と堅牢性を示す。
論文 参考訳(メタデータ) (2024-03-19T16:40:57Z) - FoodLMM: A Versatile Food Assistant using Large Multi-modal Model [96.76271649854542]
大規模マルチモーダルモデル(LMM)は多くの視覚言語タスクにおいて顕著な進歩を遂げている。
本稿では,多機能なLMMに基づく多目的食品アシスタントであるFoodLMMを提案する。
本稿では,食品の栄養価と複数のセグメンテーションマスクを予測するために,一連の新しいタスク固有のトークンとヘッドを導入する。
論文 参考訳(メタデータ) (2023-12-22T11:56:22Z) - Food Image Classification and Segmentation with Attention-based Multiple
Instance Learning [51.279800092581844]
本稿では,食品画像分類とセマンティックセグメンテーションモデルを訓練するための弱教師付き方法論を提案する。
提案手法は、注意に基づくメカニズムと組み合わせて、複数のインスタンス学習アプローチに基づいている。
提案手法の有効性を検証するため,FoodSeg103データセット内の2つのメタクラスについて実験を行った。
論文 参考訳(メタデータ) (2023-08-22T13:59:47Z) - Transferring Knowledge for Food Image Segmentation using Transformers
and Convolutions [65.50975507723827]
食品画像のセグメンテーションは、食品の皿の栄養価を推定するなど、ユビキタスな用途を持つ重要なタスクである。
1つの課題は、食品が重なり合ったり混ざったりし、区別が難しいことだ。
2つのモデルが訓練され、比較される。1つは畳み込みニューラルネットワークに基づくもので、もう1つは画像変換器(BEiT)のための双方向表現に関するものである。
BEiTモデルは、FoodSeg103上の49.4の結合の平均的交点を達成することで、従来の最先端モデルよりも優れている。
論文 参考訳(メタデータ) (2023-06-15T15:38:10Z) - Learning Visuo-Haptic Skewering Strategies for Robot-Assisted Feeding [13.381485293778654]
我々は、物体との相互作用における視覚的および触覚的な観察を活用して、ストーブ動作を計画する。
我々は、生の感覚入力から食品の一般化可能なマルチモーダル表現を学習する。
既往のアイテムのビジュオハプティックな特性を検知し,反応的にストーブするゼロショットフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-26T20:01:03Z) - Cluttered Food Grasping with Adaptive Fingers and Synthetic-Data Trained
Object Detection [8.218146534971156]
食品包装産業は、幅広い形状と大きさのさまざまな食品を扱う。
ビンピッキングの一般的なアプローチは、まず、インスタンスセグメンテーション法を用いてトレイ内の各食品を識別することである。
合成データを純粋に訓練し,sim2real法を用いて実世界へ転送する手法を提案する。
論文 参考訳(メタデータ) (2022-03-10T06:44:09Z) - Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。
映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文 参考訳(メタデータ) (2020-06-12T14:07:04Z) - MCEN: Bridging Cross-Modal Gap between Cooking Recipes and Dish Images
with Latent Variable Model [28.649961369386148]
我々は、画像やテキストを同じ埋め込み空間に投影することで、モダリティ不変表現を学習するModality-Consistent Embedding Network(MCEN)を提案する。
本手法は, 学習中のモーダル間のアライメントを学習するが, 効率を考慮に入れた推定時間において, 異なるモーダルの埋め込みを独立に計算する。
論文 参考訳(メタデータ) (2020-04-02T16:00:10Z) - Cross-Modal Food Retrieval: Learning a Joint Embedding of Food Images
and Recipes with Semantic Consistency and Attention Mechanism [70.85894675131624]
画像とレシピを共通の特徴空間に埋め込み、対応する画像とレシピの埋め込みが互いに近接するように学習する。
本稿では,2つのモダリティの埋め込みを正規化するためのセマンティック・一貫性とアテンション・ベース・ネットワーク(SCAN)を提案する。
食品画像や調理レシピの最先端のクロスモーダル検索戦略を,かなりの差で達成できることが示される。
論文 参考訳(メタデータ) (2020-03-09T07:41:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。