論文の概要: Leveraging Foundation Models To learn the shape of semi-fluid deformable objects
- arxiv url: http://arxiv.org/abs/2411.16802v1
- Date: Mon, 25 Nov 2024 13:41:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:36:27.199194
- Title: Leveraging Foundation Models To learn the shape of semi-fluid deformable objects
- Title(参考訳): 基礎モデルを活用した半流動変形物体の形状学習
- Authors: Omar El Assal, Carlos M. Mateo, Sebastien Ciron, David Fofi,
- Abstract要約: 過去10年間、非流動性のある変形可能な物体を特徴付け、操作する研究者によって強い関心が浮かび上がった。
本稿では,動作制御対象の情報として機能する安定な特徴を定義するために,溶接プールの特徴付けの課題に対処する。
基礎モデルからより小さな生成モデルへの知識蒸留の性能は、変形可能な物体のキャラクタリゼーションにおいて顕著な結果を示す。
- 参考スコア(独自算出の注目度): 0.7895162173260983
- License:
- Abstract: One of the difficulties imposed on the manipulation of deformable objects is their characterization and the detection of representative keypoints for the purpose of manipulation. A keen interest was manifested by researchers in the last decade to characterize and manipulate deformable objects of non-fluid nature, such as clothes and ropes. Even though several propositions were made in the regard of object characterization, however researchers were always confronted with the need of pixel-level information of the object through images to extract relevant information. This usually is accomplished by means of segmentation networks trained on manually labeled data for this purpose. In this paper, we address the subject of characterizing weld pool to define stable features that serve as information for further motion control objectives. We achieve this by employing different pipelines. The first one consists of characterizing fluid deformable objects through the use of a generative model that is trained using a teacher-student framework. And in the second one we leverage foundation models by using them as teachers to characterize the object in the image, without the need of any pre-training and any dataset. The performance of knowledge distillation from foundation models into a smaller generative model shows prominent results in the characterization of deformable objects. The student network was capable of learning to retrieve the keypoitns of the object with an error of 13.4 pixels. And the teacher was evaluated based on its capacities to retrieve pixel level information represented by the object mask, with a mean Intersection Over Union (mIoU) of 75.26%.
- Abstract(参考訳): 変形可能なオブジェクトの操作に課される難しさの1つは、その特性と操作目的の代表的なキーポイントの検出である。
この10年で、服やロープのような非流動性の変形可能な物体を特徴付け、操作することに、強い関心が浮かび上がった。
対象のキャラクタリゼーションに関していくつかの提案がなされたものの、研究者は常に関連情報を抽出するために画像を通して対象のピクセルレベルの情報を必要とすることに直面していた。
これは通常、この目的のために手動でラベル付けされたデータに基づいて訓練されたセグメンテーションネットワークによって達成される。
本稿では, 溶接プールのキャラクタリゼーションの課題に対処し, さらなる動作制御の目的のための情報として機能する安定な特徴を定義する。
異なるパイプラインを使用することで、これを実現しています。
1つ目は、教師-学生の枠組みを用いて訓練された生成モデルを用いて、流体変形可能な物体を特徴づけることである。
そして、第2の例では、事前トレーニングやデータセットを必要とせずに、基礎モデルを教師として使用して、イメージ内のオブジェクトを特徴づけます。
基礎モデルからより小さな生成モデルへの知識蒸留の性能は、変形可能な物体のキャラクタリゼーションにおいて顕著な結果を示す。
学生ネットワークは、オブジェクトのキーポットを13.4ピクセルの誤差で取得することを学ぶことができた。
また,被写体マスクに代表される画素レベルの情報を取得する能力に基づき,75.26%のインターセクションオーバーユニオン(mIoU)が評価された。
関連論文リスト
- Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。
8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。
多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-17T10:37:07Z) - Visual Context-Aware Person Fall Detection [52.49277799455569]
画像中の個人とオブジェクトを半自動分離するセグメンテーションパイプラインを提案する。
ベッド、椅子、車椅子などの背景オブジェクトは、転倒検知システムに挑戦し、誤ったポジティブアラームを引き起こす。
トレーニング中のオブジェクト固有のコンテキスト変換が、この課題を効果的に軽減することを示す。
論文 参考訳(メタデータ) (2024-04-11T19:06:36Z) - Learning Embeddings with Centroid Triplet Loss for Object Identification in Robotic Grasping [14.958823096408175]
基礎モデルはディープラーニングとコンピュータビジョンの強力なトレンドだ。
本稿では,そのような物体識別モデルの訓練に焦点をあてる。
このようなモデルをトレーニングするための主要な解決策は、遠心三重項損失(CTL)である。
論文 参考訳(メタデータ) (2024-04-09T13:01:26Z) - Explicitly Disentangled Representations in Object-Centric Learning [0.0]
本稿では, オブジェクト中心のモデルを, 密接な形状やテクスチャ成分に偏在させる新しいアーキテクチャを提案する。
特に, オブジェクト中心のモデルを, 密接な形状やテクスチャ成分に偏在させる新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-01-18T17:22:11Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Understanding Self-Supervised Pretraining with Part-Aware Representation
Learning [88.45460880824376]
本研究では,自己教師型表現事前学習手法がパート認識表現を学習する能力について検討する。
その結果,完全教師付きモデルはオブジェクトレベルの認識において自己教師付きモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-01-27T18:58:42Z) - Information-Theoretic Odometry Learning [83.36195426897768]
生体計測推定を目的とした学習動機付け手法のための統合情報理論フレームワークを提案する。
提案フレームワークは情報理論言語の性能評価と理解のためのエレガントなツールを提供する。
論文 参考訳(メタデータ) (2022-03-11T02:37:35Z) - Object Pursuit: Building a Space of Objects via Discriminative Weight
Generation [23.85039747700698]
視覚学習と理解のためのオブジェクト中心表現を継続的に学習するフレームワークを提案する。
我々は、オブジェクト中心の表現を学習しながら、オブジェクトとそれに対応するトレーニング信号の多様なバリエーションをサンプリングするために、インタラクションを活用する。
提案するフレームワークの重要な特徴について広範な研究を行い,学習した表現の特徴を分析した。
論文 参考訳(メタデータ) (2021-12-15T08:25:30Z) - REGRAD: A Large-Scale Relational Grasp Dataset for Safe and
Object-Specific Robotic Grasping in Clutter [52.117388513480435]
本稿では,オブジェクト間の関係のモデル化を継続するregradという新しいデータセットを提案する。
データセットは2D画像と3Dポイントクラウドの両方で収集されます。
ユーザは、好きなだけ多くのデータを生成するために、自由に独自のオブジェクトモデルをインポートできる。
論文 参考訳(メタデータ) (2021-04-29T05:31:21Z) - Text-driven object affordance for guiding grasp-type recognition in
multimodal robot teaching [18.529563816600607]
本研究は,ロボット教育におけるテキスト駆動型物体余裕が画像に基づくグリップ型認識に与える影響について検討する。
彼らは、物体が認識性能に与える影響を調べるために、一人称手画像のラベル付きデータセットを作成しました。
論文 参考訳(メタデータ) (2021-02-27T17:03:32Z) - Object-Centric Image Generation with Factored Depths, Locations, and
Appearances [30.541425619507184]
本稿では,画像の生成モデルについて,それらが示すオブジェクトの集合に対して明確な理由付けを行う。
私たちのモデルは、オブジェクトを互いに、そして背景から分離する構造化潜在表現を学びます。
オブジェクトマスクや深度情報を必要とせずに、純粋に教師なしの方法で画像からトレーニングすることができる。
論文 参考訳(メタデータ) (2020-04-01T18:00:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。