論文の概要: Multi-modal estimation of the properties of containers and their
content: survey and evaluation
- arxiv url: http://arxiv.org/abs/2107.12719v1
- Date: Tue, 27 Jul 2021 10:36:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-28 21:11:17.017790
- Title: Multi-modal estimation of the properties of containers and their
content: survey and evaluation
- Title(参考訳): コンテナの特性とその内容のマルチモーダル推定:調査と評価
- Authors: Alessio Xompero, Santiago Donaher, Vladimir Iashin, Francesca Palermo,
G\"okhan Solak, Claudio Coppola, Reina Ishikawa, Yuichi Nagao, Ryo Hachiuma,
Qi Liu, Fan Feng, Chuanlin Lan, Rosa H. M. Chan, Guilherme Christmann,
Jyun-Ting Song, Gonuguntla Neeharika, Chinnakotla Krishna Teja Reddy, Dinesh
Jain, Bakhtawar Ur Rehman, Andrea Cavallaro
- Abstract要約: コンテナの容量を推定する手法と,その内容のタイプ,質量,量について述べる。
これらの手法は、メル周波数ケプストラム係数、ゼロクロスレート、分光図、および視覚データを用いた幾何学的アプローチなどの学習および手作りの特徴を用いる。
新たに配布されたデータセットでは、音声のみが強いモダリティであり、コンテンツタイプとレベル分類において、重み付き平均F1スコアが最大81%、97%に達することが示されている。
- 参考スコア(独自算出の注目度): 33.774625622770984
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Acoustic and visual sensing can support the contactless estimation of the
weight of a container and the amount of its content when the container is
manipulated by a person. However, transparencies (both of the container and of
the content) and the variability of materials, shapes and sizes make this
problem challenging. In this paper, we present an open benchmarking framework
and an in-depth comparative analysis of recent methods that estimate the
capacity of a container, as well as the type, mass, and amount of its content.
These methods use learned and handcrafted features, such as mel-frequency
cepstrum coefficients, zero-crossing rate, spectrograms, with different types
of classifiers to estimate the type and amount of the content with acoustic
data, and geometric approaches with visual data to determine the capacity of
the container. Results on a newly distributed dataset show that audio alone is
a strong modality and methods achieves a weighted average F1-score up to 81%
and 97% for content type and level classification, respectively. Estimating the
container capacity with vision-only approaches and filling mass with
multi-modal, multi-stage algorithms reaches up to 65% weighted average capacity
and mass scores.
- Abstract(参考訳): 音響および視覚センシングは、容器が人によって操作されたときの容器の重量とその内容量の非接触的な推定を支援することができる。
しかし、透明性(容器と内容の両方)と材料、形状、サイズの変化は、この問題を困難にしている。
本稿では,オープンベンチマークフレームワークと,コンテナの容量を推定する最近の手法の詳細な比較分析を行い,その内容の種類,質量,量について述べる。
これらの手法は、学習および手作りの特徴、例えばメル周波数ケプストラム係数、ゼロクロスレート、分光器、および異なるタイプの分類器を用いて、音響データを用いてコンテンツの種類と量を推定し、視覚データを用いてコンテナの容量を決定する幾何学的アプローチを用いる。
新たに配布されたデータセットでは,音声のみが強いモダリティであり,コンテンツタイプとレベル分類において,重み付き平均F1スコアが最大81%,97%に達することが示されている。
コンテナ容量を視覚のみのアプローチで推定し、マルチモーダルなマルチステージアルゴリズムで質量を充填すると、平均容量と質量スコアの65%に達する。
関連論文リスト
- Quantization of Large Language Models with an Overdetermined Basis [73.79368761182998]
本稿では,嘉心表現の原理に基づくデータ量子化アルゴリズムを提案する。
以上の結果から, カシ量子化はモデル性能の競争力や優れた品質を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-04-15T12:38:46Z) - Randomized Quantization: A Generic Augmentation for Data Agnostic
Self-supervised Learning [89.00646449740606]
自己監督型表現学習は、データの一部を保持し、残りの部分から予測するようにネットワークに指示するパラダイムに従っている。
データ拡張は、情報ギャップを作るためのコアにあります。
本稿では,精度の冗長性を利用した汎用データ拡張のためのチャネル次元について検討する。
論文 参考訳(メタデータ) (2022-12-19T18:59:57Z) - Audio-Visual Object Classification for Human-Robot Collaboration [0.0]
本稿では,アルゴリズムの性能を評価するために,CORSMALチャレンジとデータセットを提案する。
課題のタスクは、物体の質量、容量、寸法を推定することである。
この課題の新たな特徴は、人間とロボットのハンドオーバにおける推定エラーの影響を可視化し、評価するための実シミュレーションフレームワークである。
論文 参考訳(メタデータ) (2022-03-03T19:37:12Z) - Container Localisation and Mass Estimation with an RGB-D Camera [2.5949039059957943]
操作された容器を検知し,その空の質量を推定するカメラベース手法を提案する。
CORSMAL Containers Manipulationデータセットの結果,提案手法は空のコンテナ質量を推定し,スコアは71.08%であった。
論文 参考訳(メタデータ) (2022-03-02T16:03:04Z) - Improving Generalization of Deep Networks for Estimating Physical
Properties of Containers and Fillings [9.804998964598115]
我々は、パイプラインのバックボーンモデルとして、協調的な注意を伴う軽量で訓練済みの畳み込みニューラルネットワークを使用している。
補充型分類とオーディオデータに対処し、その情報とビデオのモダリティを組み合わせ、補充レベル分類に対処する。
コンテナ容量,寸法,質量推定について,データ拡張と整合性の測定を行う。
論文 参考訳(メタデータ) (2022-03-02T15:47:27Z) - Featurized Density Ratio Estimation [82.40706152910292]
本研究では,2つの分布を推定前の共通特徴空間にマッピングするために,可逆生成モデルを活用することを提案する。
この偉業化は、学習された入力空間の密度比が任意に不正確な場合、潜在空間において密度が密接な関係をもたらす。
同時に、特徴写像の可逆性は、特徴空間で計算された比が入力空間で計算された比と同値であることを保証する。
論文 参考訳(メタデータ) (2021-07-05T18:30:26Z) - Improving filling level classification with adversarial training [90.01594595780928]
単一画像からカップや飲料グラスのコンテントのレベルを分類する問題について検討する。
汎用ソースデータセットで逆トレーニングを使用し、タスク固有のデータセットでトレーニングを洗練します。
ソース領域における逆学習による伝達学習は,テストセットの分類精度を常に向上させることを示す。
論文 参考訳(メタデータ) (2021-02-08T08:32:56Z) - Towards Question-Answering as an Automatic Metric for Evaluating the
Content Quality of a Summary [65.37544133256499]
質問回答(QA)を用いて要約内容の質を評価する指標を提案する。
提案指標であるQAEvalの分析を通じて,QAに基づくメトリクスの実験的メリットを実証する。
論文 参考訳(メタデータ) (2020-10-01T15:33:09Z) - Ordinal-Content VAE: Isolating Ordinal-Valued Content Factors in Deep
Latent Variable Models [34.552283758419506]
深層表現学習では、特定の要因(エム内容)を他の要因から分離することが望まれる。
本稿では、コンテンツ潜在空間に部分的に順序付けられた集合構造を課す新しいVAE拡張を提案する。
従来の非規則的アプローチよりもコンテンツスタイルの分離が大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2020-09-07T11:59:27Z) - Hierarchical Qualitative Clustering: clustering mixed datasets with
critical qualitative information [0.2294014185517203]
本稿では,階層クラスタリング(HQC)と最大平均離散値を用いた定性値のクラスタリング手法を提案する。
Spotifyが提供する混合データセットを用いて、数千曲の楽曲の量的特徴に基づいて、アーティストのクラスタリングに我々の手法をどのように利用できるかを示す。
また、企業の財務的特徴を利用することで、企業産業をクラスタ化し、投資ポートフォリオへの影響について議論する。
論文 参考訳(メタデータ) (2020-06-30T11:48:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。