論文の概要: Desk Organization: Effect of Multimodal Inputs on Spatial Relational
Learning
- arxiv url: http://arxiv.org/abs/2108.01254v1
- Date: Tue, 3 Aug 2021 02:37:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-04 13:56:26.606492
- Title: Desk Organization: Effect of Multimodal Inputs on Spatial Relational
Learning
- Title(参考訳): デスク組織:空間関係学習におけるマルチモーダル入力の効果
- Authors: Ryan Rowe, Shivam Singhal, Daqing Yi, Tapomayukh Bhattacharjee and
Siddhartha S. Srinivasa
- Abstract要約: 視覚と触覚のモーダルから受ける複数の特徴を人間がどう配置するかを検討することで,机の組織化の問題をモデル化する。
我々は、マルチタスクの正確な分類に焦点を当てたランダムフォレストと、組織的習慣に対する理解しやすい洞察を提供するマルコフ論理ネットワークの2つのモデルを使用している。
- 参考スコア(独自算出の注目度): 17.85025563928276
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: For robots to operate in a three dimensional world and interact with humans,
learning spatial relationships among objects in the surrounding is necessary.
Reasoning about the state of the world requires inputs from many different
sensory modalities including vision ($V$) and haptics ($H$). We examine the
problem of desk organization: learning how humans spatially position different
objects on a planar surface according to organizational ''preference''. We
model this problem by examining how humans position objects given multiple
features received from vision and haptic modalities. However, organizational
habits vary greatly between people both in structure and adherence. To deal
with user organizational preferences, we add an additional modality,
''utility'' ($U$), which informs on a particular human's perceived usefulness
of a given object. Models were trained as generalized (over many different
people) or tailored (per person). We use two types of models: random forests,
which focus on precise multi-task classification, and Markov logic networks,
which provide an easily interpretable insight into organizational habits. The
models were applied to both synthetic data, which proved to be learnable when
using fixed organizational constraints, and human-study data, on which the
random forest achieved over 90% accuracy. Over all combinations of $\{H, U,
V\}$ modalities, $UV$ and $HUV$ were the most informative for organization. In
a follow-up study, we gauged participants preference of desk organizations by a
generalized random forest organization vs. by a random model. On average,
participants rated the random forest models as 4.15 on a 5-point Likert scale
compared to 1.84 for the random model
- Abstract(参考訳): ロボットが3次元の世界で操作し、人間と対話するには、周囲の物体間の空間的関係を学習する必要がある。
世界の状況に関する推論には、視覚(V$)や触覚(H$)など、さまざまな感覚モダリティからの入力が必要となる。
そこで我々は, 空間的対象を平面上にどのように配置するかを, 組織的「推奨」に従って学習する。
我々は、視覚と触覚のモダリティから受ける複数の特徴を人間がどう配置するかを調べることで、この問題をモデル化する。
しかし、組織的習慣は、構造と定着の両方において大きく異なる。
ユーザの組織的好みに対処するために、与えられたオブジェクトの特定の人間の認識された有用性を知らせる追加のモダリティ ''utility' (u$)を追加します。
モデルは、一般化(多くの異なる人々)または調整(一人あたり)として訓練された。
我々は、マルチタスクの正確な分類に焦点を当てたランダムフォレストと、組織的習慣に対する理解しやすい洞察を提供するマルコフ論理ネットワークの2つのモデルを使用している。
このモデルは, 固定的な組織制約を用いて学習可能な合成データと, 90%以上の精度でランダム林が達成された人為的データの両方に適用された。
組織にとって、$\{h, u, v\}$ modalities, $uv$ と $huv$ のすべての組み合わせが最も有益であった。
フォローアップ研究では,ランダムな森林組織とランダムなモデルで比較し,デスク組織の選好を推定した。
平均して、参加者はランダムな森林モデルを5ポイント様のスケールで4.15とし、ランダムなモデルでは1.84とした。
関連論文リスト
- Evaluating Multiview Object Consistency in Humans and Image Models [68.36073530804296]
我々は、物体の形状に関するゼロショット視覚的推論を必要とする認知科学の実験的設計を活用する。
我々は500人以上の参加者から行動データの35万件の試行を収集した。
次に、一般的な視覚モデルの性能を評価する。
論文 参考訳(メタデータ) (2024-09-09T17:59:13Z) - Evaluating alignment between humans and neural network representations in image-based learning tasks [5.657101730705275]
トレーニング済みの860ドルのニューラルネットワークモデルの表現が、人間の学習軌跡にどのようにマッピングされているかテストしました。
トレーニングデータセットのサイズは人間の選択に沿った中核的な決定要因であるのに対し、マルチモーダルデータ(テキストと画像)による対照的なトレーニングは、人間の一般化を予測するために現在公開されているモデルの一般的な特徴であることがわかった。
結論として、事前訓練されたニューラルネットワークは、タスク間で伝達可能な認知の基本的な側面を捉えているように見えるため、認知モデルのための表現を抽出するのに役立つ。
論文 参考訳(メタデータ) (2023-06-15T08:18:29Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Learning signatures of decision making from many individuals playing the
same game [54.33783158658077]
我々は、個人の「行動スタイル」を符号化する表現を学習する予測フレームワークを設計する。
我々は,3本腕のバンディットタスクを行う1,000人の人間による大規模行動データセットに本手法を適用した。
論文 参考訳(メタデータ) (2023-02-21T21:41:53Z) - Deep Learning for Human Parsing: A Survey [54.812353922568995]
本研究では,人間の意味解析の先駆的な研究の幅広い範囲を網羅する,最先端の人間の構文解析手法の解析を行う。
1) 構造駆動型アーキテクチャは,人体の異なる部分と固有の階層構造を生かし,(2) グラフベースのネットワークは,効率的で完全な人体分析を実現するためにグローバルな情報を捉え,(3) コンテキスト認識ネットワークは,対応するクラスのピクセルを特徴付けるために,すべてのピクセルにわたって有用なコンテキストを探索し,(4) LSTMベースの手法は,短距離と長距離空間の依存関係を結合して,豊富な局所的・グローバルなコンテキストをうまく活用することができる。
論文 参考訳(メタデータ) (2023-01-29T10:54:56Z) - BEHAVE: Dataset and Method for Tracking Human Object Interactions [105.77368488612704]
マルチビューのRGBDフレームとそれに対応する3D SMPLとオブジェクトをアノテートしたアノテートコンタクトに適合させる。
このデータを用いて、自然環境における人間と物体を、容易に使用可能なマルチカメラで共同で追跡できるモデルを学ぶ。
論文 参考訳(メタデータ) (2022-04-14T13:21:19Z) - Pose2Room: Understanding 3D Scenes from Human Activities [35.702234343672565]
ウェアラブルIMUセンサーを使えば、視覚的な入力を必要とせずに、ウェアラブルデバイスから人間のポーズを推定することができる。
P2R-Netは人体の動きの多モード分布を効果的に学習できることを示す。
論文 参考訳(メタデータ) (2021-12-01T20:54:36Z) - Beyond Tracking: Using Deep Learning to Discover Novel Interactions in
Biological Swarms [3.441021278275805]
本稿では,システムレベルの状態を全体像から直接予測するディープ・ネットワーク・モデルを提案する。
結果の予測モデルは、人間の理解した予測モデルに基づいていないため、説明モジュールを使用する。
これは、行動生態学における人工知能の例である。
論文 参考訳(メタデータ) (2021-08-20T22:50:41Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。