論文の概要: Desk Organization: Effect of Multimodal Inputs on Spatial Relational
Learning
- arxiv url: http://arxiv.org/abs/2108.01254v1
- Date: Tue, 3 Aug 2021 02:37:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-04 13:56:26.606492
- Title: Desk Organization: Effect of Multimodal Inputs on Spatial Relational
Learning
- Title(参考訳): デスク組織:空間関係学習におけるマルチモーダル入力の効果
- Authors: Ryan Rowe, Shivam Singhal, Daqing Yi, Tapomayukh Bhattacharjee and
Siddhartha S. Srinivasa
- Abstract要約: 視覚と触覚のモーダルから受ける複数の特徴を人間がどう配置するかを検討することで,机の組織化の問題をモデル化する。
我々は、マルチタスクの正確な分類に焦点を当てたランダムフォレストと、組織的習慣に対する理解しやすい洞察を提供するマルコフ論理ネットワークの2つのモデルを使用している。
- 参考スコア(独自算出の注目度): 17.85025563928276
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: For robots to operate in a three dimensional world and interact with humans,
learning spatial relationships among objects in the surrounding is necessary.
Reasoning about the state of the world requires inputs from many different
sensory modalities including vision ($V$) and haptics ($H$). We examine the
problem of desk organization: learning how humans spatially position different
objects on a planar surface according to organizational ''preference''. We
model this problem by examining how humans position objects given multiple
features received from vision and haptic modalities. However, organizational
habits vary greatly between people both in structure and adherence. To deal
with user organizational preferences, we add an additional modality,
''utility'' ($U$), which informs on a particular human's perceived usefulness
of a given object. Models were trained as generalized (over many different
people) or tailored (per person). We use two types of models: random forests,
which focus on precise multi-task classification, and Markov logic networks,
which provide an easily interpretable insight into organizational habits. The
models were applied to both synthetic data, which proved to be learnable when
using fixed organizational constraints, and human-study data, on which the
random forest achieved over 90% accuracy. Over all combinations of $\{H, U,
V\}$ modalities, $UV$ and $HUV$ were the most informative for organization. In
a follow-up study, we gauged participants preference of desk organizations by a
generalized random forest organization vs. by a random model. On average,
participants rated the random forest models as 4.15 on a 5-point Likert scale
compared to 1.84 for the random model
- Abstract(参考訳): ロボットが3次元の世界で操作し、人間と対話するには、周囲の物体間の空間的関係を学習する必要がある。
世界の状況に関する推論には、視覚(V$)や触覚(H$)など、さまざまな感覚モダリティからの入力が必要となる。
そこで我々は, 空間的対象を平面上にどのように配置するかを, 組織的「推奨」に従って学習する。
我々は、視覚と触覚のモダリティから受ける複数の特徴を人間がどう配置するかを調べることで、この問題をモデル化する。
しかし、組織的習慣は、構造と定着の両方において大きく異なる。
ユーザの組織的好みに対処するために、与えられたオブジェクトの特定の人間の認識された有用性を知らせる追加のモダリティ ''utility' (u$)を追加します。
モデルは、一般化(多くの異なる人々)または調整(一人あたり)として訓練された。
我々は、マルチタスクの正確な分類に焦点を当てたランダムフォレストと、組織的習慣に対する理解しやすい洞察を提供するマルコフ論理ネットワークの2つのモデルを使用している。
このモデルは, 固定的な組織制約を用いて学習可能な合成データと, 90%以上の精度でランダム林が達成された人為的データの両方に適用された。
組織にとって、$\{h, u, v\}$ modalities, $uv$ と $huv$ のすべての組み合わせが最も有益であった。
フォローアップ研究では,ランダムな森林組織とランダムなモデルで比較し,デスク組織の選好を推定した。
平均して、参加者はランダムな森林モデルを5ポイント様のスケールで4.15とし、ランダムなモデルでは1.84とした。
関連論文リスト
- Human-AI Interactions in the Communication Era: Autophagy Makes Large
Models Achieving Local Optima [11.972017738888825]
本研究では,人間と大規模モデルがコミュニケーションにおいて重要なリンクとして使用される際のバイアスと嗜好について検討する。
我々の主な発見は、合成された情報は、人為的な情報よりも、モデルトレーニングデータセットやメッセージングに組み込まれる可能性が高い点である。
本稿では,人間とAIシステム間の情報交換における人為的な情報の抑制を考慮に入れた,自己消費ループの現実的な2つのモデルを提案する。
論文 参考訳(メタデータ) (2024-02-17T13:02:54Z) - Pave the Way to Grasp Anything: Transferring Foundation Models for
Universal Pick-Place Robots [50.73735524550534]
そこで本稿では,最先端基礎モデルによって生成された言語基底セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
マスクから伝達される正確なセマンティクスとジオメトリを多視点ポリシーモデルに統合することにより、正確なオブジェクトのポーズを認識し、サンプル効率のよい学習を可能にする。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Learning signatures of decision making from many individuals playing the
same game [54.33783158658077]
我々は、個人の「行動スタイル」を符号化する表現を学習する予測フレームワークを設計する。
我々は,3本腕のバンディットタスクを行う1,000人の人間による大規模行動データセットに本手法を適用した。
論文 参考訳(メタデータ) (2023-02-21T21:41:53Z) - Deep Learning for Human Parsing: A Survey [54.812353922568995]
本研究では,人間の意味解析の先駆的な研究の幅広い範囲を網羅する,最先端の人間の構文解析手法の解析を行う。
1) 構造駆動型アーキテクチャは,人体の異なる部分と固有の階層構造を生かし,(2) グラフベースのネットワークは,効率的で完全な人体分析を実現するためにグローバルな情報を捉え,(3) コンテキスト認識ネットワークは,対応するクラスのピクセルを特徴付けるために,すべてのピクセルにわたって有用なコンテキストを探索し,(4) LSTMベースの手法は,短距離と長距離空間の依存関係を結合して,豊富な局所的・グローバルなコンテキストをうまく活用することができる。
論文 参考訳(メタデータ) (2023-01-29T10:54:56Z) - BEHAVE: Dataset and Method for Tracking Human Object Interactions [105.77368488612704]
マルチビューのRGBDフレームとそれに対応する3D SMPLとオブジェクトをアノテートしたアノテートコンタクトに適合させる。
このデータを用いて、自然環境における人間と物体を、容易に使用可能なマルチカメラで共同で追跡できるモデルを学ぶ。
論文 参考訳(メタデータ) (2022-04-14T13:21:19Z) - Pose2Room: Understanding 3D Scenes from Human Activities [35.702234343672565]
ウェアラブルIMUセンサーを使えば、視覚的な入力を必要とせずに、ウェアラブルデバイスから人間のポーズを推定することができる。
P2R-Netは人体の動きの多モード分布を効果的に学習できることを示す。
論文 参考訳(メタデータ) (2021-12-01T20:54:36Z) - Beyond Tracking: Using Deep Learning to Discover Novel Interactions in
Biological Swarms [3.441021278275805]
本稿では,システムレベルの状態を全体像から直接予測するディープ・ネットワーク・モデルを提案する。
結果の予測モデルは、人間の理解した予測モデルに基づいていないため、説明モジュールを使用する。
これは、行動生態学における人工知能の例である。
論文 参考訳(メタデータ) (2021-08-20T22:50:41Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - Modeling Shared Responses in Neuroimaging Studies through MultiView ICA [94.31804763196116]
被験者の大規模なコホートを含むグループ研究は、脳機能組織に関する一般的な結論を引き出す上で重要である。
グループ研究のための新しい多視点独立成分分析モデルを提案し、各被験者のデータを共有独立音源と雑音の線形結合としてモデル化する。
まず、fMRIデータを用いて、被験者間の共通音源の同定における感度の向上を示す。
論文 参考訳(メタデータ) (2020-06-11T17:29:53Z) - AMIL: Adversarial Multi Instance Learning for Human Pose Estimation [24.175298058941515]
本稿では,ネットワークのトレーニングにおいて,事前を慎重に考慮する構造対応ネットワークを提案する。
我々は2つの残留多重インスタンス学習モデル(MIL)を設計する学習モデルとして、生成逆ネットワークを提案する。
プールをベースとした逆数残差マルチインスタンスニューラルネットワークを2つのデータセットで検証した。
論文 参考訳(メタデータ) (2020-03-18T01:22:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。