論文の概要: Learning a Visually Grounded Memory Assistant
- arxiv url: http://arxiv.org/abs/2210.03787v1
- Date: Fri, 7 Oct 2022 19:19:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 19:08:16.577697
- Title: Learning a Visually Grounded Memory Assistant
- Title(参考訳): 視覚下地記憶アシスタントの学習
- Authors: Meera Hahn, Kevin Carlberg, Ruta Desai, James Hillis
- Abstract要約: 我々は、人間の記憶と援助の大規模な収集のための新しいインタフェースを導入する。
3D Matterportシミュレーターを使用して、特定の具体的メモリタスクを人々に実行させる現実的な屋内環境を作成する。
このインターフェースはAmazon Mechanical Turkにデプロイされ、人間のメモリのテストと記録が可能になりました。
- 参考スコア(独自算出の注目度): 3.808063547958558
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a novel interface for large scale collection of human memory and
assistance. Using the 3D Matterport simulator we create a realistic indoor
environments in which we have people perform specific embodied memory tasks
that mimic household daily activities. This interface was then deployed on
Amazon Mechanical Turk allowing us to test and record human memory, navigation
and needs for assistance at a large scale that was previously impossible. Using
the interface we collect the `The Visually Grounded Memory Assistant Dataset'
which is aimed at developing our understanding of (1) the information people
encode during navigation of 3D environments and (2) conditions under which
people ask for memory assistance. Additionally we experiment with with
predicting when people will ask for assistance using models trained on
hand-selected visual and semantic features. This provides an opportunity to
build stronger ties between the machine-learning and cognitive-science
communities through learned models of human perception, memory, and cognition.
- Abstract(参考訳): 人間の記憶と援助の大規模な収集のための新しいインタフェースを導入する。
3D Matterportシミュレーターを用いて、家庭の日常生活を模倣する特定の具体的メモリタスクを人々に行う現実的な屋内環境を構築する。
このインターフェースはAmazon Mechanical Turk上にデプロイされ、人間のメモリ、ナビゲーション、そしてこれまで不可能だった大規模な支援の必要性のテストと記録を可能にしました。
このインタフェースを用いて,(1)3d環境のナビゲーション中にエンコードされる情報と,(2)記憶支援を求める条件を理解することを目的とした,'the visual grounded memory assistant dataset' を収集する。
さらに,手選択した視覚的・意味的特徴に基づいて学習したモデルを用いて,支援を求めるタイミングを予測する実験を行った。
これは、人間の知覚、記憶、認知の学習モデルを通じて、機械学習と認知科学のコミュニティの間により強い関係を築く機会を提供する。
関連論文リスト
- Modeling User Preferences via Brain-Computer Interfacing [54.3727087164445]
我々はBrain-Computer Interface技術を用いてユーザの好みを推測し、その注意力は視覚的コンテンツと感情的体験との関連性に相関する。
我々はこれらを,情報検索,生成モデルのパーソナライズされたステアリング,感情経験のクラウドソーシング人口推定など,関連するアプリケーションにリンクする。
論文 参考訳(メタデータ) (2024-05-15T20:41:46Z) - Spatially-Aware Transformer for Embodied Agents [20.498778205143477]
本稿では,空間情報を含む空間認識変換器モデルの利用について検討する。
メモリ利用効率が向上し,様々な場所中心の下流タスクにおいて精度が向上することが実証された。
また,強化学習に基づくメモリ管理手法であるAdaptive Memory Allocatorを提案する。
論文 参考訳(メタデータ) (2024-02-23T07:46:30Z) - Social-Transmotion: Promptable Human Trajectory Prediction [65.80068316170613]
Social-Transmotionは、多種多様な視覚的手がかりを利用して人間の行動を予測する、汎用トランスフォーマーベースのモデルである。
提案手法は,JTA,JRDB,歩行者,道路交通のサイクリスト,ETH-UCYなど,複数のデータセットで検証されている。
論文 参考訳(メタデータ) (2023-12-26T18:56:49Z) - Personalized Large Language Model Assistant with Evolving Conditional Memory [15.780762727225122]
条件記憶を進化させる大規模言語モデルアシスタントをパーソナライズするためのプラグイン・アンド・プレイフレームワークを提案する。
パーソナライズされたアシスタントは、ユーザとの履歴対話から知識と経験をインテリジェントに保存することに焦点を当てる。
論文 参考訳(メタデータ) (2023-12-22T02:39:15Z) - Semantic HELM: A Human-Readable Memory for Reinforcement Learning [9.746397419479445]
人間の言語における過去の出来事を表現する新しい記憶機構を提案する。
私たちは、部分的に観測可能な環境のセットでメモリメカニズムをトレーニングし、それがメモリコンポーネントを必要とするタスクに優れていることを見つけます。
メモリメカニズムは人間が読めるので、エージェントのメモリを覗き見して、重要な情報が保存されているかどうかを確認することができます。
論文 参考訳(メタデータ) (2023-06-15T17:47:31Z) - Visual Affordance Prediction for Guiding Robot Exploration [56.17795036091848]
我々は,ロボット探索を導くための視覚能力の学習手法を開発した。
VQ-VAEの潜伏埋め込み空間における条件分布の学習にはTransformerベースのモデルを用いる。
本稿では,ロボット操作における視覚的目標条件付きポリシー学習において,目標サンプリング分布として機能することで探索を導くために,トレーニングされた余裕モデルをどのように利用できるかを示す。
論文 参考訳(メタデータ) (2023-05-28T17:53:09Z) - BEHAVE: Dataset and Method for Tracking Human Object Interactions [105.77368488612704]
マルチビューのRGBDフレームとそれに対応する3D SMPLとオブジェクトをアノテートしたアノテートコンタクトに適合させる。
このデータを用いて、自然環境における人間と物体を、容易に使用可能なマルチカメラで共同で追跡できるモデルを学ぶ。
論文 参考訳(メタデータ) (2022-04-14T13:21:19Z) - PONI: Potential Functions for ObjectGoal Navigation with
Interaction-free Learning [125.22462763376993]
対話自由学習(PONI)を用いたオブジェクト指向ナビゲーションの可能性について提案する。
PONIは、物がどこに見えるかというスキルと、どのように(x, y)にナビゲートするかを歪めます。」
論文 参考訳(メタデータ) (2022-01-25T01:07:32Z) - Visual Intelligence through Human Interaction [43.82765410550207]
我々は,新しいインタラクション戦略により,コンピュータビジョンのための新しい形式のデータ収集と評価が可能になることを実証する。
クラウドソーシングインタフェースにより、有料データ収集を桁違いにスピードアップし、現代の視覚モデルにおけるデータ急激な性質を満たす。
第3に,人間の生成的視覚モデルの評価が信頼性が高く,手頃な価格で,心理物理学理論に根ざしたシステムを開発する。
論文 参考訳(メタデータ) (2021-11-12T19:37:17Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z) - Learning Object Placements For Relational Instructions by Hallucinating
Scene Representations [26.897316325189205]
単一入力画像から空間関係の集合に対する画素単位の物体配置確率を推定するための畳み込みニューラルネットワークを提案する。
本手法では,オブジェクトの画素関係確率や3次元モデルに対して,地上の真理データを必要としない。
実世界のデータと人間ロボット実験を用いて,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2020-01-23T12:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。