論文の概要: Predicting Goal-directed Attention Control Using Inverse-Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2001.11921v1
- Date: Fri, 31 Jan 2020 15:53:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-05 06:48:29.374883
- Title: Predicting Goal-directed Attention Control Using Inverse-Reinforcement
Learning
- Title(参考訳): 逆強化学習を用いたゴール指向注意制御の予測
- Authors: Gregory J. Zelinsky, Yupei Chen, Seoyoung Ahn, Hossein Adeli, Zhibo
Yang, Lihan Huang, Dimitrios Samaras, Minh Hoai
- Abstract要約: 機械学習と心理的に意味のある報酬原理を用いて、ゴール指向の注意制御で使用される視覚的特徴を学習することができる。
我々は4,366枚の画像(MS-COCO)のデータセットで、マイクロ波または時計のどちらかを探す人々から16,184個の固定品を収集した。
我々は、この行動アノテートデータセットと逆強化学習(IRL)の機械学習手法を用いて、これらの2つの目標に対する目標固有報酬関数とポリシーを学習した。
- 参考スコア(独自算出の注目度): 25.721096184051724
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding how goal states control behavior is a question ripe for
interrogation by new methods from machine learning. These methods require large
and labeled datasets to train models. To annotate a large-scale image dataset
with observed search fixations, we collected 16,184 fixations from people
searching for either microwaves or clocks in a dataset of 4,366 images
(MS-COCO). We then used this behaviorally-annotated dataset and the machine
learning method of Inverse-Reinforcement Learning (IRL) to learn
target-specific reward functions and policies for these two target goals.
Finally, we used these learned policies to predict the fixations of 60 new
behavioral searchers (clock = 30, microwave = 30) in a disjoint test dataset of
kitchen scenes depicting both a microwave and a clock (thus controlling for
differences in low-level image contrast). We found that the IRL model predicted
behavioral search efficiency and fixation-density maps using multiple metrics.
Moreover, reward maps from the IRL model revealed target-specific patterns that
suggest, not just attention guidance by target features, but also guidance by
scene context (e.g., fixations along walls in the search of clocks). Using
machine learning and the psychologically-meaningful principle of reward, it is
possible to learn the visual features used in goal-directed attention control.
- Abstract(参考訳): 目標状態の制御行動を理解することは、機械学習の新しい方法による尋問の熟考である。
これらのメソッドは、モデルをトレーニングするために大きなラベル付きデータセットを必要とします。
大規模な画像データセットに探索修正を施すため,4,366枚の画像(MS-COCO)を用いて,マイクロ波または時計を検索する人々から16,184個の画像データセットを収集した。
次に、この行動アノテートデータセットと、逆強化学習(IRL)の機械学習手法を用いて、これらの2つの目標に対する目標固有報酬関数とポリシーを学習した。
最後に,電子レンジと時計(低レベル画像のコントラストの違いを規定する)を描写したキッチンシーンの無秩序なテストデータセットにおいて,これらの学習したポリシーを用いて,新たな行動探索者60名(クロック=30,マイクロ波=30)の定着を予測した。
irlモデルは複数の指標を用いて行動探索効率と固定密度マップを予測した。
さらに、IRLモデルからの報酬マップは、ターゲット特徴による注意誘導だけでなく、シーンコンテキストによるガイダンス(例えば、時計探索における壁に沿った固定)も示唆するターゲット固有のパターンを明らかにした。
機械学習と心理的に意味のある報酬原理を用いて、ゴール指向の注意制御で使用される視覚的特徴を学習することができる。
関連論文リスト
- DMC-VB: A Benchmark for Representation Learning for Control with Visual Distractors [13.700885996266457]
行動クローニングやオフライン強化学習(RL)を通じて収集されたデータから学習することは、ジェネラリストエージェントをスケールするための強力なレシピである。
オフラインRLエージェントの堅牢性を評価するため,DeepMind Control Visual Benchmark (DMC-VB) をDeepMind Control Suiteで収集した。
そこで,本研究では,事前学習のための表現学習手法を評価するための3つのベンチマークを提案し,最近提案したいくつかの手法の実験を行った。
論文 参考訳(メタデータ) (2024-09-26T23:07:01Z) - Mixture of Self-Supervised Learning [2.191505742658975]
自己教師型学習は、特定のタスクに適用される前にモデル上でトレーニングされるプレテキストタスクを使用することで機能する。
従来の研究では、プリテキストタスクとして1つのタイプの変換しか使用されていなかった。
これにより、複数のプリテキストタスクが使用されているかどうか、すべてのプリテキストタスクを組み合わせるためにゲーティングネットワークを使用するかどうか、という疑問が持ち上がる。
論文 参考訳(メタデータ) (2023-07-27T14:38:32Z) - HIQL: Offline Goal-Conditioned RL with Latent States as Actions [81.67963770528753]
オフラインデータからゴール条件付きRLの階層的アルゴリズムを提案する。
この階層的な分解によって、推定値関数のノイズに頑健になることを示す。
提案手法は,従来の手法を巧みに操り,高次元画像観察にスケールできるとともに,アクションフリーなデータを容易に利用することができる。
論文 参考訳(メタデータ) (2023-07-22T00:17:36Z) - SEAL: Self-supervised Embodied Active Learning using Exploration and 3D
Consistency [122.18108118190334]
本稿では,SEAL(Self-Embodied Embodied Active Learning)というフレームワークを提案する。
インターネットイメージ上で訓練された知覚モデルを使用して、積極的な探索ポリシーを学ぶ。
我々は3Dセマンティックマップを用いて、行動と知覚の両方を、完全に自己管理された方法で学習する。
論文 参考訳(メタデータ) (2021-12-02T06:26:38Z) - Glimpse-Attend-and-Explore: Self-Attention for Active Visual Exploration [47.01485765231528]
アクティブな視覚探索は、限られた視野を持つエージェントが部分的な観察に基づいて環境を理解するのを支援することを目的としている。
タスク固有の不確実性マップではなく、自己注意を用いて視覚探索をガイドするGlimpse-Attend-and-Exploreモデルを提案する。
私たちのモデルは、探索を駆動する際のデータセットバイアスに頼らずに、奨励的な結果を提供します。
論文 参考訳(メタデータ) (2021-08-26T11:41:03Z) - Spot What Matters: Learning Context Using Graph Convolutional Networks
for Weakly-Supervised Action Detection [0.0]
ビデオにおける人間の行動検出を改善するために,自己注意と畳み込みネットワークに基づくアーキテクチャを導入する。
我々のモデルは、学習したコンテキストを注意マップとして可視化することで、トレーニング中に見つからないアクションやオブジェクトに対しても説明しやすくする。
実験結果から, 文脈的アプローチはビデオ・mAPの2点以上で, ベースライン動作検出手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-07-28T21:37:18Z) - Rapid Exploration for Open-World Navigation with Latent Goal Models [78.45339342966196]
多様なオープンワールド環境における自律的な探索とナビゲーションのためのロボット学習システムについて述べる。
本手法のコアとなるのは、画像の非パラメトリックトポロジカルメモリとともに、距離と行動の学習された潜在変数モデルである。
学習方針を規則化するために情報ボトルネックを使用し、(i)目標のコンパクトな視覚的表現、(ii)一般化能力の向上、(iii)探索のための実行可能な目標をサンプリングするためのメカニズムを提供する。
論文 参考訳(メタデータ) (2021-04-12T23:14:41Z) - Model-Based Visual Planning with Self-Supervised Functional Distances [104.83979811803466]
モデルに基づく視覚的目標達成のための自己監視手法を提案する。
私たちのアプローチは、オフラインでラベルなしのデータを使って完全に学習します。
このアプローチは,モデルフリーとモデルベース先行手法の両方で大幅に性能が向上することがわかった。
論文 参考訳(メタデータ) (2020-12-30T23:59:09Z) - Geography-Aware Self-Supervised Learning [79.4009241781968]
異なる特徴により、標準ベンチマークにおけるコントラスト学習と教師あり学習の間には、非自明なギャップが持続していることが示される。
本稿では,リモートセンシングデータの空間的整合性を利用した新しいトレーニング手法を提案する。
提案手法は,画像分類,オブジェクト検出,セマンティックセグメンテーションにおけるコントラスト学習と教師あり学習のギャップを埋めるものである。
論文 参考訳(メタデータ) (2020-11-19T17:29:13Z) - Predicting Goal-directed Human Attention Using Inverse Reinforcement
Learning [44.774961463015245]
視覚探索においてヒトが使用する報酬関数とポリシーを学習するための最初の逆強化学習モデルを提案する。
IRLモデルをトレーニングし、評価するために、私たちはCOCO-Search18を作成しました。
論文 参考訳(メタデータ) (2020-05-28T21:46:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。