論文の概要: Optimistic Agent: Accurate Graph-Based Value Estimation for More
Successful Visual Navigation
- arxiv url: http://arxiv.org/abs/2004.03222v2
- Date: Sun, 6 Dec 2020 11:30:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 00:15:53.181161
- Title: Optimistic Agent: Accurate Graph-Based Value Estimation for More
Successful Visual Navigation
- Title(参考訳): Optimistic Agent: より有効なビジュアルナビゲーションのためのグラフベースの正確な値推定
- Authors: Mahdi Kazemi Moghaddam, Qi Wu, Ehsan Abbasnejad and Javen Qinfeng Shi
- Abstract要約: 先行知識(または経験)の取り込み、観察された視覚的手がかりを用いた新しい環境への適応、そして早期に諦めることなく楽観的に探索することの3つの主な理由により、この能力は大きいと論じる。
これは現在、強化学習(RL)に基づく最先端のビジュアルナビゲーション手法に欠けている。
本稿では,相対的対象位置の事前知識を外部から学習し,ニューラルグラフを構築してモデルに統合することを提案する。
- 参考スコア(独自算出の注目度): 18.519303422753534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We humans can impeccably search for a target object, given its name only,
even in an unseen environment. We argue that this ability is largely due to
three main reasons: the incorporation of prior knowledge (or experience), the
adaptation of it to the new environment using the observed visual cues and most
importantly optimistically searching without giving up early. This is currently
missing in the state-of-the-art visual navigation methods based on
Reinforcement Learning (RL). In this paper, we propose to use externally
learned prior knowledge of the relative object locations and integrate it into
our model by constructing a neural graph. In order to efficiently incorporate
the graph without increasing the state-space complexity, we propose our
Graph-based Value Estimation (GVE) module. GVE provides a more accurate
baseline for estimating the Advantage function in actor-critic RL algorithm.
This results in reduced value estimation error and, consequently, convergence
to a more optimal policy. Through empirical studies, we show that our agent,
dubbed as the optimistic agent, has a more realistic estimate of the state
value during a navigation episode which leads to a higher success rate. Our
extensive ablation studies show the efficacy of our simple method which
achieves the state-of-the-art results measured by the conventional visual
navigation metrics, e.g. Success Rate (SR) and Success weighted by Path Length
(SPL), in AI2THOR environment.
- Abstract(参考訳): 人間は、目に見えない環境でも、その名前だけを考えると、ターゲットオブジェクトを不当に探すことができる。
この能力は、主に、事前知識(または経験)の編入、観察した視覚的な手がかりを用いた新しい環境への適応、そして最も重要な重要なこととして、早期に諦めずに楽観的に検索することの3つの主な理由によるものである。
これは現在、Reinforcement Learning (RL)に基づく最先端のビジュアルナビゲーション手法に欠けている。
本稿では,外部から学習した相対対象位置の事前知識を用いて,ニューラルネットワークを構築してモデルに統合する手法を提案する。
状態空間の複雑さを増大させることなくグラフを効率的に組み込むために,グラフベースの値推定(GVE)モジュールを提案する。
GVEはアクタークリティカルRLアルゴリズムのアドバンテージ関数を推定するためのより正確なベースラインを提供する。
これにより、値推定誤差が減少し、その結果、より最適なポリシーに収束する。
実証実験により,我々のエージェントは楽観的エージェントと呼ばれ,ナビゲーションエピソード中の状態値のより現実的な推定値を持ち,より高い成功率をもたらすことが示された。
本研究では,AI2THOR環境下での従来の視覚ナビゲーション測定値(SR)とSPL(Success Longngth)の重み付けによる成功率(Success)など)によって測定された,簡単な手法の有効性を示す。
関連論文リスト
- Augmented Commonsense Knowledge for Remote Object Grounding [67.30864498454805]
エージェントナビゲーションを改善するための時間的知識グラフとして,コモンセンス情報を活用するための拡張コモンセンス知識モデル(ACK)を提案する。
ACKは知識グラフ対応のクロスモーダルとコンセプトアグリゲーションモジュールで構成され、視覚的表現と視覚的テキストデータアライメントを強化する。
我々は、より正確な局所的な行動予測につながるコモンセンスに基づく意思決定プロセスのための新しいパイプラインを追加します。
論文 参考訳(メタデータ) (2024-06-03T12:12:33Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Logical Bias Learning for Object Relation Prediction [3.724255294816294]
シーングラフ生成(SGG)は、イメージをセマンティックな構造グラフに自動的にマッピングして、シーン理解を改善することを目的としている。
バイアスのあるデータとトレーニング方法のために、実際には厳しい制限に直面しています。
対象関係予測のための因果推論に基づくより合理的で効果的な戦略を提案する。
論文 参考訳(メタデータ) (2023-10-01T16:12:00Z) - INFOrmation Prioritization through EmPOWERment in Visual Model-Based RL [90.06845886194235]
モデルベース強化学習(RL)のための修正目的を提案する。
相互情報に基づく状態空間モデルに,変分エンパワーメントにインスパイアされた用語を統合する。
本研究は,視覚に基づくロボット制御作業における自然な映像背景を用いたアプローチの評価である。
論文 参考訳(メタデータ) (2022-04-18T23:09:23Z) - Symmetry-aware Neural Architecture for Embodied Visual Navigation [24.83118298491349]
実験結果から,Gibsonデータセットでトレーニングし,MP3Dデータセットでテストした場合,提案手法は面積範囲を8.1m2$増加させることがわかった。
論文 参考訳(メタデータ) (2021-12-17T14:07:23Z) - Hierarchical Object-to-Zone Graph for Object Navigation [43.558927774552295]
目に見えない環境では、対象のオブジェクトが自我中心のビューにない場合、エージェントは賢明な決定を下すことができないかもしれない。
エージェントを粗大に誘導する階層的オブジェクト・ツー・ゾーングラフ(HOZ)を提案する。
オンライン学習機構は、新しい環境におけるリアルタイム観測に応じてHOZを更新するためにも提案されている。
論文 参考訳(メタデータ) (2021-09-05T13:02:17Z) - Improving Perception via Sensor Placement: Designing Multi-LiDAR Systems
for Autonomous Vehicles [16.45799795374353]
確率的占有グリッド(POG)に基づく計算が容易な情報理論的サーロゲートコストメトリックを提案し、最大センシングのためのLiDAR配置を最適化する。
以上の結果から,センサ配置は3Dポイントクラウドによる物体検出において重要な要素であり,最先端の認識アルゴリズムでは10%の精度で性能が変動する可能性が示唆された。
論文 参考訳(メタデータ) (2021-05-02T01:52:18Z) - RelWalk A Latent Variable Model Approach to Knowledge Graph Embedding [50.010601631982425]
本稿では,単語埋め込みのランダムウォークモデル(Arora et al., 2016a)を知識グラフ埋め込み(KGE)に拡張する。
二つの実体 h (head) と t (tail) の間の関係 R の強さを評価するスコア関数を導出する。
理論的解析によって動機付けられた学習目標を提案し,知識グラフからKGEを学習する。
論文 参考訳(メタデータ) (2021-01-25T13:31:29Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z) - Denoising IMU Gyroscopes with Deep Learning for Open-Loop Attitude
Estimation [0.0]
本稿では,慣性計測ユニット(IMU)のジャイロスコープを地中真実データを用いて識別する学習手法を提案する。
得られたアルゴリズムは、(目に見えない)テストシーケンスで最先端の処理を行う。
論文 参考訳(メタデータ) (2020-02-25T08:04:31Z) - Value-driven Hindsight Modelling [68.658900923595]
値推定は強化学習(RL)パラダイムの重要な構成要素である。
モデル学習は、観測系列に存在する豊富な遷移構造を利用することができるが、このアプローチは通常、報酬関数に敏感ではない。
この2つの極点の間に位置するRLにおける表現学習のアプローチを開発する。
これにより、タスクに直接関連し、値関数の学習を加速できる、抽出可能な予測ターゲットが提供される。
論文 参考訳(メタデータ) (2020-02-19T18:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。