論文の概要: Information Gain Is Not All You Need
- arxiv url: http://arxiv.org/abs/2504.01980v1
- Date: Fri, 28 Mar 2025 15:03:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-04 12:55:40.117770
- Title: Information Gain Is Not All You Need
- Title(参考訳): インフォメーションゲインは必要なものだけではない
- Authors: Ludvig Ericson, José Pedro, Patric Jensfelt,
- Abstract要約: 未知の事を知ることなく最善策を評価することは困難である。
これまでの研究では、情報獲得の見積もりを改善することで、欲張りの行動につながることが示されている。
本稿では,ロボットに近いが,他の候補状態から遠く離れた候補状態を優先して,バックトラッキングを低減する手法を提案する。
- 参考スコア(独自算出の注目度): 3.053906384469777
- License:
- Abstract: Autonomous exploration in mobile robotics is driven by two competing objectives: coverage, to exhaustively observe the environment; and path length, to do so with the shortest path possible. Though it is difficult to evaluate the best course of action without knowing the unknown, the unknown can often be understood through models, maps, or common sense. However, previous work has shown that improving estimates of information gain through such prior knowledge leads to greedy behavior and ultimately causes backtracking, which degrades coverage performance. In fact, any information gain maximization will exhibit this behavior, even without prior knowledge. Information gained at task completion is constant, and cannot be maximized for. It is therefore an unsuitable choice as an optimization objective. Instead, information gain is a decision criterion for determining which candidate states should still be considered for exploration. The task therefore becomes to reach completion with the shortest total path. Since determining the shortest path is typically intractable, it is necessary to rely on a heuristic or estimate to identify candidate states that minimize the total path length. To address this, we propose a heuristic that reduces backtracking by preferring candidate states that are close to the robot, but far away from other candidate states. We evaluate the performance of the proposed heuristic in simulation against an information gain-based approach and frontier exploration, and show that our method significantly decreases total path length, both with and without prior knowledge of the environment.
- Abstract(参考訳): 移動ロボットにおける自律的な探索は、環境を徹底的に観察するカバレッジと、可能な限り短い経路で実施するパスの長さという、2つの競合する目標によって駆動される。
未知の知識を使わずに最良の行動方法を評価することは難しいが、未知はモデルや地図、常識を通じて理解されることが多い。
しかし, これまでの研究では, 事前知識による情報獲得の推定値の改善が欲求行動を引き起こし, 最終的にバックトラッキングを引き起こし, カバレッジ性能を低下させることが示されている。
実際、どんな情報でも最大化は、たとえ事前の知識がなくても、この振る舞いを示すだろう。
タスク完了時に得られる情報は一定であり、最大化することはできない。
したがって、最適化の目的には適さない選択である。
その代わり、情報取得は、どの州が探索のために検討されるべきかを判断するための決定基準である。
したがって、タスクは最短のトータルパスで完了する。
最短経路を決定することは典型的には難解であるため、全経路長を最小化する候補状態を特定するには、ヒューリスティックまたは推定に頼る必要がある。
そこで本研究では,ロボットに近いが,他の候補状態から遠く離れた候補状態を優先することで,バックトラッキングを低減できるヒューリスティックを提案する。
本研究では,情報ゲインに基づくアプローチとフロンティア探索に対するシミュレーションによるヒューリスティックな手法の性能評価を行い,本手法が環境の事前知識と無知識の両方において,経路全体の距離を著しく減少させることを示す。
関連論文リスト
- IPPON: Common Sense Guided Informative Path Planning for Object Goal Navigation [33.979481250363584]
本稿では,新しい情報経路計画法と3次元オブジェクト確率マッピング手法を提案する。
マッピングモジュールはセマンティックセグメンテーションとベイズフィルタによって関心対象の確率を計算する。
我々のプランナーはゼロショットアプローチに従っているが、2023年のHabitat ObjectNav Challengeにおいて、Path Length(SPL)とSoft SPLが重み付けしたSuccessによって測定された最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-10-25T17:11:33Z) - No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery [53.08822154199948]
非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。
本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。
本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
論文 参考訳(メタデータ) (2024-08-27T14:31:54Z) - Online Learning with Costly Features in Non-stationary Environments [6.009759445555003]
シーケンシャルな意思決定の問題では、長期的な報酬を最大化することが第一の目標である。
現実世界の問題では、有益な情報を集めるのにしばしばコストがかかる。
時間内にサブ線形後悔を保証するアルゴリズムを開発する。
論文 参考訳(メタデータ) (2023-07-18T16:13:35Z) - TransPath: Learning Heuristics For Grid-Based Pathfinding via
Transformers [64.88759709443819]
探索の効率を顕著に向上させると考えられる,インスタンス依存のプロキシを学習することを提案する。
私たちが最初に学ぶことを提案するプロキシは、補正係数、すなわち、インスタンスに依存しないコスト・ツー・ゴの見積もりと完璧な見積もりの比率である。
第2のプロキシはパス確率であり、グリッドセルが最も短いパスに横たわっている可能性を示している。
論文 参考訳(メタデータ) (2022-12-22T14:26:11Z) - Discovering New Intents Using Latent Variables [51.50374666602328]
本稿では,意図の割り当てを潜伏変数として扱う意図を発見するための確率的フレームワークを提案する。
E-step, we conducting intents and explore the intrinsic structure of unlabeled data by the rear of intent assignments。
M段階において、ラベル付きデータの識別を最適化することにより、既知の意図から伝達される事前知識の忘れを緩和する。
論文 参考訳(メタデータ) (2022-10-21T08:29:45Z) - Incremental 3D Scene Completion for Safe and Efficient Exploration
Mapping and Planning [60.599223456298915]
本研究では,情報,安全,解釈可能な地図作成と計画に3次元シーン補完を活用することによって,深層学習を探索に統合する新しい手法を提案する。
本手法は,地図の精度を最小限に抑えることで,ベースラインに比べて環境のカバレッジを73%高速化できることを示す。
最終地図にシーン完了が含まれていなくても、ロボットがより情報的な経路を選択するように誘導し、ロボットのセンサーでシーンの測定を35%高速化できることが示される。
論文 参考訳(メタデータ) (2022-08-17T14:19:33Z) - Off-Policy Evaluation with Online Adaptation for Robot Exploration in
Challenging Environments [6.4617907823964345]
本稿では、状態値関数によって測定された「良い」状態がどのようにあるかを学習し、ロボット探査のガイダンスを提供する。
実世界のデータに関するオフラインのモンテカルロトレーニングと、トレーニングされた値推定器を最適化するために時間差分(TD)オンライン適応を実行する。
以上の結果から,ロボットが将来の状態を予測し,ロボット探索の指針となることが示唆された。
論文 参考訳(メタデータ) (2022-04-07T00:46:57Z) - Learning to Plan Optimistically: Uncertainty-Guided Deep Exploration via
Latent Model Ensembles [73.15950858151594]
本稿では,不確実な長期報酬に直面した最適化による深層探査を可能にするLOVE(Latent Optimistic Value Exploration)を提案する。
潜在世界モデルと値関数推定を組み合わせ、無限水平リターンを予測し、アンサンブルにより関連する不確実性を回復する。
連続行動空間における視覚ロボット制御タスクにLOVEを適用し、最先端や他の探査目標と比較して、平均20%以上のサンプル効率の改善を実証する。
論文 参考訳(メタデータ) (2020-10-27T22:06:57Z) - Temporal Difference Uncertainties as a Signal for Exploration [76.6341354269013]
強化学習における探索の効果的なアプローチは、最適な政策に対するエージェントの不確実性に依存することである。
本稿では,評価値のバイアスや時間的に矛盾する点を強調した。
本稿では,時間差誤差の分布の導出に依存する値関数の不確かさを推定する手法を提案する。
論文 参考訳(メタデータ) (2020-10-05T18:11:22Z) - Autonomous Exploration Under Uncertainty via Deep Reinforcement Learning
on Graphs [5.043563227694137]
本研究では,移動ロボットが事前の未知環境におけるランドマークの正確なマッピングをリアルタイムで効率的に行うという自律的な探索問題を考察する。
本稿では,グラフニューラルネットワーク(GNN)と深部強化学習(DRL)を併用した新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-24T16:50:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。