論文の概要: A General Purpose Supervisory Signal for Embodied Agents
- arxiv url: http://arxiv.org/abs/2212.01186v1
- Date: Thu, 1 Dec 2022 16:38:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 16:05:48.256398
- Title: A General Purpose Supervisory Signal for Embodied Agents
- Title(参考訳): エンボディエージェントのための汎用監視信号
- Authors: Kunal Pratap Singh, Jordi Salvador, Luca Weihs, Aniruddha Kembhavi
- Abstract要約: 本稿では,シーングラフを汎用的,訓練専用,監督的な信号として利用するSGC損失を提案する。
SGCの損失は明示的なグラフデコーディングを廃止し、コントラスト学習を使用してエージェントの表現を環境のリッチなグラフィカルエンコーディングと整合させる。
我々は,オブジェクトナビゲーション,マルチオブジェクトナビゲーション,アームポイントナビゲーションの3つの具体化タスクにおいて,大幅な向上を達成した。
- 参考スコア(独自算出の注目度): 23.280193045251373
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training effective embodied AI agents often involves manual reward
engineering, expert imitation, specialized components such as maps, or
leveraging additional sensors for depth and localization. Another approach is
to use neural architectures alongside self-supervised objectives which
encourage better representation learning. In practice, there are few guarantees
that these self-supervised objectives encode task-relevant information. We
propose the Scene Graph Contrastive (SGC) loss, which uses scene graphs as
general-purpose, training-only, supervisory signals. The SGC loss does away
with explicit graph decoding and instead uses contrastive learning to align an
agent's representation with a rich graphical encoding of its environment. The
SGC loss is generally applicable, simple to implement, and encourages
representations that encode objects' semantics, relationships, and history.
Using the SGC loss, we attain significant gains on three embodied tasks: Object
Navigation, Multi-Object Navigation, and Arm Point Navigation. Finally, we
present studies and analyses which demonstrate the ability of our trained
representation to encode semantic cues about the environment.
- Abstract(参考訳): 効果的な実施AIエージェントの訓練には、手動報酬エンジニアリング、専門家の模倣、地図のような特殊なコンポーネント、奥行きと位置付けのための追加センサーの活用などが含まれる。
もう1つのアプローチは、より優れた表現学習を促進する自己教師対象とニューラルアーキテクチャを使用することである。
実際には、これらの自己教師付き目的がタスク関連情報をエンコードする保証はほとんどない。
本稿では,シーングラフを汎用的,訓練専用,監督的な信号として利用するSGC損失を提案する。
SGCの損失は明示的なグラフデコーディングを廃止し、コントラスト学習を使用してエージェントの表現を環境のリッチなグラフィカルエンコーディングと整合させる。
SGC損失は一般的に適用可能で、実装が簡単で、オブジェクトの意味論、関係、歴史をエンコードする表現を奨励する。
SGCの損失を利用して、オブジェクトナビゲーション、マルチオブジェクトナビゲーション、アームポイントナビゲーションの3つの具体化タスクにおいて、大幅に向上した。
最後に,学習した表現が環境に関する意味的手がかりをエンコードする能力を示す研究と分析を行う。
関連論文リスト
- Aligning Knowledge Graph with Visual Perception for Object-goal Navigation [16.32780793344835]
オブジェクトゴールナビゲーションのための視覚知覚付きアライニング知識グラフ(AKGVP)を提案する。
提案手法では,階層型シーンアーキテクチャの連続的モデリングを導入し,自然言語記述と視覚知覚との整合性を確保するために,視覚-言語事前学習を活用する。
継続的知識グラフアーキテクチャとマルチモーダル機能アライメントの統合により、ナビゲータは目覚ましいゼロショットナビゲーション能力を持つ。
論文 参考訳(メタデータ) (2024-02-29T06:31:18Z) - Selective Visual Representations Improve Convergence and Generalization
for Embodied AI [44.33711781750707]
身体化されたAIモデルは、CLIPのような棚の視覚バックボーンを使って視覚的な観察をエンコードすることが多い。
これは学習プロセス内のノイズを導入し、タスク関連視覚的手がかりからエージェントの焦点を逸脱させる。
人間が経験、知識、課題に基づいて知覚をフィルタリングするプロセスにおいて、人間の選択的な注意を喚起して、我々は、具体化されたAIのための視覚刺激をフィルタリングするためのパラメータ効率の良いアプローチを導入する。
論文 参考訳(メタデータ) (2023-11-07T18:34:02Z) - GiGaMAE: Generalizable Graph Masked Autoencoder via Collaborative Latent
Space Reconstruction [76.35904458027694]
マスク付きオートエンコーダモデルは、グラフデータに対する優れた一般化能力に欠ける。
本稿では,GiGaMAEと呼ばれる新しいグラフマスマスキングオートエンコーダフレームワークを提案する。
私たちの結果は、グラフ構造化データに基づく基礎モデルの設計に光を当てます。
論文 参考訳(メタデータ) (2023-08-18T16:30:51Z) - Improving Deep Representation Learning via Auxiliary Learnable Target Coding [69.79343510578877]
本稿では,深層表現学習の補助的正規化として,新たな学習対象符号化を提案する。
具体的には、より差別的な表現を促進するために、マージンベースの三重項損失と、提案した目標符号上の相関整合損失を設計する。
論文 参考訳(メタデータ) (2023-05-30T01:38:54Z) - Discovering Generalizable Spatial Goal Representations via Graph-based
Active Reward Learning [17.58129740811116]
我々は、報酬学習アプローチ、グラフベースの等価マッピング(GEM)を提案する。
GEMは、オブジェクト間の重要な空間関係を示すグラフと、グラフの各エッジに対する状態同値写像による空間目標仕様を表す。
GEMは,学習目標表現の高次ベースラインに対する一般化性を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-11-24T18:59:06Z) - Let Invariant Rationale Discovery Inspire Graph Contrastive Learning [98.10268114789775]
ハイパフォーマンスな拡張は、インスタンス識別に関するアンカーグラフの健全な意味を保存すべきである。
新たなフレームワーク Rationale-aware Graph Contrastive Learning (RGCL) を提案する。
RGCLは有理数生成器を使用して、グラフのインスタンス識別に関する健全な特徴を論理として明らかにし、対照的な学習のための有理数認識ビューを生成する。
論文 参考訳(メタデータ) (2022-06-16T01:28:40Z) - Software Vulnerability Detection via Deep Learning over Disaggregated
Code Graph Representation [57.92972327649165]
この研究は、コードコーパスから安全でないパターンを自動的に学習するためのディープラーニングアプローチを探求する。
コードには解析を伴うグラフ構造が自然に認められるため,プログラムの意味的文脈と構造的規則性の両方を利用する新しいグラフニューラルネットワーク(GNN)を開発する。
論文 参考訳(メタデータ) (2021-09-07T21:24:36Z) - Hierarchical Representations and Explicit Memory: Learning Effective
Navigation Policies on 3D Scene Graphs using Graph Neural Networks [16.19099481411921]
本稿では,ハイレベルな階層表現を活用してナビゲーションポリシーを学習する強化学習フレームワークを提案する。
本手法は,シーングラフの各ノードに対して,ロボット軌道の記憶を明示的に保持しつつ,占有度と意味的内容をキャプチャする機能を利用する。
論文 参考訳(メタデータ) (2021-08-02T21:21:27Z) - GINet: Graph Interaction Network for Scene Parsing [58.394591509215005]
画像領域に対する文脈推論を促進するために,グラフインタラクションユニット(GIユニット)とセマンティックコンテキストロス(SC-loss)を提案する。
提案されたGINetは、Pascal-ContextやCOCO Stuffなど、一般的なベンチマークにおける最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2020-09-14T02:52:45Z) - Improving Target-driven Visual Navigation with Attention on 3D Spatial
Relationships [52.72020203771489]
3次元屋内シーンにおける深部強化学習(DRL)を用いた目標駆動型視覚ナビゲーションについて検討した。
提案手法は視覚特徴と3次元空間表現を組み合わせてナビゲーションポリシーを学習する。
AI2-THORで実施した我々の実験は、SRとSPLの指標において、モデルがベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2020-04-29T08:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。