論文の概要: Semantic Tracklets: An Object-Centric Representation for Visual
Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2108.03319v1
- Date: Fri, 6 Aug 2021 22:19:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-10 15:37:25.029298
- Title: Semantic Tracklets: An Object-Centric Representation for Visual
Multi-Agent Reinforcement Learning
- Title(参考訳): semantic tracklets:ビジュアルマルチエージェント強化学習のためのオブジェクト中心表現
- Authors: Iou-Jen Liu, Zhongzheng Ren, Raymond A. Yeh, Alexander G. Schwing
- Abstract要約: 本研究では,不整合表現によるスケーラビリティの実現について検討する。
視覚多エージェント粒子環境(VMPE)と視覚多エージェントGFootball環境における意味トラックレット'の評価を行った。
特に,この手法は視覚データのみを用いて,GFootball環境における5人のプレイヤーの戦略を学習した最初の方法である。
- 参考スコア(独自算出の注目度): 126.57680291438128
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Solving complex real-world tasks, e.g., autonomous fleet control, often
involves a coordinated team of multiple agents which learn strategies from
visual inputs via reinforcement learning. Many existing multi-agent
reinforcement learning (MARL) algorithms however don't scale to environments
where agents operate on visual inputs. To address this issue, algorithmically,
recent works have focused on non-stationarity and exploration. In contrast, we
study whether scalability can also be achieved via a disentangled
representation. For this, we explicitly construct an object-centric
intermediate representation to characterize the states of an environment, which
we refer to as `semantic tracklets.' We evaluate `semantic tracklets' on the
visual multi-agent particle environment (VMPE) and on the challenging visual
multi-agent GFootball environment. `Semantic tracklets' consistently outperform
baselines on VMPE, and achieve a +2.4 higher score difference than baselines on
GFootball. Notably, this method is the first to successfully learn a strategy
for five players in the GFootball environment using only visual data.
- Abstract(参考訳): 複雑な現実のタスク、例えば自律的な艦隊制御の解決には、強化学習を通じて視覚的な入力から戦略を学ぶ複数のエージェントからなる協調チームが必要となる。
しかし、既存のマルチエージェント強化学習(MARL)アルゴリズムの多くは、エージェントが視覚入力を操作する環境にスケールしない。
この問題に対処するため、アルゴリズムによって、最近の研究は非定常性と探索に焦点を当てている。
対照的に,不整合表現によるスケーラビリティの実現についても検討する。
この目的のために、我々は、対象中心の中間表現を明示的に構築し、環境の状態を特徴付け、それを「意味トラックレット」と呼ぶ。
本研究では,視覚マルチエージェント粒子環境 (vmpe) および挑戦的な視覚マルチエージェントgfootball環境において,'semantic tracklets'を評価する。
セマンティックトラックレット」はVMPEのベースラインを一貫して上回り、GFootballのベースラインよりも+2.4高いスコア差が得られる。
特に,この手法は視覚データのみを用いて,GFootball環境における5人のプレイヤーの戦略を学習した最初の方法である。
関連論文リスト
- ROCKET-1: Mastering Open-World Interaction with Visual-Temporal Context Prompting [24.56720920528011]
視覚言語モデル(VLM)は、マルチモーダルなタスクに優れていますが、オープンワールド環境における意思決定の具体化にそれらを適用することは、課題を示します。
1つの重要な問題は、低レベルの観測における個別の実体と効果的な計画に必要な抽象概念のギャップを埋めることである。
VLMとポリシーモデルの間の新しい通信プロトコルである視覚的時間的コンテキストを提案する。
論文 参考訳(メタデータ) (2024-10-23T13:26:59Z) - Multi-Granularity Language-Guided Multi-Object Tracking [95.91263758294154]
本稿では,多目的追跡フレームワークLG-MOTを提案する。
推測では、LG-MOTは注釈付き言語記述に頼ることなく、標準的な視覚機能を使用します。
我々のLG-MOTは、視覚的特徴のみを用いたベースラインと比較して、目標対象関連(IDF1スコア)において、絶対的な2.2%のゲインを達成している。
論文 参考訳(メタデータ) (2024-06-07T11:18:40Z) - Learning Robust Visual-Semantic Embedding for Generalizable Person
Re-identification [11.562980171753162]
一般化可能な人物識別(Re-ID)は、機械学習とコンピュータビジョンにおいて非常にホットな研究トピックである。
従来の手法は主に視覚表現学習に焦点をあてるが、訓練中の意味的特徴の可能性を検討することは無視される。
MMETと呼ばれるマルチモーダル等価変換器を提案し,より堅牢なビジュアル・セマンティックな埋め込み学習を実現する。
論文 参考訳(メタデータ) (2023-04-19T08:37:25Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - CLEAR: Improving Vision-Language Navigation with Cross-Lingual,
Environment-Agnostic Representations [98.30038910061894]
VLN(Vision-and-Language Navigation)タスクでは、エージェントが言語命令に基づいて環境をナビゲートする必要がある。
CLEAR: 言語横断表現と環境非依存表現を提案する。
我々の言語と視覚表現は、Room-to-Room and Cooperative Vision-and-Dialogue Navigationタスクにうまく転送できる。
論文 参考訳(メタデータ) (2022-07-05T17:38:59Z) - Robust Policies via Mid-Level Visual Representations: An Experimental
Study in Manipulation and Navigation [115.4071729927011]
エンド・ツー・エンドのRLフレームワークにおいて,中間レベルの視覚表現を汎用的かつ容易に認識可能な知覚状態として用いることの効果について検討した。
一般化を支援し、サンプルの複雑さを改善し、最終的なパフォーマンスを高めることを示します。
実際には、ドメインのランダム化やスクラッチからの学習が失敗したタスクのポリシーをうまくトレーニングするために、中間レベルの表現が使用できる。
論文 参考訳(メタデータ) (2020-11-13T00:16:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。