Fugu-MT 論文翻訳(概要): Measuring Visual Generalization in Continuous Control from Pixels

論文の概要: Measuring Visual Generalization in Continuous Control from Pixels

arxiv url: http://arxiv.org/abs/2010.06740v2
Date: Fri, 27 Nov 2020 20:33:03 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-07 22:36:49.738876
Title: Measuring Visual Generalization in Continuous Control from Pixels
Title（参考訳）: 画素からの連続制御における視覚的一般化の測定
Authors: Jake Grigsby, Yanjun Qi
Abstract要約: 自己教師付き学習とデータ拡張は、状態と画像に基づく強化学習エージェントのパフォーマンスギャップを著しく減らした。本稿では,既存の連続制御領域にグラフィカルな多様性を加えることで,エージェントの視覚的一般化をテストするベンチマークを提案する。我々は、データ拡張技術が自己教師付き学習手法より優れており、より重要な画像変換がより視覚的な一般化をもたらすことを発見した。
参考スコア（独自算出の注目度）: 12.598584313005407
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Self-supervised learning and data augmentation have significantly reduced the performance gap between state and image-based reinforcement learning agents in continuous control tasks. However, it is still unclear whether current techniques can face a variety of visual conditions required by real-world environments. We propose a challenging benchmark that tests agents' visual generalization by adding graphical variety to existing continuous control domains. Our empirical analysis shows that current methods struggle to generalize across a diverse set of visual changes, and we examine the specific factors of variation that make these tasks difficult. We find that data augmentation techniques outperform self-supervised learning approaches and that more significant image transformations provide better visual generalization \footnote{The benchmark and our augmented actor-critic implementation are open-sourced @ https://github.com/QData/dmc_remastered)
Abstract（参考訳）: 自己教師付き学習とデータ拡張は、連続制御タスクにおける状態と画像に基づく強化学習エージェントのパフォーマンスギャップを著しく減らした。しかし、現在の技術が現実世界の環境に要求される様々な視覚的条件に直面することができるかどうかはまだ不明である。本稿では,既存の連続制御領域にグラフィカルな多様性を加えることで,エージェントの視覚的一般化を検証できる挑戦的なベンチマークを提案する。実験結果から,現在の手法では様々な視覚変化の一般化が困難であり,これらのタスクを困難にさせる変動の具体的要因について検討した。データ拡張技術は自己教師あり学習手法より優れており、より重要な画像変換によってより優れた視覚的一般化が実現されていることが分かりました。

関連論文リスト

VisualCloze: A Universal Image Generation Framework via Visual In-Context Learning [68.98988753763666]
ユニバーサル画像生成フレームワークであるVisualClozeを提案する。 VisualClozeは、幅広いドメイン内タスク、見えないタスクへの一般化、複数のタスクの見えない統一、リバースジェネレーションをサポートする。グラフ構造化データセットであるGraph200Kを導入し,タスク密度と伝達可能な知識を向上する。
論文参考訳（メタデータ） (2025-04-10T17:59:42Z)
Sliding Puzzles Gym: A Scalable Benchmark for State Representation in Visual Reinforcement Learning [3.8309622155866583]
Sliding Puzzles Gym (SPGym) は、従来の8タイルパズルを任意に大きなデータセットから得られる画像の視覚的観察空間で再現する新しいベンチマークである。 SPGymは、視覚多様性を通じて表現複雑性を正確に制御し、研究者が表現学習課題を体系的にスケールできるようにする。可能な画像のプールを広げることで、視覚的多様性が増すにつれて、テスト対象のアルゴリズムはすべて、大幅な性能劣化を示す。
論文参考訳（メタデータ） (2024-10-17T21:23:03Z)
A Simple Background Augmentation Method for Object Detection with Diffusion Model [53.32935683257045]
コンピュータビジョンでは、データの多様性の欠如がモデル性能を損なうことはよく知られている。本稿では, 生成モデルの進歩を生かして, 単純かつ効果的なデータ拡張手法を提案する。背景強化は、特にモデルの堅牢性と一般化能力を大幅に改善する。
論文参考訳（メタデータ） (2024-08-01T07:40:00Z)
Pre-trained Text-to-Image Diffusion Models Are Versatile Representation Learners for Control [73.6361029556484]
身体的なAIエージェントは、視覚的および言語入力を介して、物理的な世界を詳細に理解する必要がある。テキストプロンプトから画像を生成するために明示的に最適化された事前学習されたテキスト画像拡散モデルについて検討する。安定度制御表現により,OVMM上での最先端性能を示す学習ポリシーが実現可能であることを示す。
論文参考訳（メタデータ） (2024-05-09T15:39:54Z)
Single-temporal Supervised Remote Change Detection for Domain Generalization [42.55492600157288]
変化検出はリモートセンシング画像解析に広く応用されている。既存の方法はデータセットごとに個別にトレーニングモデルを必要とする。本稿では,変化検出領域の一般化のための視覚遅延事前学習に基づくマルチモーダルコントラスト学習(ChangeCLIP)を提案する。
論文参考訳（メタデータ） (2024-04-17T12:38:58Z)
Generalization Gap in Data Augmentation: Insights from Illumination [3.470401787749558]
実世界の照明条件下で訓練されたモデルと、拡張現実で訓練されたモデルとの一般化の相違について検討する。その結果,様々なデータ拡張手法を適用した結果,モデルの性能は大幅に向上した。しかし、様々なデータ拡張手法を利用した後も、顕著な一般化のギャップが残っている。
論文参考訳（メタデータ） (2024-04-11T07:11:43Z)
What Makes Pre-Trained Visual Representations Successful for Robust Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文参考訳（メタデータ） (2023-11-03T18:09:08Z)
Invariance is Key to Generalization: Examining the Role of Representation in Sim-to-Real Transfer for Visual Navigation [35.01394611106655]
一般化の鍵は、すべてのタスク関連情報をキャプチャするのに十分なリッチな表現である。このような視覚ナビゲーションの表現を実験的に研究する。我々の表現は、トレーニングドメインとテストドメイン間のA距離を減少させる。
論文参考訳（メタデータ） (2023-10-23T15:15:19Z)
Towards Generic Image Manipulation Detection with Weakly-Supervised Self-Consistency Learning [49.43362803584032]
本稿では,弱い教師付き画像操作検出を提案する。このような設定は、より多くのトレーニングイメージを活用することができ、新しい操作テクニックに迅速に適応する可能性がある。マルチソース整合性(MSC)とパッチ整合性(IPC)の2つの一貫性特性が学習される。
論文参考訳（メタデータ） (2023-09-03T19:19:56Z)
Free-ATM: Exploring Unsupervised Learning on Diffusion-Generated Images with Free Attention Masks [64.67735676127208]
テキストと画像の拡散モデルは、画像認識の恩恵を受ける大きな可能性を示している。有望ではあるが、拡散生成画像の教師なし学習に特化した調査は不十分である。上記フリーアテンションマスクをフル活用することで、カスタマイズされたソリューションを導入する。
論文参考訳（メタデータ） (2023-08-13T10:07:46Z)
VIBR: Learning View-Invariant Value Functions for Robust Visual Control [3.2307366446033945]
VIBR (View-Invariant Bellman Residuals) は、マルチビュートレーニングと不変予測を組み合わせて、RLベースのビジュモータ制御における分配ギャップを削減する手法である。視覚摂動の高い複雑なビジュオモータ制御環境において,VIBRは既存の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-06-14T14:37:34Z)
Task Formulation Matters When Learning Continually: A Case Study in Visual Question Answering [58.82325933356066]
継続的な学習は、以前の知識を忘れずに、一連のタスクでモデルを漸進的にトレーニングすることを目的としている。本稿では,視覚的質問応答において,異なる設定がパフォーマンスに与える影響について詳細に検討する。
論文参考訳（メタデータ） (2022-09-30T19:12:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。