論文の概要: Vision-Language Models as Success Detectors
- arxiv url: http://arxiv.org/abs/2303.07280v1
- Date: Mon, 13 Mar 2023 16:54:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-14 13:45:26.213000
- Title: Vision-Language Models as Success Detectors
- Title(参考訳): 成功検知器としての視覚言語モデル
- Authors: Yuqing Du, Ksenia Konyushkova, Misha Denil, Akhil Raju, Jessica
Landon, Felix Hill, Nando de Freitas, Serkan Cabi
- Abstract要約: シミュレーションされた家庭における対話型言語調和エージェント(i)実世界ロボット操作(ii)、そして(iii)「夢中」人間中心のビデオの3つの領域にわたる成功検出について検討した。
フラミンゴをベースとした成功度検出モデルの一般化特性と,最初の2つの領域における視覚的変化について検討し,いずれの変分においても,提案手法がベスパイク報酬モデルより優れていることを示した。
In-the-wild」人間のビデオの最後の領域では、目に見えない実ビデオで成功を検知することは、さらに難しい一般化タスクの保証を示す。
- 参考スコア(独自算出の注目度): 22.04312297048653
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting successful behaviour is crucial for training intelligent agents. As
such, generalisable reward models are a prerequisite for agents that can learn
to generalise their behaviour. In this work we focus on developing robust
success detectors that leverage large, pretrained vision-language models
(Flamingo, Alayrac et al. (2022)) and human reward annotations. Concretely, we
treat success detection as a visual question answering (VQA) problem, denoted
SuccessVQA. We study success detection across three vastly different domains:
(i) interactive language-conditioned agents in a simulated household, (ii) real
world robotic manipulation, and (iii) "in-the-wild" human egocentric videos. We
investigate the generalisation properties of a Flamingo-based success detection
model across unseen language and visual changes in the first two domains, and
find that the proposed method is able to outperform bespoke reward models in
out-of-distribution test scenarios with either variation. In the last domain of
"in-the-wild" human videos, we show that success detection on unseen real
videos presents an even more challenging generalisation task warranting future
work. We hope our initial results encourage further work in real world success
detection and reward modelling.
- Abstract(参考訳): 知的エージェントのトレーニングには、行動の成功を検出することが重要です。
このように、一般化可能な報酬モデルは、行動の一般化を学ぶことができるエージェントの前提条件である。
本研究では,大規模な視覚言語モデル(Flamingo, Alayrac et al. (2022))と人間の報酬アノテーションを活用する,堅牢な成功検出装置の開発に注力する。
具体的には,成功検出を視覚的質問応答(VQA)問題として扱う。
3つの異なる領域にわたる成功検出について研究する。
(i)シミュレート家庭における対話型言語条件エージェント
(ii)実世界のロボット操作、及び
(iii)人間エゴセントリックビデオ「in-the-wild」
フラミンゴをベースとした成功度検出モデルの一般化特性と,最初の2つの領域における視覚的変化について検討し,いずれの変分も伴わない分布外テストシナリオにおいて,提案手法がベスパイク報酬モデルより優れていることを示した。
実写ビデオの最後の領域では,実写ビデオにおける成功検出が,今後の作業に合致するさらに困難な一般化課題であることを示す。
最初の成果が,現実世界の成功検出と報酬モデリングのさらなる作業を促進することを願っています。
関連論文リスト
- ReVLA: Reverting Visual Domain Limitation of Robotic Foundation Models [55.07988373824348]
既存の3つのロボット基礎モデルの視覚的一般化能力について検討する。
本研究は,既存のモデルがドメイン外シナリオに対する堅牢性を示していないことを示す。
モデルマージに基づく段階的なバックボーンリバーサルアプローチを提案する。
論文 参考訳(メタデータ) (2024-09-23T17:47:59Z) - Ag2Manip: Learning Novel Manipulation Skills with Agent-Agnostic Visual and Action Representations [77.31328397965653]
Ag2Manip(Agent-Agnostic representations for Manipulation)は,2つの重要なイノベーションを通じて課題を克服するフレームワークである。
人間の操作ビデオから派生した新しいエージェント非依存の視覚表現であり、その具体的特徴は一般化性を高めるために隠蔽された。
ロボットのキネマティクスを普遍的なエージェントプロキシに抽象化し、エンドエフェクタとオブジェクト間の重要な相互作用を強調するエージェント非依存のアクション表現。
論文 参考訳(メタデータ) (2024-04-26T16:40:17Z) - RL-VLM-F: Reinforcement Learning from Vision Language Foundation Model Feedback [24.759613248409167]
リワードエンジニアリングは、強化学習研究における長年の課題である。
エージェントが新しいタスクを学習するための報酬関数を自動生成するRL-VLM-Fを提案する。
我々は、RL-VLM-Fが、様々な領域にまたがる効果的な報酬とポリシーを効果的に生成できることを実証した。
論文 参考訳(メタデータ) (2024-02-06T04:06:06Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - A Two-stage Fine-tuning Strategy for Generalizable Manipulation Skill of
Embodied AI [15.480968464853769]
そこで我々は,Maniskill2ベンチマークに基づく2段階ファインチューニング手法を提案する。
本研究は,Embodied AIモデルの一般化能力を向上し,現実のシナリオにおける実践的応用の道を開く手法の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2023-07-21T04:15:36Z) - Human-Timescale Adaptation in an Open-Ended Task Space [56.55530165036327]
大規模にRLエージェントを訓練することで、オープンエンドの新規な3D問題に人間と同じくらい早く適応できる一般的なコンテキスト内学習アルゴリズムが実現可能であることを示す。
我々の研究は、より大規模で適応的なRLエージェントの基礎を築いた。
論文 参考訳(メタデータ) (2023-01-18T15:39:21Z) - H-SAUR: Hypothesize, Simulate, Act, Update, and Repeat for Understanding
Object Articulations from Interactions [62.510951695174604]
The Hypothesize, Simulate, Act, Update, and Repeat (H-SAUR) is a probabilistic generative framework that generated hypotheses about objects articulate given input observed。
提案手法は,現在最先端のオブジェクト操作フレームワークよりも優れていることを示す。
我々は、学習に基づく視覚モデルから学習前の学習を統合することにより、H-SAURのテスト時間効率をさらに向上する。
論文 参考訳(メタデータ) (2022-10-22T18:39:33Z) - SSMTL++: Revisiting Self-Supervised Multi-Task Learning for Video
Anomaly Detection [108.57862846523858]
自己教師型マルチタスク学習フレームワークを再考し、元の手法にいくつかのアップデートを提案する。
マルチヘッド・セルフアテンション・モジュールを導入することで3次元畳み込みバックボーンを近代化する。
モデルをさらに改良するために,セグメントマップの予測などの自己指導型学習タスクについて検討した。
論文 参考訳(メタデータ) (2022-07-16T19:25:41Z) - Win-Fail Action Recognition [4.56877715768796]
さまざまな活動で成功と失敗の試みを区別するウィンフェイルアクション認識タスクを紹介します。
既存のアクション認識データセットとは異なり、クラス内の変動はタスクを難しくするが実行可能である。
先駆的行動認識ネットワークを用いたwin-failタスク/データセットの特徴と新しい映像検索タスクを体系的に解析する。
論文 参考訳(メタデータ) (2021-02-15T06:03:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。