論文の概要: Task Success is not Enough: Investigating the Use of Video-Language Models as Behavior Critics for Catching Undesirable Agent Behaviors
- arxiv url: http://arxiv.org/abs/2402.04210v2
- Date: Sun, 11 Aug 2024 07:13:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-14 00:07:59.700736
- Title: Task Success is not Enough: Investigating the Use of Video-Language Models as Behavior Critics for Catching Undesirable Agent Behaviors
- Title(参考訳): タスク成功は十分ではない:望ましくないエージェント行動に対処するための行動批判としてのビデオ言語モデルの利用を探る
- Authors: Lin Guan, Yifan Zhou, Denis Liu, Yantian Zha, Heni Ben Amor, Subbarao Kambhampati,
- Abstract要約: 大規模生成モデルは意味のある候補解を抽出するのに有用であるが、それらはしばしばタスク制約やユーザの好みを見落としている。
具体的AIの文脈では、検証は多くの場合、命令で指定された目標条件が満たされたかどうかのみを評価する。
ロボットタスクのスコープを考えると、Goのような明示的な知識タスクに使用されるものに似たスクリプト検証を構築することは不可能である。
大きなビジョンと言語モデル(VLM)は、ビデオの中の望ましくないロボットの振る舞いを捉えるために、スケーラブルな行動批判として、ほぼ全能的なものですか?
- 参考スコア(独自算出の注目度): 22.728139463769896
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale generative models are shown to be useful for sampling meaningful candidate solutions, yet they often overlook task constraints and user preferences. Their full power is better harnessed when the models are coupled with external verifiers and the final solutions are derived iteratively or progressively according to the verification feedback. In the context of embodied AI, verification often solely involves assessing whether goal conditions specified in the instructions have been met. Nonetheless, for these agents to be seamlessly integrated into daily life, it is crucial to account for a broader range of constraints and preferences beyond bare task success (e.g., a robot should grasp bread with care to avoid significant deformations). However, given the unbounded scope of robot tasks, it is infeasible to construct scripted verifiers akin to those used for explicit-knowledge tasks like the game of Go and theorem proving. This begs the question: when no sound verifier is available, can we use large vision and language models (VLMs), which are approximately omniscient, as scalable Behavior Critics to catch undesirable robot behaviors in videos? To answer this, we first construct a benchmark that contains diverse cases of goal-reaching yet undesirable robot policies. Then, we comprehensively evaluate VLM critics to gain a deeper understanding of their strengths and failure modes. Based on the evaluation, we provide guidelines on how to effectively utilize VLM critiques and showcase a practical way to integrate the feedback into an iterative process of policy refinement. The dataset and codebase are released at: https://guansuns.github.io/pages/vlm-critic.
- Abstract(参考訳): 大規模生成モデルは意味のある候補解を抽出するのに有用であるが、それらはしばしばタスク制約やユーザの好みを見落としている。
モデルが外部検証器と結合され、最終的な解が検証フィードバックに従って反復的または漸進的に導出される場合、それらの全パワーはより有効である。
具体的AIの文脈では、検証は多くの場合、命令で指定された目標条件が満たされたかどうかのみを評価する。
しかし,これらのエージェントが日常的にシームレスに統合されるためには,タスクの成功以上の幅広い制約や嗜好を考慮に入れることが不可欠である(例えば,ロボットは大きな変形を避けるために,パンを慎重に把握する必要がある)。
しかしながら、ロボットタスクの非有界なスコープを考えると、Goのゲームや定理証明のような明示的な知識タスクに使用されるものに似たスクリプト検証を構築することは不可能である。
大きな視覚と言語モデル(VLM)は、ビデオの中の望ましくないロボットの振る舞いを捉えるために、スケーラブルな行動批判として、ほぼ完璧に利用できますか?
そこで我々はまず,目標達成型で望ましくないロボットポリシーの多様な事例を含むベンチマークを構築した。
そして,VLM批判を総合的に評価し,その強みや失敗モードをより深く理解する。
評価に基づいて,VLM批判を効果的に活用するためのガイドラインを提供し,フィードバックを政策改善の反復的なプロセスに統合する実践的な方法を示す。
データセットとコードベースは、https://guansuns.github.io/pages/vlm-critic.com/でリリースされている。
関連論文リスト
- Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。
まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。
テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文 参考訳(メタデータ) (2024-11-25T17:11:54Z) - Vision Language Models are In-Context Value Learners [89.29486557646624]
本稿では、視覚言語モデル(VLM)に埋め込まれた世界的知識を活用してタスクの進捗を予測する普遍的価値関数推定器である生成価値学習(GVL)を提案する。
ロボットやタスク固有のトレーニングがなければ、GVLは300以上の異なる現実世界のタスクに対して、ゼロショットと数ショットの効果的な値をインコンテキストで予測することができる。
論文 参考訳(メタデータ) (2024-11-07T09:17:50Z) - A Closer Look at Machine Unlearning for Large Language Models [46.245404272612795]
大型言語モデル(LLM)は機密または著作権のあるコンテンツを記憶し、プライバシーと法的懸念を高める。
LLMの機械学習におけるいくつかの問題について議論し、可能なアプローチについての洞察を提供する。
論文 参考訳(メタデータ) (2024-10-10T16:56:05Z) - No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery [53.08822154199948]
非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。
本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。
本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
論文 参考訳(メタデータ) (2024-08-27T14:31:54Z) - Robotic Control via Embodied Chain-of-Thought Reasoning [86.6680905262442]
学習したロボット制御ポリシーの鍵となる制限は、トレーニングデータの外部で一般化できないことである。
視覚言語行動モデル(VLA)に関する最近の研究は、大規模なインターネット事前学習型視覚言語モデルを使用することで、その堅牢性と一般化能力を大幅に向上させることができることを示した。
ロボットの動作を予測する前に、VLAに対して、計画、サブタスク、動作、視覚的接地機能について複数の推論を行うために、VLAに対してEmbodied Chain-of-Thought Reasoning (ECoT)を導入する。
論文 参考訳(メタデータ) (2024-07-11T17:31:01Z) - Explore until Confident: Efficient Exploration for Embodied Question Answering [32.27111287314288]
我々は、大きな視覚言語モデルの強力な意味推論機能を活用して、質問を効率的に探索し、答える。
深度情報とVLMの視覚的プロンプトに基づいて,まずシーンのセマンティックマップを構築する手法を提案する。
次に、コンフォメーション予測を用いて、自信に答えるVLMの質問を校正し、いつ探索を中止するかをロボットが知ることができるようにする。
論文 参考訳(メタデータ) (2024-03-23T22:04:03Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Robust Tests in Online Decision-Making [3.867363075280544]
バンドアルゴリズムは累積報酬を最大化するために逐次決定問題に広く用いられている。
モバイルヘルスにおける目標は、ウェアラブルデバイスを介して取得したユーザ固有の情報に基づいて、個人化された介入を通じてユーザの健康を促進することである。
本稿では,アクターパラメータに対する新しいテスト手順を導出し,不特定性を批判しやすいアクター批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-08-21T06:50:45Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。