論文の概要: Adapting Vision-Language Models for Evaluating World Models
- arxiv url: http://arxiv.org/abs/2506.17967v1
- Date: Sun, 22 Jun 2025 09:53:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.675665
- Title: Adapting Vision-Language Models for Evaluating World Models
- Title(参考訳): 世界モデル評価のための視覚言語モデルの適用
- Authors: Mariya Hendriksen, Tabish Rashid, David Bignell, Raluca Georgescu, Abdelhak Lemkhenter, Katja Hofmann, Sam Devlin, Sarah Parisot,
- Abstract要約: データおよび計算制約下でのシミュレーション環境におけるロールアウトに対する視覚言語評価手法であるUNIVERSEを提案する。
本研究では,タスク形式,コンテキスト長,サンプリング戦略,データ構成を網羅した,完全,部分的,パラメータ効率の微調整を大規模に検討する。
その結果得られた統合評価器は、単一のチェックポイントを使用してタスク固有のベースラインのパフォーマンスにマッチする。
- 参考スコア(独自算出の注目度): 24.813041196394582
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: World models -- generative models that simulate environment dynamics conditioned on past observations and actions -- are gaining prominence in planning, simulation, and embodied AI. However, evaluating their rollouts remains a fundamental challenge, requiring fine-grained, temporally grounded assessment of action alignment and semantic consistency -- capabilities not captured by existing metrics. Vision-Language Models (VLMs) have shown promise as automatic evaluators of generative content due to their strong multimodal reasoning abilities. Yet, their use in fine-grained, temporally sensitive evaluation tasks remains limited and requires targeted adaptation. We introduce a evaluation protocol targeting two recognition tasks -- action recognition and character recognition -- each assessed across binary, multiple-choice, and open-ended formats. To support this, we present UNIVERSE (UNIfied Vision-language Evaluator for Rollouts in Simulated Environments), a method for adapting VLMs to rollout evaluation under data and compute constraints. We conduct a large-scale study comparing full, partial, and parameter-efficient finetuning across task formats, context lengths, sampling strategies, and data compositions. The resulting unified evaluator matches the performance of task-specific baselines using a single checkpoint. Human studies confirm strong alignment with human judgments, establishing UNIVERSE as a scalable, semantics-aware evaluator for world models.
- Abstract(参考訳): 過去の観測と行動で条件付けられた環境ダイナミクスをシミュレートする生成モデルである世界モデルは、計画、シミュレーション、そして具体化されたAIにおいて優位に立っている。
しかし、それらのロールアウトを評価することは依然として根本的な課題であり、アクションアライメントとセマンティック一貫性の微粒で時間的に根ざした評価が必要です。
Vision-Language Models (VLMs) は、その強力なマルチモーダル推論能力により、生成コンテンツの自動評価として期待されている。
しかし、細粒度で時間に敏感な評価タスクでの使用には制限があり、ターゲット適応が必要である。
本稿では,動作認識と文字認識という2つのタスクを対象とする評価プロトコルを提案する。
シミュレーション環境におけるロールアウトのためのUnIfied Vision-Language Evaluator for Rollouts for Simulated Environmentsは,データおよび計算制約下でのロールアウト評価にVLMを適用する手法である。
本研究では,タスク形式,コンテキスト長,サンプリング戦略,データ構成を網羅した,完全,部分的,パラメータ効率の微調整を大規模に検討する。
その結果得られた統合評価器は、単一のチェックポイントを使用してタスク固有のベースラインのパフォーマンスにマッチする。
人間による研究は、人間の判断と強く一致していることを確認し、世界モデルのスケーラブルでセマンティクスを意識した評価ツールとしてUNIVERSEを確立した。
関連論文リスト
- PALATE: Peculiar Application of the Law of Total Expectation to Enhance the Evaluation of Deep Generative Models [0.5499796332553708]
深層生成モデル(DGM)は機械学習の分野でパラダイムシフトを引き起こしている。
これらのモデルに対する包括的評価は、生成したサンプルの忠実さ、多様性、新規性の間の三分法を考慮に入れている。
本稿では,既存の指標の限界に対処するDGMの評価を新たに強化したPALATEを提案する。
論文 参考訳(メタデータ) (2025-03-24T09:06:45Z) - Adaptively profiling models with task elicitation [29.704450391533864]
Task Elicitationは、フロンティアモデルが体系的な失敗を示す数百の自然言語タスクを見つける。
我々は、Sonnet 3.5が量子コンピューティングとAGIを過度に関連付けており、o3-miniは、製造がコンテキスト内で繰り返されるときに幻覚を起こす傾向があることを発見した。
論文 参考訳(メタデータ) (2025-03-03T19:04:10Z) - WorldSimBench: Towards Video Generation Models as World Simulators [79.69709361730865]
我々は、予測モデルの機能を階層に分類し、WorldSimBenchと呼ばれる2つの評価フレームワークを提案することにより、World Simulatorの評価の第一歩を踏み出す。
WorldSimBenchにはExplicit Perceptual EvaluationとImplicit Manipulative Evaluationが含まれている。
我々の総合的な評価は、ビデオ生成モデルのさらなる革新を促進する重要な洞察を与え、World Simulatorsをエンボディされた人工知能への重要な進歩と位置づけている。
論文 参考訳(メタデータ) (2024-10-23T17:56:11Z) - Investigating a Benchmark for Training-set free Evaluation of Linguistic Capabilities in Machine Reading Comprehension [12.09297288867446]
合成課題集合上でのトレーニングセット自由設定において最適化モデルを評価するためのフレームワークについて検討する。
生成手法の単純さにもかかわらず、データは自然性や語彙の多様性に関してクラウドソースのデータセットと競合する。
我々は、さらに実験を行い、最先端の言語モデルに基づくMRCシステムが、挑戦セットを正しく成功させるために学習できることを示します。
論文 参考訳(メタデータ) (2024-08-09T12:23:36Z) - Open-ended VQA benchmarking of Vision-Language models by exploiting Classification datasets and their semantic hierarchy [27.454549324141087]
本稿では、よく知られた視覚分類データセットに基づく新しいVQAベンチマークを提案する。
また,ラベル空間のセマンティックな階層構造を用いて,基底構造カテゴリに関するフォローアップ質問を自動的に生成することを提案する。
私たちの貢献は、より正確で有意義な評価の基礎を築くことを目的としています。
論文 参考訳(メタデータ) (2024-02-11T18:26:18Z) - Learning Evaluation Models from Large Language Models for Sequence Generation [61.8421748792555]
本稿では,大規模言語モデルを用いた3段階評価モデルトレーニング手法を提案する。
SummEval ベンチマークによる実験結果から,CSEM は人間ラベルデータなしで評価モデルを効果的に訓練できることが示された。
論文 参考訳(メタデータ) (2023-08-08T16:41:16Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - A Revised Generative Evaluation of Visual Dialogue [80.17353102854405]
本稿では,VisDialデータセットの改訂評価手法を提案する。
モデルが生成した回答と関連する回答の集合のコンセンサスを測定する。
DenseVisDialとして改訂された評価スキームのこれらのセットとコードをリリースする。
論文 参考訳(メタデータ) (2020-04-20T13:26:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。