論文の概要: PhyCritic: Multimodal Critic Models for Physical AI
- arxiv url: http://arxiv.org/abs/2602.11124v1
- Date: Wed, 11 Feb 2026 18:35:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:02.321054
- Title: PhyCritic: Multimodal Critic Models for Physical AI
- Title(参考訳): PhyCritic: 物理AIのためのマルチモーダル批判モデル
- Authors: Tianyi Xiong, Shihao Wang, Guilin Liu, Yi Dong, Ming Li, Heng Huang, Jan Kautz, Zhiding Yu,
- Abstract要約: 我々は、2段階のRLVRパイプラインを通して物理AIに最適化されたマルチモーダル批評家モデルであるPhyCriticを紹介する。
我々はPhyCriticがオープンソースベースラインよりも高いパフォーマンス向上を実現し、ポリシーモデルとして適用すれば、物理的に基礎付けられたタスクにおける知覚と推論をさらに改善できることを示す。
- 参考スコア(独自算出の注目度): 101.37916322714041
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid development of large multimodal models, reliable judge and critic models have become essential for open-ended evaluation and preference alignment, providing pairwise preferences, numerical scores, and explanatory justifications for assessing model-generated responses. However, existing critics are primarily trained in general visual domains such as captioning or image question answering, leaving physical AI tasks involving perception, causal reasoning, and planning largely underexplored. We introduce PhyCritic, a multimodal critic model optimized for physical AI through a two-stage RLVR pipeline: a physical skill warmup stage that enhances physically oriented perception and reasoning, followed by self-referential critic finetuning, where the critic generates its own prediction as an internal reference before judging candidate responses, improving judgment stability and physical correctness. Across both physical and general-purpose multimodal judge benchmarks, PhyCritic achieves strong performance gains over open-source baselines and, when applied as a policy model, further improves perception and reasoning in physically grounded tasks.
- Abstract(参考訳): 大規模マルチモーダルモデルの急速な発展に伴い、信頼性のある判断モデルと批判モデルがオープンな評価と選好アライメントに欠かせないものとなり、ペアの選好、数値スコア、モデル生成応答の評価のための説明的正当性を提供するようになった。
しかし、既存の批評家は、キャプションやイメージ質問応答、知覚、因果推論、ほとんど探索されていない計画を含む物理的なAIタスクなどの一般的な視覚領域で主に訓練されている。
2段階のRLVRパイプラインを通じて、物理AIに最適化されたマルチモーダル批評家モデルであるPhyCriticを紹介し、物理的に指向する知覚と推論を高める物理的なスキルウォームアップステージと、自己参照的批評家の微調整を紹介した。
PhyCriticは、物理および汎用のマルチモーダル判定ベンチマークの両方で、オープンソースベースラインよりも強力なパフォーマンス向上を実現し、ポリシーモデルとして適用すると、物理的に基礎付けられたタスクにおける知覚と推論をさらに改善する。
関連論文リスト
- Counterfactual Self-Questioning for Stable Policy Optimization in Language Models [0.0]
本稿では,一つの言語モデルが自己推論の反現実的批判を生成・評価するフレームワークである反現実的自問法を提案する。
複数の数学的推論ベンチマークの実験は、特により小さなモデルにおいて、反実的な自己探究によって精度と訓練安定性が向上することを示している。
論文 参考訳(メタデータ) (2025-12-31T09:10:37Z) - LLaVA-Critic-R1: Your Critic Model is Secretly a Strong Policy Model [99.71684530652942]
LLaVA-Critic-R1は高い評価を受けた批評家としてだけでなく、競争政策モデルとしても現れることを示す。
テスト時に自己批判を適用すると、5つの代表的な推論タスクに対して平均+13.8%の改善が得られる。
その結果,評価と生成の両面において優れた統一モデルが得られることがわかった。
論文 参考訳(メタデータ) (2025-08-31T03:08:02Z) - RefCritic: Training Long Chain-of-Thought Critic Models with Refinement Feedback [57.967762383794806]
RefCriticは、二重ルールベースの報酬による強化学習に基づく、長鎖の批判モジュールである。
我々は5つのベンチマークでQwen2.5-14BとDeepSeek-R1-Distill-Qwen-14BのRefCriticを評価した。
論文 参考訳(メタデータ) (2025-07-20T16:19:51Z) - Training Language Model to Critique for Better Refinement [58.73039433159486]
textbfRefinement-oriented textbfCritique textbfOptimization (RCO)を導入する。
RCOは、批評家モデルによって生成された批評がアクターモデルに応答を洗練させるためのフィードバックループを使用する。
より良い改善につながる批判に焦点を当てることで、RCOは直接的な批判的嗜好評価の必要性を排除している。
論文 参考訳(メタデータ) (2025-06-27T12:10:57Z) - RealCritic: Towards Effectiveness-Driven Evaluation of Language Model Critiques [59.861013614500024]
我々は,Large Language Models (LLMs) の批判能力を評価するために設計された新しいベンチマークを導入する。
通常、オープンループ方式で機能する既存のベンチマークとは異なり、我々のアプローチでは、批判から生成された修正の質を評価するクローズドループ手法を採用している。
論文 参考訳(メタデータ) (2025-01-24T13:48:10Z) - Critic-V: VLM Critics Help Catch VLM Errors in Multimodal Reasoning [46.411313304605564]
Critic-Vは、視覚言語モデル(VLM)の推論能力を高めるためにアクター・クライブパラダイムにインスパイアされたフレームワークである。
リアソナーは視覚的およびテキスト的入力に基づいて推論パスを生成し、批判はこれらのパスを洗練するための建設的批評を提供する。
評価の結果,Critic-V フレームワークは GPT-4V を含む既存手法を8つのベンチマークのうち5つで大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-27T10:28:57Z) - Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。
まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。
テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文 参考訳(メタデータ) (2024-11-25T17:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。