論文の概要: Vision Language Models Cannot Reason About Physical Transformation
- arxiv url: http://arxiv.org/abs/2603.07109v1
- Date: Sat, 07 Mar 2026 08:40:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:13.882979
- Title: Vision Language Models Cannot Reason About Physical Transformation
- Title(参考訳): 物理変換に関する視覚言語モデルには意味がない
- Authors: Dezhi Luo, Yijiang Li, Maijunxian Wang, Tianwei Zhao, Bingyang Wang, Siheng Wang, Pinyuan Feng, Pooyan Rahmanzadehgervi, Ziqiao Ma, Hokin Deng,
- Abstract要約: 私たちは112の視覚言語モデル(VLM)で23,040の質問を生成する。
パフォーマンスは、コントロールのドロップに伴う保存タスクの改善とともに、ほぼ確実に維持されます。
これらの結果から,現在のVLMは動的シーンにまたがる物理特性の変換不変表現を維持できないことが明らかとなった。
- 参考スコア(独自算出の注目度): 8.590503881181133
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding physical transformations is fundamental for reasoning in dynamic environments. While Vision Language Models (VLMs) show promise in embodied applications, whether they genuinely understand physical transformations remains unclear. We introduce ConservationBench evaluating conservation -- whether physical quantities remain invariant under transformations. Spanning four properties with paired conserving/non-conserving scenarios, we generate 23,040 questions across 112 VLMs. Results reveal systematic failure: performance remains near chance with improvements on conservation tasks accompanied by drops on controls. Control experiments show strong textual priors favoring invariance, yet models perform worse with visual content. Neither temporal resolution, prompting, nor curated sampling helps. These findings show that current VLMs fail to maintain transformation-invariant representations of physical properties across dynamic scenes.
- Abstract(参考訳): 物理変換を理解することは、動的環境における推論の基本である。
視覚言語モデル(VLM)は具体的応用において有望であるが、物理的な変換を真に理解しているかどうかはまだ不明である。
物理量が変換の下で不変であるかどうかを, 保存性を評価する。
ペア保存/非保存シナリオで4つのプロパティをスパンニングすると、112のVLMに対して23,040の質問が生成される。
パフォーマンスは、コントロールのドロップに伴う保存タスクの改善とともに、ほぼ確実に維持されます。
制御実験は、不変性を支持する強いテキスト先行性を示すが、モデルは視覚的内容でより悪いパフォーマンスを示す。
時間分解能、プロンプト、キュレートされたサンプリングは役に立たない。
これらの結果から,現在のVLMは動的シーンにまたがる物理特性の変換不変表現を維持できないことが明らかとなった。
関連論文リスト
- Same Answer, Different Representations: Hidden instability in VLMs [65.36933543377346]
本稿では,内部埋め込みドリフト,スペクトル感度,構造的滑らかさを計測する表現認識・周波数認識評価フレームワークを提案する。
このフレームワークを,SEEDBench,MMMU,POPEデータセットを対象とする最新のビジョン言語モデル(VLM)に適用する。
論文 参考訳(メタデータ) (2026-02-06T12:24:26Z) - ReViP: Reducing False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance [50.05984919728878]
本稿では、視覚的接地と摂動下での堅牢性を高めるために、視覚-受容器リバランスを備えた新しいVLAフレームワークReViPを提案する。
具体的には、タスクステージオブザーバとして外部VLMを使用して、視覚的な観察からリアルタイムなタスク中心の視覚的手がかりを抽出する。
本稿では,オブジェクトドロップのような制御された設定を持つLIBERO上に構築された最初のFalse-Completion Benchmark Suiteを提案する。
論文 参考訳(メタデータ) (2026-01-23T11:31:07Z) - Learning to Act Robustly with View-Invariant Latent Actions [8.446887947386559]
視覚に基づくロボットポリシーは、視界不変の視覚表現の必要性を強調し、小さな視点の変化に苦しむことが多い。
本研究では,ビュー不変遅延行動 (VILA) を提案する。これは,物理力学に基づくビュー不変表現を学習するために,トラジェクトリ間で遷移パターンをキャプチャする潜在動作をモデル化する。
シミュレーションと実世界の双方の実験から、VILAベースのポリシーは見当たらない視点に効果的に一般化し、新しいタスクにうまく移行することが示された。
論文 参考訳(メタデータ) (2026-01-06T13:14:01Z) - TRAVL: A Recipe for Making Video-Language Models Better Judges of Physics Implausibility [70.24211591214528]
ビデオ生成モデルは、浮動、テレポート、モーフィングのような直感的な物理法則に違反したシーケンスを生成する。
既存のビデオランゲージモデル(VLM)は、物理違反の特定に苦慮し、時間的および因果的推論における根本的な制限を明らかにしている。
我々は、バランスの取れたトレーニングデータセットと軌道認識型アテンションモジュールを組み合わせた微調整レシピTRAVLを導入し、モーションエンコーディングを改善する。
言語バイアスを除去し,視覚的時間的理解を分離する300本のビデオ(150本実写150本)のベンチマークであるImplausiBenchを提案する。
論文 参考訳(メタデータ) (2025-10-08T21:03:46Z) - Reasoning Physical Video Generation with Diffusion Timestep Tokens via Reinforcement Learning [53.33388279933842]
本稿では,映像生成における物理的一貫性を実現するために,記号的推論と強化学習を統合することを提案する。
そこで我々は,Phys-ARフレームワークを提案する。第1段階は教師付き微調整を用いて記号的知識を伝達し,第2段階はモデルの推論能力の最適化に強化学習を適用する。
提案手法により,生成したビデオの物理的特性を動的に調整し,改善し,物理法則の遵守を確保することができる。
論文 参考訳(メタデータ) (2025-04-22T14:20:59Z) - Probing Perceptual Constancy in Large Vision-Language Models [19.0779064285086]
155個の視覚言語モデル(VLM)を,色,大きさ,形状の3領域にわたる236個の実験を用いて評価した。
これらの領域間でのVLM性能の有意な変動がみられた。
論文 参考訳(メタデータ) (2025-02-14T16:31:43Z) - Object-Centric Temporal Consistency via Conditional Autoregressive Inductive Biases [69.46487306858789]
Conditional Autoregressive Slot Attention (CA-SA) は、ビデオ中心の視覚タスクにおいて抽出されたオブジェクト中心の表現の時間的一貫性を高めるフレームワークである。
本稿では,提案手法が下流タスクのベースラインよりも優れていることを示す定性的,定量的な結果を示す。
論文 参考訳(メタデータ) (2024-10-21T07:44:44Z) - ACID: Action-Conditional Implicit Visual Dynamics for Deformable Object
Manipulation [135.10594078615952]
本稿では,体積変形可能なオブジェクトに対する動作条件の視覚力学モデルであるACIDを紹介する。
ベンチマークには17,000以上のアクション・トラジェクトリー、6種類のぬいぐるみと78種類の変種が含まれている。
我々のモデルは、幾何学、対応、力学の予測において最高の性能を達成する。
論文 参考訳(メタデータ) (2022-03-14T04:56:55Z) - Unsupervised Feature Learning for Manipulation with Contrastive Domain
Randomization [19.474628552656764]
教師なし学習に対するドメインランダム化のナイーブな応用は不変性を促進しないことを示す。
本研究では,視覚特性のシミュレーションによるランダム化を制御できることを生かして,コントラスト損失の簡単な修正を提案する。
論文 参考訳(メタデータ) (2021-03-20T09:54:45Z) - Robustness to Transformations Across Categories: Is Robustness To
Transformations Driven by Invariant Neural Representations? [1.7251667223970861]
ディープ畳み込みニューラルネットワーク(DCNN)は、変換中のオブジェクトを認識するという、印象的な堅牢性を示している。
そのような堅牢性を説明する仮説は、DCNNが画像が変換されたときに変化しない不変な神経表現を発達させるというものである。
本稿では, 変形に対する堅牢性を高めることを利用して, 不変なニューラル表現が出現する条件について検討する。
論文 参考訳(メタデータ) (2020-06-30T21:18:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。