論文の概要: Can vision language models learn intuitive physics from interaction?
- arxiv url: http://arxiv.org/abs/2602.06033v1
- Date: Thu, 05 Feb 2026 18:59:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:09.151962
- Title: Can vision language models learn intuitive physics from interaction?
- Title(参考訳): 視覚言語モデルは相互作用から直感的な物理学を学ぶことができるか?
- Authors: Luca M. Schulze Buschoff, Konstantinos Voudouris, Can Demircan, Eric Schulz,
- Abstract要約: 事前学習された視覚言語モデルは、物理世界に関する良い直観を持っていない。
近年の研究では、教師付き微調整により、単純な物理タスクにおけるモデル性能が向上することが示されている。
我々は、強化学習を用いて環境との相互作用を通じて学習するモデルを訓練する。
- 参考スコア(独自算出の注目度): 17.378523108395083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained vision language models do not have good intuitions about the physical world. Recent work has shown that supervised fine-tuning can improve model performance on simple physical tasks. However, fine-tuned models do not appear to learn robust physical rules that can generalize to new contexts. Based on research in cognitive science, we hypothesize that models need to interact with an environment to properly learn its physical dynamics. We train models that learn through interaction with the environment using reinforcement learning. While learning from interaction allows models to improve their within-task performance, it fails to produce models with generalizable physical intuitions. We find that models trained on one task do not reliably generalize to related tasks, even if the tasks share visual statistics and physical principles, and regardless of whether the models are trained through interaction.
- Abstract(参考訳): 事前学習された視覚言語モデルは、物理世界に関する良い直観を持っていない。
近年の研究では、教師付き微調整により、単純な物理タスクにおけるモデル性能が向上することが示されている。
しかし、微調整されたモデルは、新しい文脈に一般化できる堅牢な物理規則を学習していないように見える。
認知科学の研究に基づいて、モデルが物理的ダイナミクスを適切に学習するために環境と相互作用する必要があるという仮説を立てる。
我々は、強化学習を用いて環境との相互作用を通して学習するモデルを訓練する。
インタラクションから学習することで、モデルがタスク内パフォーマンスを改善することができる一方で、一般化可能な物理的直観を持つモデルを生成することに失敗する。
1つのタスクでトレーニングされたモデルは、たとえタスクが視覚的統計と物理原則を共有していても、相互作用によってトレーニングされているかどうかに関わらず、関連するタスクに対して確実に一般化されない。
関連論文リスト
- Do-Undo: Generating and Reversing Physical Actions in Vision-Language Models [57.71440995598757]
我々は,視覚言語モデルにおける重要なギャップに対処するために,Do-Undoタスクとベンチマークを導入する。
Do-Undoは、物理的な行動の結果をシミュレートし、それを正確に反転させるモデルを必要とし、視覚の世界における真の原因と効果を反映している。
論文 参考訳(メタデータ) (2025-12-15T18:03:42Z) - Testing the Limits of Fine-Tuning for Improving Visual Cognition in Vision Language Models [51.58859621164201]
視覚認知タスクにおける視覚刺激と人間の判断を導入し,認知領域間でのパフォーマンスを評価する。
我々は、直感的な物理と因果推論のために、地上の真理データに基づいてモデルを微調整する。
タスク固有の微調整は、他の視覚的特徴を持つデータに対する堅牢な人間ライクな一般化に寄与しない。
論文 参考訳(メタデータ) (2025-02-21T18:58:30Z) - Sparse Autoencoders for Scientifically Rigorous Interpretation of Vision Models [27.806966289284528]
本稿では、スパースオートエンコーダ(SAE)を用いて、人間の解釈可能な視覚的特徴を発見する統一的なフレームワークを提案する。
そこで本研究では,SAEがモデル再学習を行なわずに,解釈可能な視覚特徴を確実に識別・操作できることを示す。
論文 参考訳(メタデータ) (2025-02-10T18:32:41Z) - Longer Fixations, More Computation: Gaze-Guided Recurrent Neural
Networks [12.57650361978445]
人間はさまざまなペースでテキストを読み、機械学習モデルはそれぞれのトークンを同じように扱う。
本稿では,この直感を固定誘導並列RNNやレイヤを用いた新しいモデルに変換する。
興味深いことに、ニューラルネットワークによって予測される固定期間は、人間の固定と多少似ている。
論文 参考訳(メタデータ) (2023-10-31T21:32:11Z) - Turning large language models into cognitive models [0.0]
大規模言語モデルが認知モデルに変換可能であることを示す。
これらのモデルは人間の行動の正確な表現を提供し、2つの意思決定領域において従来の認知モデルよりも優れている。
これらの結果は、大規模で事前学習されたモデルが一般的な認知モデルに適応できることを示唆している。
論文 参考訳(メタデータ) (2023-06-06T18:00:01Z) - Contrastive Alignment of Vision to Language Through Parameter-Efficient
Transfer Learning [60.26952378997713]
コントラスト的視覚言語モデル(例えばCLIP)は、コントラスト的トレーニングを通じて視覚モデルと言語モデルの全てのパラメータを更新することによって作成される。
パラメータ更新の最小セット($7%)が、フルモデルトレーニングと同じパフォーマンスを実現可能であることを示す。
既存の知識がパラメータ効率のトレーニングにおいてより強く保存されていることを示す。
論文 参考訳(メタデータ) (2023-03-21T14:12:08Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - What Language Model Architecture and Pretraining Objective Work Best for
Zero-Shot Generalization? [50.84738303888189]
本稿では,モデル選択の大規模評価とそのゼロショット一般化への影響について述べる。
私たちは、70億以上のトークンに対して、50億以上のパラメータを持つモデルをトレーニングします。
事前学習した因果デコーダモデルを非因果デコーダモデルに効率的に適用できることが判明した。
論文 参考訳(メタデータ) (2022-04-12T14:19:49Z) - Model-Based Visual Planning with Self-Supervised Functional Distances [104.83979811803466]
モデルに基づく視覚的目標達成のための自己監視手法を提案する。
私たちのアプローチは、オフラインでラベルなしのデータを使って完全に学習します。
このアプローチは,モデルフリーとモデルベース先行手法の両方で大幅に性能が向上することがわかった。
論文 参考訳(メタデータ) (2020-12-30T23:59:09Z) - Model-Based Inverse Reinforcement Learning from Visual Demonstrations [20.23223474119314]
本稿では,視覚的人間の実演のみを与えられた場合のコスト関数を学習する,勾配に基づく逆強化学習フレームワークを提案する。
学習したコスト関数は、視覚モデル予測制御によって実証された振る舞いを再現するために使用される。
2つの基本的なオブジェクト操作タスクでハードウェアのフレームワークを評価する。
論文 参考訳(メタデータ) (2020-10-18T17:07:53Z) - CAZSL: Zero-Shot Regression for Pushing Models by Generalizing Through
Context [13.217582954907234]
本研究では、文脈認識モデルを構築することにより、物理世界のモデルを一般化できるディープラーニングエージェントを設計する問題について検討する。
本稿では、文脈対応ゼロショット学習(CAZSL)モデル、シームズネットワークを利用したアプローチ、埋め込み空間、文脈変数に基づく正規化を提案する。
提案した学習アルゴリズムを最近リリースされたOmnipushデータセット上でテストし、メタ学習機能のテストを可能にした。
論文 参考訳(メタデータ) (2020-03-26T01:21:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。