論文の概要: Probing Mechanical Reasoning in Large Vision Language Models
- arxiv url: http://arxiv.org/abs/2410.00318v2
- Date: Thu, 13 Feb 2025 05:47:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 13:45:06.078532
- Title: Probing Mechanical Reasoning in Large Vision Language Models
- Title(参考訳): 大規模視覚言語モデルにおける機械的推論の提案
- Authors: Haoran Sun, Qingying Gao, Haiyun Lyu, Dezhi Luo, Yijiang Li, Hokin Deng,
- Abstract要約: 我々は,26ビジョン言語モデル(VLM)におけるシステム安定性,ギア,プーリーシステムの理解,原理,慣性,運動,流体力学の検証を行った。
以上の結果から,VLMはすべての領域において人間よりも常に悪い性能を示す一方で,歯車システムや流体力学の推論が困難であることが示唆された。
- 参考スコア(独自算出の注目度): 9.268588981925234
- License:
- Abstract: Mechanical reasoning is a hallmark of human intelligence, defined by its ubiquitous yet irreplaceable role in human activities ranging from routine tasks to civil engineering. Embedding machines with mechanical reasoning is therefore an important step towards building human-level artificial intelligence. Here, we leveraged 155 cognitive experiments to test the understanding of system stability, gears and pulley systems, leverage principle, inertia and motion, and fluid mechanics in 26 Vision Language Models (VLMs). Results indicate that VLMs consistently perform worse than humans on all domains, while demonstrate significant difficulty in reasoning about gear systems and fluid mechanics. Notably, their performance on these tasks do not improve as number of parameters increase, suggesting that current attention-based architecture may fail to grasp certain underlying mechanisms required for mechanical reasoning, particularly those pertaining to mental simulations.
- Abstract(参考訳): 機械的推論は人間の知能の目印であり、日常的な作業から土木工学まで、人間の活動において、ユビキタスだが置き換えられない役割によって定義される。
したがって、機械的推論を持つ機械を組み込むことは、人間レベルの人工知能を構築するための重要なステップである。
ここでは,システム安定性,歯車,滑車システムの理解,原理,慣性,運動,および26ビジョン言語モデル(VLM)の流体力学を155種類の認知実験で検証した。
以上の結果から,VLMはすべての領域において人間よりも常に悪い性能を示す一方で,歯車システムや流体力学の推論が困難であることが示唆された。
特に、これらのタスクにおけるそれらのパフォーマンスはパラメータの数が増えるにつれて改善されないため、現在の注意に基づくアーキテクチャは、機械的推論、特にメンタルシミュレーションに関連するメカニズムを把握できない可能性がある。
関連論文リスト
- Towards Conscious Service Robots [21.66931637743555]
現実世界のロボティクスは、可変性、高次元状態空間、非線形依存、部分観測可能性といった課題に直面している。
現在の機械学習モデルとは異なり、人間は体系的な一般化とメタ認知を可能にする認知アーキテクチャのために、変化や新しいタスクに素早く適応する。
次世代のサービスロボットは、新しい状況に対処し、リスクを避け、エラーを軽減するために自分自身を監視する。
論文 参考訳(メタデータ) (2025-01-25T12:32:52Z) - Causal Reinforcement Learning for Optimisation of Robot Dynamics in Unknown Environments [4.494898338391223]
本研究は,ロボット操作の高度化に向けた新しい因果強化学習手法を導入する。
提案する機械学習アーキテクチャにより,ロボットは物体の視覚的特徴間の因果関係を学習することができる。
論文 参考訳(メタデータ) (2024-09-20T11:40:51Z) - Commonsense Reasoning for Legged Robot Adaptation with Vision-Language Models [81.55156507635286]
脚のついたロボットは、様々な環境をナビゲートし、幅広い障害を克服することができる。
現在の学習手法は、人間の監督を伴わずに、予期せぬ状況の長い尾への一般化に苦慮することが多い。
本稿では,VLM-Predictive Control (VLM-PC) というシステムを提案する。
論文 参考訳(メタデータ) (2024-07-02T21:00:30Z) - Highlighting the Safety Concerns of Deploying LLMs/VLMs in Robotics [54.57914943017522]
本稿では,大規模言語モデル (LLMs) と視覚言語モデル (VLMs) をロボティクスアプリケーションに統合する際のロバスト性と安全性に関する重要な課題を強調する。
論文 参考訳(メタデータ) (2024-02-15T22:01:45Z) - Enabling High-Level Machine Reasoning with Cognitive Neuro-Symbolic
Systems [67.01132165581667]
本稿では,認知アーキテクチャを外部のニューロシンボリックコンポーネントと統合することにより,AIシステムにおける高レベル推論を実現することを提案する。
本稿では,ACT-Rを中心としたハイブリッドフレームワークについて紹介し,最近の応用における生成モデルの役割について論じる。
論文 参考訳(メタデータ) (2023-11-13T21:20:17Z) - Incremental procedural and sensorimotor learning in cognitive humanoid
robots [52.77024349608834]
本研究は,手順を段階的に学習する認知エージェントを提案する。
各サブステージで必要とされる認知機能と, エージェントが未解決の課題に, 新たな機能の追加がどう対処するかを示す。
結果は、このアプローチが複雑なタスクを段階的に解くことができることを示している。
論文 参考訳(メタデータ) (2023-04-30T22:51:31Z) - Physics-Guided Hierarchical Reward Mechanism for Learning-Based Robotic
Grasping [10.424363966870775]
我々は,学習効率と学習に基づく自律的把握の一般化性を向上させるために,階層的リワード機構を備えた物理誘導型深層強化学習を開発した。
本手法は3本指MICOロボットアームを用いたロボット把握作業において有効である。
論文 参考訳(メタデータ) (2022-05-26T18:01:56Z) - From Machine Learning to Robotics: Challenges and Opportunities for
Embodied Intelligence [113.06484656032978]
記事は、インテリジェンスが機械学習技術の進歩の鍵を握っていると主張している。
私たちは、インテリジェンスを具体化するための課題と機会を強調します。
本稿では,ロボット学習の最先端性を著しく向上させる研究の方向性を提案する。
論文 参考訳(メタデータ) (2021-10-28T16:04:01Z) - Fit to Measure: Reasoning about Sizes for Robust Object Recognition [0.5352699766206808]
本稿では,MLに基づくアーキテクチャにおいて,オブジェクトサイズに関する知識を統合するアプローチを提案する。
実世界のロボットシナリオにおける我々の実験は、この組み合わせによって、最先端の機械学習手法よりも大きなパフォーマンス向上が期待できることを示している。
論文 参考訳(メタデータ) (2020-10-27T13:54:37Z) - Machine Common Sense [77.34726150561087]
機械の常識は、人工知能(AI)において広範で潜在的に無拘束な問題のままである
本稿では、対人インタラクションのようなドメインに焦点を当てたコモンセンス推論のモデル化の側面について論じる。
論文 参考訳(メタデータ) (2020-06-15T13:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。