論文の概要: Probing Mechanical Reasoning in Large Vision Language Models
- arxiv url: http://arxiv.org/abs/2410.00318v1
- Date: Tue, 1 Oct 2024 01:33:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 06:26:14.693927
- Title: Probing Mechanical Reasoning in Large Vision Language Models
- Title(参考訳): 大規模視覚言語モデルにおける機械的推論の提案
- Authors: Haoran Sun, Qingying Gao, Haiyun Lyu, Dezhi Luo, Hokin Deng, Yijiang Li,
- Abstract要約: 機械的推論により、私たちはツールを設計し、橋や運河を建設し、人間の文明の基礎となる家を建てることができます。
We leverage the MechBench of CogDevelop2K to test understanding of Mechanical system stability, gears and pulley system, seeaw-like system and leverage principle, inertia and motion。
- 参考スコア(独自算出の注目度): 9.268588981925234
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mechanical reasoning is a fundamental ability that sets human intelligence apart from other animal intelligence. Mechanical reasoning allows us to design tools, build bridges and canals, and construct houses which set the foundation of human civilization. Embedding machines with such ability is an important step towards building human-level artificial intelligence. Recently, Li et al. built CogDevelop2K, a data-intensive cognitive experiment benchmark for assaying the developmental trajectory of machine intelligence (Li et al., 2024). Here, to investigate mechanical reasoning in Vision Language Models, we leverage the MechBench of CogDevelop2K, which contains approximately 150 cognitive experiments, to test understanding of mechanical system stability, gears and pulley systems, seesaw-like systems and leverage principle, inertia and motion, and other fluid-related systems in Large Vision Language Models. We observe diverse yet consistent behaviors over these aspects in VLMs.
- Abstract(参考訳): 機械的推論は、人間の知能を他の動物の知能と区別する基本的な能力である。
機械的推論により、私たちはツールを設計し、橋や運河を建設し、人間の文明の基礎となる家を建てることができます。
このような能力を持つマシンを組み込むことは、人間レベルの人工知能を構築するための重要なステップである。
最近、LiらがCogDevelop2Kを開発した。これは、データ集約型認知実験ベンチマークで、マシンインテリジェンスの発達軌道を計測している(Li et al , 2024)。
本稿では,約150の認知実験を含むCogDevelop2KのMechBenchを利用して,メカニカルシステム安定性,歯車,プーリーシステム,シーソー系システム,原理,慣性,運動,その他の流体関連システムを活用する。
VLMにおけるこれらの側面の多様な一貫した挙動を観察する。
関連論文リスト
- The Trap of Presumed Equivalence: Artificial General Intelligence Should Not Be Assessed on the Scale of Human Intelligence [0.0]
知的システム理論における新しい知性を評価する従来のアプローチは、人間のような行動や行動の類似性、「模倣」に基づいている。
いくつかの自然な仮定の下では、インテリジェントなシステムを開発することは、独自の意図と目的を形成することができる、と我々は主張する。
論文 参考訳(メタデータ) (2024-10-14T13:39:58Z) - Vision Language Models See What You Want but not What You See [9.268588981925234]
他人の意図を知り、他人の視点をとることは、人間の知性の2つの中核的な構成要素である。
本稿では,視覚言語モデルにおける意図理解と視点獲得について考察する。
意外なことに、VLMは意図的理解では高いパフォーマンスを達成できるが、視点決定では低いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-10-01T01:52:01Z) - Commonsense Reasoning for Legged Robot Adaptation with Vision-Language Models [81.55156507635286]
脚のついたロボットは、様々な環境をナビゲートし、幅広い障害を克服することができる。
現在の学習手法は、人間の監督を伴わずに、予期せぬ状況の長い尾への一般化に苦慮することが多い。
本稿では,VLM-Predictive Control (VLM-PC) というシステムを提案する。
論文 参考訳(メタデータ) (2024-07-02T21:00:30Z) - Enabling High-Level Machine Reasoning with Cognitive Neuro-Symbolic
Systems [67.01132165581667]
本稿では,認知アーキテクチャを外部のニューロシンボリックコンポーネントと統合することにより,AIシステムにおける高レベル推論を実現することを提案する。
本稿では,ACT-Rを中心としたハイブリッドフレームワークについて紹介し,最近の応用における生成モデルの役割について論じる。
論文 参考訳(メタデータ) (2023-11-13T21:20:17Z) - Adaptive User-centered Neuro-symbolic Learning for Multimodal
Interaction with Autonomous Systems [0.0]
機械学習の最近の進歩により、自律システムは物体を知覚し、理解することができるようになった。
人間が提供する明示的な教えと、人間の行動を観察して得られる暗黙的な教えの両方を考慮することが不可欠である。
インプットのタイプや,ループ内の人間とインクリメンタルな学習技術についても検討する。
論文 参考訳(メタデータ) (2023-09-11T19:35:12Z) - Non-equilibrium physics: from spin glasses to machine and neural
learning [0.0]
障害のある多体系は様々なスケールで幅広い創発現象を示す。
我々は、統計物理学を通して、乱れたシステムにおけるそのような突発的な知性を特徴付けることを目指している。
知的システムを設計するための指針となる学習メカニズムと物理力学の関係を明らかにする。
論文 参考訳(メタデータ) (2023-08-03T04:56:47Z) - Machine Psychology [54.287802134327485]
我々は、心理学にインスパイアされた行動実験において、研究のための実りある方向が、大きな言語モデルに係わっていると論じる。
本稿では,本手法が表に示す理論的視点,実験パラダイム,計算解析技術について述べる。
これは、パフォーマンスベンチマークを超えた、生成人工知能(AI)のための「機械心理学」の道を開くものだ。
論文 参考訳(メタデータ) (2023-03-24T13:24:41Z) - Building Human-like Communicative Intelligence: A Grounded Perspective [1.0152838128195465]
言語学習における驚くべき進歩の後、AIシステムは人間のコミュニケーション能力の重要な側面を反映しない天井に近づいたようだ。
本稿は、ナチビストと象徴的パラダイムに基づく認知にインスパイアされたAIの方向性には、現代AIの進歩を導くために必要なサブストラテジと具体性がないことを示唆する。
本稿では,「地下」言語知能構築のための具体的かつ実装可能なコンポーネントのリストを提案する。
論文 参考訳(メタデータ) (2022-01-02T01:43:24Z) - Future Trends for Human-AI Collaboration: A Comprehensive Taxonomy of
AI/AGI Using Multiple Intelligences and Learning Styles [95.58955174499371]
我々は、複数の人間の知性と学習スタイルの様々な側面を説明し、様々なAI問題領域に影響を及ぼす可能性がある。
未来のAIシステムは、人間のユーザと互いにコミュニケーションするだけでなく、知識と知恵を効率的に交換できる。
論文 参考訳(メタデータ) (2020-08-07T21:00:13Z) - Machine Common Sense [77.34726150561087]
機械の常識は、人工知能(AI)において広範で潜在的に無拘束な問題のままである
本稿では、対人インタラクションのようなドメインに焦点を当てたコモンセンス推論のモデル化の側面について論じる。
論文 参考訳(メタデータ) (2020-06-15T13:59:47Z) - Learning to Complement Humans [67.38348247794949]
オープンワールドにおけるAIに対するビジョンの高まりは、知覚、診断、推論タスクのために人間を補完できるシステムの開発に焦点を当てている。
我々は,人間-機械チームの複合的なパフォーマンスを最適化するために,エンド・ツー・エンドの学習戦略をどのように活用できるかを実証する。
論文 参考訳(メタデータ) (2020-05-01T20:00:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。