Fugu-MT 論文翻訳(概要): Probing Mechanical Reasoning in Large Vision Language Models

論文の概要: Probing Mechanical Reasoning in Large Vision Language Models

arxiv url: http://arxiv.org/abs/2410.00318v2
Date: Thu, 13 Feb 2025 05:47:39 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-14 20:05:34.912818
Title: Probing Mechanical Reasoning in Large Vision Language Models
Title（参考訳）: 大規模視覚言語モデルにおける機械的推論の提案
Authors: Haoran Sun, Qingying Gao, Haiyun Lyu, Dezhi Luo, Yijiang Li, Hokin Deng,
Abstract要約: 我々は,26ビジョン言語モデル(VLM)におけるシステム安定性,ギア,プーリーシステムの理解,原理,慣性,運動,流体力学の検証を行った。以上の結果から,VLMはすべての領域において人間よりも常に悪い性能を示す一方で,歯車システムや流体力学の推論が困難であることが示唆された。
参考スコア（独自算出の注目度）: 9.268588981925234
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Mechanical reasoning is a hallmark of human intelligence, defined by its ubiquitous yet irreplaceable role in human activities ranging from routine tasks to civil engineering. Embedding machines with mechanical reasoning is therefore an important step towards building human-level artificial intelligence. Here, we leveraged 155 cognitive experiments to test the understanding of system stability, gears and pulley systems, leverage principle, inertia and motion, and fluid mechanics in 26 Vision Language Models (VLMs). Results indicate that VLMs consistently perform worse than humans on all domains, while demonstrate significant difficulty in reasoning about gear systems and fluid mechanics. Notably, their performance on these tasks do not improve as number of parameters increase, suggesting that current attention-based architecture may fail to grasp certain underlying mechanisms required for mechanical reasoning, particularly those pertaining to mental simulations.
Abstract（参考訳）: 機械的推論は人間の知能の目印であり、日常的な作業から土木工学まで、人間の活動において、ユビキタスだが置き換えられない役割によって定義される。したがって、機械的推論を持つ機械を組み込むことは、人間レベルの人工知能を構築するための重要なステップである。ここでは,システム安定性,歯車,滑車システムの理解,原理,慣性,運動,および26ビジョン言語モデル(VLM)の流体力学を155種類の認知実験で検証した。以上の結果から,VLMはすべての領域において人間よりも常に悪い性能を示す一方で,歯車システムや流体力学の推論が困難であることが示唆された。特に、これらのタスクにおけるそれらのパフォーマンスはパラメータの数が増えるにつれて改善されないため、現在の注意に基づくアーキテクチャは、機械的推論、特にメンタルシミュレーションに関連するメカニズムを把握できない可能性がある。

関連論文リスト

OminiAdapt: Learning Cross-Task Invariance for Robust and Environment-Aware Robotic Manipulation [1.4719692998274154]
本稿では,ヒューマノイドロボットに適した模倣学習アルゴリズムを提案する。主な課題に焦点をあてて,提案アルゴリズムは環境障害を抑制する。実験の結果,提案手法は様々なタスクシナリオに対して頑健さとスケーラビリティを示すことがわかった。
論文参考訳（メタデータ） (2025-03-27T08:28:22Z)
Reflective Planning: Vision-Language Models for Multi-Stage Long-Horizon Robotic Manipulation [90.00687889213991]
複雑な長距離ロボット操作問題を解決するには、高度な高レベルの計画能力が必要である。インターネット上で事前訓練された視覚言語モデル(VLM)は、原則としてそのような問題に対処するためのフレームワークを提供する。本稿では,多段階操作タスクにおけるVLMの物理推論能力を高める新しいテストタイムフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-23T20:42:15Z)
Towards Conscious Service Robots [21.66931637743555]
現実世界のロボティクスは、可変性、高次元状態空間、非線形依存、部分観測可能性といった課題に直面している。現在の機械学習モデルとは異なり、人間は体系的な一般化とメタ認知を可能にする認知アーキテクチャのために、変化や新しいタスクに素早く適応する。次世代のサービスロボットは、新しい状況に対処し、リスクを避け、エラーを軽減するために自分自身を監視する。
論文参考訳（メタデータ） (2025-01-25T12:32:52Z)
The Trap of Presumed Equivalence: Artificial General Intelligence Should Not Be Assessed on the Scale of Human Intelligence [0.0]
知的システム理論における新しい知性を評価する従来のアプローチは、人間のような行動や行動の類似性、「模倣」に基づいている。いくつかの自然な仮定の下では、インテリジェントなシステムを開発することは、独自の意図と目的を形成することができる、と我々は主張する。
論文参考訳（メタデータ） (2024-10-14T13:39:58Z)
Vision Language Models See What You Want but not What You See [9.268588981925234]
他人の意図を知り、他人の視点をとることは、人間の知性の2つの中核的な構成要素である。本稿では,視覚言語モデルにおける意図理解と視点獲得について考察する。意外なことに、VLMは意図的理解では高いパフォーマンスを達成できるが、視点決定では低いパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-10-01T01:52:01Z)
Causal Reinforcement Learning for Optimisation of Robot Dynamics in Unknown Environments [4.494898338391223]
本研究は,ロボット操作の高度化に向けた新しい因果強化学習手法を導入する。提案する機械学習アーキテクチャにより,ロボットは物体の視覚的特徴間の因果関係を学習することができる。
論文参考訳（メタデータ） (2024-09-20T11:40:51Z)
Commonsense Reasoning for Legged Robot Adaptation with Vision-Language Models [81.55156507635286]
脚のついたロボットは、様々な環境をナビゲートし、幅広い障害を克服することができる。現在の学習手法は、人間の監督を伴わずに、予期せぬ状況の長い尾への一般化に苦慮することが多い。本稿では,VLM-Predictive Control (VLM-PC) というシステムを提案する。
論文参考訳（メタデータ） (2024-07-02T21:00:30Z)
On the Vulnerability of LLM/VLM-Controlled Robotics [54.57914943017522]
大規模言語モデル(LLM)と視覚言語モデル(VLM)を統合するロボットシステムの脆弱性を,入力モダリティの感度によって強調する。 LLM/VLM制御型2つのロボットシステムにおいて,単純な入力摂動がタスク実行の成功率を22.2%,14.6%減少させることを示す。
論文参考訳（メタデータ） (2024-02-15T22:01:45Z)
Enabling High-Level Machine Reasoning with Cognitive Neuro-Symbolic Systems [67.01132165581667]
本稿では,認知アーキテクチャを外部のニューロシンボリックコンポーネントと統合することにより,AIシステムにおける高レベル推論を実現することを提案する。本稿では,ACT-Rを中心としたハイブリッドフレームワークについて紹介し,最近の応用における生成モデルの役割について論じる。
論文参考訳（メタデータ） (2023-11-13T21:20:17Z)
Adaptive User-centered Neuro-symbolic Learning for Multimodal Interaction with Autonomous Systems [0.0]
機械学習の最近の進歩により、自律システムは物体を知覚し、理解することができるようになった。人間が提供する明示的な教えと、人間の行動を観察して得られる暗黙的な教えの両方を考慮することが不可欠である。インプットのタイプや,ループ内の人間とインクリメンタルな学習技術についても検討する。
論文参考訳（メタデータ） (2023-09-11T19:35:12Z)
Non-equilibrium physics: from spin glasses to machine and neural learning [0.0]
障害のある多体系は様々なスケールで幅広い創発現象を示す。我々は、統計物理学を通して、乱れたシステムにおけるそのような突発的な知性を特徴付けることを目指している。知的システムを設計するための指針となる学習メカニズムと物理力学の関係を明らかにする。
論文参考訳（メタデータ） (2023-08-03T04:56:47Z)
Incremental procedural and sensorimotor learning in cognitive humanoid robots [52.77024349608834]
本研究は,手順を段階的に学習する認知エージェントを提案する。各サブステージで必要とされる認知機能と, エージェントが未解決の課題に, 新たな機能の追加がどう対処するかを示す。結果は、このアプローチが複雑なタスクを段階的に解くことができることを示している。
論文参考訳（メタデータ） (2023-04-30T22:51:31Z)
Machine Psychology [54.287802134327485]
我々は、心理学にインスパイアされた行動実験において、研究のための実りある方向が、大きな言語モデルに係わっていると論じる。本稿では,本手法が表に示す理論的視点,実験パラダイム,計算解析技術について述べる。これは、パフォーマンスベンチマークを超えた、生成人工知能(AI)のための「機械心理学」の道を開くものだ。
論文参考訳（メタデータ） (2023-03-24T13:24:41Z)
Building Human-like Communicative Intelligence: A Grounded Perspective [1.0152838128195465]
言語学習における驚くべき進歩の後、AIシステムは人間のコミュニケーション能力の重要な側面を反映しない天井に近づいたようだ。本稿は、ナチビストと象徴的パラダイムに基づく認知にインスパイアされたAIの方向性には、現代AIの進歩を導くために必要なサブストラテジと具体性がないことを示唆する。本稿では,「地下」言語知能構築のための具体的かつ実装可能なコンポーネントのリストを提案する。
論文参考訳（メタデータ） (2022-01-02T01:43:24Z)
From Machine Learning to Robotics: Challenges and Opportunities for Embodied Intelligence [113.06484656032978]
記事は、インテリジェンスが機械学習技術の進歩の鍵を握っていると主張している。私たちは、インテリジェンスを具体化するための課題と機会を強調します。本稿では,ロボット学習の最先端性を著しく向上させる研究の方向性を提案する。
論文参考訳（メタデータ） (2021-10-28T16:04:01Z)
Fit to Measure: Reasoning about Sizes for Robust Object Recognition [0.5352699766206808]
本稿では,MLに基づくアーキテクチャにおいて,オブジェクトサイズに関する知識を統合するアプローチを提案する。実世界のロボットシナリオにおける我々の実験は、この組み合わせによって、最先端の機械学習手法よりも大きなパフォーマンス向上が期待できることを示している。
論文参考訳（メタデータ） (2020-10-27T13:54:37Z)
Future Trends for Human-AI Collaboration: A Comprehensive Taxonomy of AI/AGI Using Multiple Intelligences and Learning Styles [95.58955174499371]
我々は、複数の人間の知性と学習スタイルの様々な側面を説明し、様々なAI問題領域に影響を及ぼす可能性がある。未来のAIシステムは、人間のユーザと互いにコミュニケーションするだけでなく、知識と知恵を効率的に交換できる。
論文参考訳（メタデータ） (2020-08-07T21:00:13Z)
Machine Common Sense [77.34726150561087]
機械の常識は、人工知能(AI)において広範で潜在的に無拘束な問題のままである本稿では、対人インタラクションのようなドメインに焦点を当てたコモンセンス推論のモデル化の側面について論じる。
論文参考訳（メタデータ） (2020-06-15T13:59:47Z)
Learning to Complement Humans [67.38348247794949]
オープンワールドにおけるAIに対するビジョンの高まりは、知覚、診断、推論タスクのために人間を補完できるシステムの開発に焦点を当てている。我々は,人間-機械チームの複合的なパフォーマンスを最適化するために,エンド・ツー・エンドの学習戦略をどのように活用できるかを実証する。
論文参考訳（メタデータ） (2020-05-01T20:00:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。