Fugu-MT 論文翻訳(概要): Vision Language Models See What You Want but not What You See

論文の概要: Vision Language Models See What You Want but not What You See

arxiv url: http://arxiv.org/abs/2410.00324v1
Date: Tue, 1 Oct 2024 01:52:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-05 06:16:28.816576
Title: Vision Language Models See What You Want but not What You See
Title（参考訳）: 視覚言語モデルはあなたが望むものを見るが、見るものではない
Authors: Qingying Gao, Yijiang Li, Haiyun Lyu, Haoran Sun, Dezhi Luo, Hokin Deng,
Abstract要約: 他人の意図を知り、他人の視点をとることは、人間の知性の2つの中核的な構成要素である。本稿では,視覚言語モデルにおける意図理解と視点獲得について考察する。意外なことに、VLMは意図的理解では高いパフォーマンスを達成できるが、視点決定では低いパフォーマンスを実現している。
参考スコア（独自算出の注目度）: 9.268588981925234
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Knowing others' intentions and taking others' perspectives are two core components of human intelligence that are typically considered to be instantiations of theory-of-mind. Infiltrating machines with these abilities is an important step towards building human-level artificial intelligence. Recently, Li et al. built CogDevelop2K, a data-intensive cognitive experiment benchmark to assess the developmental trajectory of machine intelligence. Here, to investigate intentionality understanding and perspective-taking in Vision Language Models, we leverage the IntentBench and PerspectBench of CogDevelop2K, which contains over 300 cognitive experiments grounded in real-world scenarios and classic cognitive tasks, respectively. Surprisingly, we find VLMs achieving high performance on intentionality understanding but lower performance on perspective-taking. This challenges the common belief in cognitive science literature that perspective-taking at the corresponding modality is necessary for intentionality understanding.
Abstract（参考訳）: 他人の意図を知り、他人の視点をとることは、人間の知性の2つの中核的な構成要素であり、一般的には「ミンド理論」のインスタンス化であると考えられている。このような能力を持つ機械を浸透させることは、人間レベルの人工知能を構築するための重要なステップである。最近、LiらがCogDevelop2Kを開発した。これは、データ集約型認知実験ベンチマークで、マシンインテリジェンスの発達軌跡を評価する。ここでは,視覚言語モデルにおける意図的理解と視点的理解を考察するために,実世界のシナリオと古典的認知タスクを基礎とした300以上の認知実験を含むCogDevelop2KのIntentBenchとPerspectBenchを利用する。意外なことに、VLMは意図的理解では高いパフォーマンスを達成できるが、視点決定では低いパフォーマンスを実現している。このことは認知科学文学における共通の信念に挑戦し、意図的理解のためには、対応するモダリティを視点に考えることが不可欠である。

関連論文リスト

Spatial Mental Modeling from Limited Views [71.57140964322559]
新しいMindCubeベンチマークでは、3,268枚の画像に21,154件の質問があった。 MindCubeを用いて、視覚言語モデル(VLM)がいかに堅牢な空間精神モデルを構築するかを評価する。次に、VLMが空間的メンタルモデルに近似する3つのアプローチを探索する。
論文参考訳（メタデータ） (2025-06-26T16:38:19Z)
Visual Embodied Brain: Let Multimodal Large Language Models See, Think, and Control in Spaces [90.96731971685115]
VeBrainは、現実世界における認識、推論、制御のための統一されたフレームワークである。 VeBrainは、ロボット制御を2次元視覚空間における一般的なテキストベースのMLLMタスクに再構成する。 VeBrainは、既存の方法と比較して、強い適応性、柔軟性、および構成能力を示している。
論文参考訳（メタデータ） (2025-05-30T18:00:34Z)
DeepEyes: Incentivizing "Thinking with Images" via Reinforcement Learning [11.242852367476015]
DeepEyesは、エンドツーエンドの強化学習を通じてインセンティブを得た、“イメージで考える”機能を備えたモデルである。本稿では,ツール・ユース指向のデータ選択機構と報奨戦略を提案する。 DeepEyesは、微粒な認識と推論ベンチマークにおいて、大幅なパフォーマンス向上を実現している。
論文参考訳（メタデータ） (2025-05-20T13:48:11Z)
Core Knowledge Deficits in Multi-Modal Language Models [8.461561516444261]
そこで本研究では,幼少期からヒトに根本的知識が欠如していることから,欠陥が引き起こされるという仮説を考察する。以上の結果から,早期に発達したコア能力のコア知識不足が明らかとなり,高い認知度で人間に匹敵する性能を示すモデルが得られた。本稿では,MLLMがコア知識に真に前進しないことを示す評価手法であるConcept Hackingを紹介する。
論文参考訳（メタデータ） (2024-10-06T20:13:11Z)
Probing Mechanical Reasoning in Large Vision Language Models [9.268588981925234]
機械的推論により、私たちはツールを設計し、橋や運河を建設し、人間の文明の基礎となる家を建てることができます。 We leverage the MechBench of CogDevelop2K to test understanding of Mechanical system stability, gears and pulley system, seeaw-like system and leverage principle, inertia and motion。
論文参考訳（メタデータ） (2024-10-01T01:33:10Z)
Visual Knowledge in the Big Model Era: Retrospect and Prospect [63.282425615863]
視覚知識は、視覚概念とその関係を簡潔で包括的で解釈可能な方法でカプセル化できる新しい知識表現である。視覚世界に関する知識は、人間の認知と知性にとって欠かせない要素として認識されているため、視覚知識は、機械知性を確立する上で重要な役割を担っていると考えられる。
論文参考訳（メタデータ） (2024-04-05T07:31:24Z)
Mind's Eye of LLMs: Visualization-of-Thought Elicits Spatial Reasoning in Large Language Models [71.93366651585275]
大規模言語モデル(LLM)は、言語理解と様々な推論タスクにおいて印象的な性能を示した。本稿では,LLMの空間的推論を視覚的に行うために,VoT(Visual-of-Thought)を提案する。 VoTはLLMの空間的推論能力を著しく向上させる。
論文参考訳（メタデータ） (2024-04-04T17:45:08Z)
Brain in a Vat: On Missing Pieces Towards Artificial General Intelligence in Large Language Models [83.63242931107638]
本稿では,知的エージェントの4つの特徴について述べる。実世界の物体との活発な関わりは、概念的表現を形成するためのより堅牢な信号をもたらすと我々は主張する。我々は、人工知能分野における将来的な研究の方向性を概説して結論付ける。
論文参考訳（メタデータ） (2023-07-07T13:58:16Z)
Machine Psychology [54.287802134327485]
我々は、心理学にインスパイアされた行動実験において、研究のための実りある方向が、大きな言語モデルに係わっていると論じる。本稿では,本手法が表に示す理論的視点,実験パラダイム,計算解析技術について述べる。これは、パフォーマンスベンチマークを超えた、生成人工知能(AI)のための「機械心理学」の道を開くものだ。
論文参考訳（メタデータ） (2023-03-24T13:24:41Z)
Beyond Interpretable Benchmarks: Contextual Learning through Cognitive and Multimodal Perception [0.0]
この研究は、チューリングテストがコンピュータシステムを人為的に形作る試みであると誤解されていることを主張する。通訳性に欠けるにもかかわらず、汎用知能の基盤として暗黙の学習を強調している。
論文参考訳（メタデータ） (2022-12-04T08:30:04Z)
EgoTaskQA: Understanding Human Tasks in Egocentric Videos [89.9573084127155]
EgoTaskQAベンチマークは、現実世界のエゴセントリックなビデオに対する質問回答を通じて、タスク理解の重要な次元を提供する。我々は,(1)行動依存と効果,(2)意図と目標,(3)エージェントの他者に対する信念の理解を念頭に設計する。我々は、我々のベンチマークで最先端のビデオ推論モデルを評価し、複雑なゴール指向のエゴセントリックなビデオを理解する上で、人間の間に大きなギャップがあることを示します。
論文参考訳（メタデータ） (2022-10-08T05:49:05Z)
A World-Self Model Towards Understanding Intelligence [0.0]
我々は、人間と人工知能を比較し、人間の知性の特定の側面が認識と認知を結びつける鍵である、と提案する。我々は、より広範な概念、新しいモデルのWSM(World-Self Model)の原理と数学的枠組み、そして最後にWSMに基づいた統合されたインテリジェンス・フレームワークを提示する。
論文参考訳（メタデータ） (2022-03-25T16:42:23Z)
Building Human-like Communicative Intelligence: A Grounded Perspective [1.0152838128195465]
言語学習における驚くべき進歩の後、AIシステムは人間のコミュニケーション能力の重要な側面を反映しない天井に近づいたようだ。本稿は、ナチビストと象徴的パラダイムに基づく認知にインスパイアされたAIの方向性には、現代AIの進歩を導くために必要なサブストラテジと具体性がないことを示唆する。本稿では,「地下」言語知能構築のための具体的かつ実装可能なコンポーネントのリストを提案する。
論文参考訳（メタデータ） (2022-01-02T01:43:24Z)
Visual Perspective Taking for Opponent Behavior Modeling [22.69165968663182]
ロボットのためのエンドツーエンドの長期視覚予測フレームワークを提案する。視覚的に隠れて見るという文脈で、我々のアプローチを実証する。我々は,実世界のマルチエージェント活動に完全に統合できる物理ロボットの能力において,視覚行動モデリングとパースペクティブテイキングスキルが重要な役割を果たすことを示唆する。
論文参考訳（メタデータ） (2021-05-11T16:02:32Z)
Bongard-LOGO: A New Benchmark for Human-Level Concept Learning and Reasoning [78.13740873213223]
ボナード問題(BP)は、インテリジェントシステムにおける視覚認知へのインスピレーションとして導入された。我々は人間レベルの概念学習と推論のための新しいベンチマークBongard-LOGOを提案する。
論文参考訳（メタデータ） (2020-10-02T03:19:46Z)
Machine Common Sense [77.34726150561087]
機械の常識は、人工知能(AI)において広範で潜在的に無拘束な問題のままである本稿では、対人インタラクションのようなドメインに焦点を当てたコモンセンス推論のモデル化の側面について論じる。
論文参考訳（メタデータ） (2020-06-15T13:59:47Z)
Dark, Beyond Deep: A Paradigm Shift to Cognitive AI with Humanlike Common Sense [142.53911271465344]
我々は、次世代のAIは、新しいタスクを解決するために、人間のような「暗黒」の常識を取り入れなければならないと論じている。我々は、人間のような常識を持つ認知AIの5つの中核領域として、機能、物理学、意図、因果性、実用性(FPICU)を識別する。
論文参考訳（メタデータ） (2020-04-20T04:07:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。