Fugu-MT 論文翻訳(概要): Vision Language Models See What You Want but not What You See

論文の概要: Vision Language Models See What You Want but not What You See

arxiv url: http://arxiv.org/abs/2410.00324v2
Date: Fri, 13 Dec 2024 01:57:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-16 15:37:48.630258
Title: Vision Language Models See What You Want but not What You See
Title（参考訳）: 視覚言語モデルはあなたが望むものを見るが、見るものではない
Authors: Qingying Gao, Yijiang Li, Haiyun Lyu, Haoran Sun, Dezhi Luo, Hokin Deng,
Abstract要約: 他人の意図を知り、他人の視点をとることは、人間の知性の2つの中核的な構成要素である。本稿では,視覚言語モデルにおける意図理解と視点獲得について考察する。意外なことに、VLMは意図的理解では高いパフォーマンスを達成できるが、視点決定では低いパフォーマンスを実現している。
参考スコア（独自算出の注目度）: 9.268588981925234
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Knowing others' intentions and taking others' perspectives are two core components of human intelligence that are typically considered to be instantiations of theory-of-mind. Infiltrating machines with these abilities is an important step towards building human-level artificial intelligence. Recently, Li et al. built CogDevelop2K, a data-intensive cognitive experiment benchmark to assess the developmental trajectory of machine intelligence. Here, to investigate intentionality understanding and perspective-taking in Vision Language Models, we leverage the IntentBench and PerspectBench of CogDevelop2K, which contains over 300 cognitive experiments grounded in real-world scenarios and classic cognitive tasks, respectively. Surprisingly, we find VLMs achieving high performance on intentionality understanding but lower performance on perspective-taking. This challenges the common belief in cognitive science literature that perspective-taking at the corresponding modality is necessary for intentionality understanding. For website see https://growing-ai-like-a-child.github.io/pages/Three%20Mountain%20Task/
Abstract（参考訳）: 他人の意図を知り、他人の視点をとることは、人間の知性の2つの中核的な構成要素であり、一般的には「ミンド理論」のインスタンス化であると考えられている。このような能力を持つ機械を浸透させることは、人間レベルの人工知能を構築するための重要なステップである。最近、LiらがCogDevelop2Kを開発した。これは、データ集約型認知実験ベンチマークで、マシンインテリジェンスの発達軌跡を評価する。ここでは,視覚言語モデルにおける意図的理解と視点的理解を考察するために,実世界のシナリオと古典的な認知タスクを基礎とした300以上の認知実験を含むCogDevelop2KのIntentBenchとPerspectBenchを利用する。意外なことに、VLMは意図的理解では高いパフォーマンスを達成できるが、視点決定では低いパフォーマンスを実現している。このことは認知科学文学における共通の信念に挑戦し、意図的理解のためには、対応するモダリティを視点に考えることが不可欠である。 Webサイトはhttps:// growing-ai-like-a-child.github.io/pages/Three%20Mountain%20Task/

関連論文リスト

Toward Cognitive Supersensing in Multimodal Large Language Model [67.15559571626747]
我々は,MLLMに人間のような視覚的特徴を付与する訓練パラダイムであるCognitive Supersensingを紹介する。実験では、CogSense-BenchでCognitive Supersensingを訓練したMLLMが、最先端のベースラインを大きく上回った。私たちはCogSense-Benchとモデルウェイトをオープンソースにします。
論文参考訳（メタデータ） (2026-02-02T02:19:50Z)
Spatial Mental Modeling from Limited Views [71.57140964322559]
新しいMindCubeベンチマークでは、3,268枚の画像に21,154件の質問があった。 MindCubeを用いて、視覚言語モデル(VLM)がいかに堅牢な空間精神モデルを構築するかを評価する。次に、VLMが空間的メンタルモデルに近似する3つのアプローチを探索する。
論文参考訳（メタデータ） (2025-06-26T16:38:19Z)
Visual Embodied Brain: Let Multimodal Large Language Models See, Think, and Control in Spaces [90.96731971685115]
VeBrainは、現実世界における認識、推論、制御のための統一されたフレームワークである。 VeBrainは、ロボット制御を2次元視覚空間における一般的なテキストベースのMLLMタスクに再構成する。 VeBrainは、既存の方法と比較して、強い適応性、柔軟性、および構成能力を示している。
論文参考訳（メタデータ） (2025-05-30T18:00:34Z)
DeepEyes: Incentivizing "Thinking with Images" via Reinforcement Learning [11.242852367476015]
DeepEyesは、エンドツーエンドの強化学習を通じてインセンティブを得た、“イメージで考える”機能を備えたモデルである。本稿では,ツール・ユース指向のデータ選択機構と報奨戦略を提案する。 DeepEyesは、微粒な認識と推論ベンチマークにおいて、大幅なパフォーマンス向上を実現している。
論文参考訳（メタデータ） (2025-05-20T13:48:11Z)
Revealing emergent human-like conceptual representations from language prediction [90.73285317321312]
大規模言語モデル(LLMs)は、人間らしい振る舞いを示すテキストの次のトーケン予測によってのみ訓練される。これらのモデルでは、概念は人間のものと似ていますか? LLMは、他の概念に関する文脈的手がかりに関連して、言語記述から柔軟に概念を導出できることがわかった。
論文参考訳（メタデータ） (2025-01-21T23:54:17Z)
Humanlike Cognitive Patterns as Emergent Phenomena in Large Language Models [2.9312156642007294]
我々は、意思決定バイアス、推論、創造性の3つの重要な認知領域にわたって、大規模言語モデルの能力を体系的にレビューする。意思決定では、LSMはいくつかの人間のようなバイアスを示すが、人間の観察するバイアスは欠落している。 GPT-4のような先進的なLCMは、人間のシステム2思考に似た熟考的推論を示し、小さなモデルは人間レベルの性能に欠ける。 LLMはストーリーテリングのような言語ベースの創造的なタスクに優れているが、現実の文脈を必要とする散発的な思考タスクに苦労する。
論文参考訳（メタデータ） (2024-12-20T02:26:56Z)
Core Knowledge Deficits in Multi-Modal Language Models [8.461561516444261]
そこで本研究では,幼少期からヒトに根本的知識が欠如していることから,欠陥が引き起こされるという仮説を考察する。以上の結果から,早期に発達したコア能力のコア知識不足が明らかとなり,高い認知度で人間に匹敵する性能を示すモデルが得られた。本稿では,MLLMがコア知識に真に前進しないことを示す評価手法であるConcept Hackingを紹介する。
論文参考訳（メタデータ） (2024-10-06T20:13:11Z)
Probing Mechanical Reasoning in Large Vision Language Models [9.268588981925234]
機械的推論により、私たちはツールを設計し、橋や運河を建設し、人間の文明の基礎となる家を建てることができます。 We leverage the MechBench of CogDevelop2K to test understanding of Mechanical system stability, gears and pulley system, seeaw-like system and leverage principle, inertia and motion。
論文参考訳（メタデータ） (2024-10-01T01:33:10Z)
CogniDual Framework: Self-Training Large Language Models within a Dual-System Theoretical Framework for Improving Cognitive Tasks [39.43278448546028]
カーネマンの二重系理論は人間の意思決定過程を解明し、素早い直感的なシステム1と合理的なシステム2を区別する。近年の大きな言語モデル (LLMs) は、認知タスクにおける人間レベルの習熟度に近づきやすいツールとして位置づけられている。本研究では、自己学習を通じて、意図的な推論から直感的な応答へと進化するLLM(textbfCognidual Framework for LLMs, CFLLMs)について述べる。
論文参考訳（メタデータ） (2024-09-05T09:33:24Z)
What is the Visual Cognition Gap between Humans and Multimodal LLMs? [63.81347276258992]
MLLM(Multimodal Large Language Models)の視覚認知能力を評価し,その性能を人間の視覚認知研究と比較した。我々の比較実験では、MLLMと人間の知能のギャップが明らかになっている。我々は,MaRs-VQAとQwen2-VCogベースラインモデルの公開が,人間の視覚認知能力を持つ次世代MLLMに向けて進展をもたらすと考えている。
論文参考訳（メタデータ） (2024-06-14T22:02:21Z)
Visual Knowledge in the Big Model Era: Retrospect and Prospect [63.282425615863]
視覚知識は、視覚概念とその関係を簡潔で包括的で解釈可能な方法でカプセル化できる新しい知識表現である。視覚世界に関する知識は、人間の認知と知性にとって欠かせない要素として認識されているため、視覚知識は、機械知性を確立する上で重要な役割を担っていると考えられる。
論文参考訳（メタデータ） (2024-04-05T07:31:24Z)
Mind's Eye of LLMs: Visualization-of-Thought Elicits Spatial Reasoning in Large Language Models [71.93366651585275]
大規模言語モデル(LLM)は、言語理解と様々な推論タスクにおいて印象的な性能を示した。本稿では,LLMの空間的推論を視覚的に行うために,VoT(Visual-of-Thought)を提案する。 VoTはLLMの空間的推論能力を著しく向上させる。
論文参考訳（メタデータ） (2024-04-04T17:45:08Z)
Brain in a Vat: On Missing Pieces Towards Artificial General Intelligence in Large Language Models [83.63242931107638]
本稿では,知的エージェントの4つの特徴について述べる。実世界の物体との活発な関わりは、概念的表現を形成するためのより堅牢な信号をもたらすと我々は主張する。我々は、人工知能分野における将来的な研究の方向性を概説して結論付ける。
論文参考訳（メタデータ） (2023-07-07T13:58:16Z)
Machine Psychology [54.287802134327485]
我々は、心理学にインスパイアされた行動実験において、研究のための実りある方向が、大きな言語モデルに係わっていると論じる。本稿では,本手法が表に示す理論的視点,実験パラダイム,計算解析技術について述べる。これは、パフォーマンスベンチマークを超えた、生成人工知能(AI)のための「機械心理学」の道を開くものだ。
論文参考訳（メタデータ） (2023-03-24T13:24:41Z)
Beyond Interpretable Benchmarks: Contextual Learning through Cognitive and Multimodal Perception [0.0]
この研究は、チューリングテストがコンピュータシステムを人為的に形作る試みであると誤解されていることを主張する。通訳性に欠けるにもかかわらず、汎用知能の基盤として暗黙の学習を強調している。
論文参考訳（メタデータ） (2022-12-04T08:30:04Z)
EgoTaskQA: Understanding Human Tasks in Egocentric Videos [89.9573084127155]
EgoTaskQAベンチマークは、現実世界のエゴセントリックなビデオに対する質問回答を通じて、タスク理解の重要な次元を提供する。我々は,(1)行動依存と効果,(2)意図と目標,(3)エージェントの他者に対する信念の理解を念頭に設計する。我々は、我々のベンチマークで最先端のビデオ推論モデルを評価し、複雑なゴール指向のエゴセントリックなビデオを理解する上で、人間の間に大きなギャップがあることを示します。
論文参考訳（メタデータ） (2022-10-08T05:49:05Z)
A World-Self Model Towards Understanding Intelligence [0.0]
我々は、人間と人工知能を比較し、人間の知性の特定の側面が認識と認知を結びつける鍵である、と提案する。我々は、より広範な概念、新しいモデルのWSM(World-Self Model)の原理と数学的枠組み、そして最後にWSMに基づいた統合されたインテリジェンス・フレームワークを提示する。
論文参考訳（メタデータ） (2022-03-25T16:42:23Z)
Building Human-like Communicative Intelligence: A Grounded Perspective [1.0152838128195465]
言語学習における驚くべき進歩の後、AIシステムは人間のコミュニケーション能力の重要な側面を反映しない天井に近づいたようだ。本稿は、ナチビストと象徴的パラダイムに基づく認知にインスパイアされたAIの方向性には、現代AIの進歩を導くために必要なサブストラテジと具体性がないことを示唆する。本稿では,「地下」言語知能構築のための具体的かつ実装可能なコンポーネントのリストを提案する。
論文参考訳（メタデータ） (2022-01-02T01:43:24Z)
Visual Perspective Taking for Opponent Behavior Modeling [22.69165968663182]
ロボットのためのエンドツーエンドの長期視覚予測フレームワークを提案する。視覚的に隠れて見るという文脈で、我々のアプローチを実証する。我々は,実世界のマルチエージェント活動に完全に統合できる物理ロボットの能力において,視覚行動モデリングとパースペクティブテイキングスキルが重要な役割を果たすことを示唆する。
論文参考訳（メタデータ） (2021-05-11T16:02:32Z)
Deep Interpretable Models of Theory of Mind For Human-Agent Teaming [0.7734726150561086]
我々は、他の観測対象の意図をモデル化するための解釈可能なモジュラー・ニューラル・フレームワークを開発する。 Minecraftの検索および救助タスクで、人間の参加者のデータに関する実験を行い、アプローチの有効性を実証します。
論文参考訳（メタデータ） (2021-04-07T06:18:58Z)
Bongard-LOGO: A New Benchmark for Human-Level Concept Learning and Reasoning [78.13740873213223]
ボナード問題(BP)は、インテリジェントシステムにおける視覚認知へのインスピレーションとして導入された。我々は人間レベルの概念学習と推論のための新しいベンチマークBongard-LOGOを提案する。
論文参考訳（メタデータ） (2020-10-02T03:19:46Z)
Machine Common Sense [77.34726150561087]
機械の常識は、人工知能(AI)において広範で潜在的に無拘束な問題のままである本稿では、対人インタラクションのようなドメインに焦点を当てたコモンセンス推論のモデル化の側面について論じる。
論文参考訳（メタデータ） (2020-06-15T13:59:47Z)
Dark, Beyond Deep: A Paradigm Shift to Cognitive AI with Humanlike Common Sense [142.53911271465344]
我々は、次世代のAIは、新しいタスクを解決するために、人間のような「暗黒」の常識を取り入れなければならないと論じている。我々は、人間のような常識を持つ認知AIの5つの中核領域として、機能、物理学、意図、因果性、実用性(FPICU)を識別する。
論文参考訳（メタデータ） (2020-04-20T04:07:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。