論文の概要: Vision Language Models See What You Want but not What You See
- arxiv url: http://arxiv.org/abs/2410.00324v3
- Date: Sun, 22 Dec 2024 07:13:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 22:39:27.903484
- Title: Vision Language Models See What You Want but not What You See
- Title(参考訳): 視覚言語モデルはあなたが望むものを見るが、見るものではない
- Authors: Qingying Gao, Yijiang Li, Haiyun Lyu, Haoran Sun, Dezhi Luo, Hokin Deng,
- Abstract要約: 他人の意図を知り、他人の視点をとることは、人間の知性の2つの中核的な構成要素である。
このような能力を持つ機械を浸透させることは、人間レベルの人工知能を構築するための重要なステップである。
視覚言語モデルにおける意図的理解と視点獲得について検討する。
- 参考スコア(独自算出の注目度): 9.268588981925234
- License:
- Abstract: Knowing others' intentions and taking others' perspectives are two core components of human intelligence typically considered as instantiations of theory of mind. Infiltrating machines with these abilities is an important step towards building human-level artificial intelligence. We here investigate intentionality understanding and perspective-taking in Vision Language Models and, for the purpose, we have created IntentBench and PerspectBench datasets, which contain over 400 cognitive experiments grounded in real-world scenarios and classic cognitive tasks. Surprisingly, we find that VLMs achieve high performance in intentionality understanding but lower performance in perspective-taking using our two datasets. This challenges the common belief in the cognitive science literature that perspective-taking at the corresponding modality is necessary for intentionality understanding. See $\href{https://growing-ai-like-a-child.github.io/pages/Three%20Mountain%20Task/}{Website}$
- Abstract(参考訳): 他人の意図を知り、他人の視点をとることは、人間の知性の2つの中核的な構成要素であり、典型的には心の理論のインスタンス化と見なされる。
このような能力を持つ機械を浸透させることは、人間レベルの人工知能を構築するための重要なステップである。
本稿では,視覚言語モデルにおける意図的理解と視点抽出について検討し,実世界のシナリオと古典的な認知タスクを基盤とした400以上の認知実験を含むIntentBenchとPerspectBenchデータセットを開発した。
驚いたことに、VLMは意図的理解において高い性能を達成するが、我々の2つのデータセットを用いた視点取得では性能が低下する。
このことは認知科学文学における共通の信念に挑戦し、意図的理解のためには、対応するモダリティを視点に考えることが不可欠である。
$\href{https:// growing-ai-like-a-child.github.io/pages/Three%20Mountain%20Task/}{Website}$
関連論文リスト
- Mind's Eye of LLMs: Visualization-of-Thought Elicits Spatial Reasoning in Large Language Models [71.93366651585275]
大規模言語モデル(LLM)は、言語理解と様々な推論タスクにおいて印象的な性能を示した。
本稿では,LLMの空間的推論を視覚的に行うために,VoT(Visual-of-Thought)を提案する。
VoTはLLMの空間的推論能力を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-04T17:45:08Z) - Theory of Mind abilities of Large Language Models in Human-Robot
Interaction : An Illusion? [18.770522926093786]
大規模言語モデルは、様々な自然言語や生成タスクにおいて例外的な生成能力を示している。
高い利害関係とおそらく不可逆的な結果を持つToM能力の特殊応用について検討する。
本研究では,ロボットがLarge Language Model(LLM)を用いてロボットの動作を人間の観察者と同様の方法で評価する,知覚的行動認識の課題に焦点を当てる。
論文 参考訳(メタデータ) (2024-01-10T18:09:36Z) - Brain in a Vat: On Missing Pieces Towards Artificial General
Intelligence in Large Language Models [83.63242931107638]
本稿では,知的エージェントの4つの特徴について述べる。
実世界の物体との活発な関わりは、概念的表現を形成するためのより堅牢な信号をもたらすと我々は主張する。
我々は、人工知能分野における将来的な研究の方向性を概説して結論付ける。
論文 参考訳(メタデータ) (2023-07-07T13:58:16Z) - EgoTaskQA: Understanding Human Tasks in Egocentric Videos [89.9573084127155]
EgoTaskQAベンチマークは、現実世界のエゴセントリックなビデオに対する質問回答を通じて、タスク理解の重要な次元を提供する。
我々は,(1)行動依存と効果,(2)意図と目標,(3)エージェントの他者に対する信念の理解を念頭に設計する。
我々は、我々のベンチマークで最先端のビデオ推論モデルを評価し、複雑なゴール指向のエゴセントリックなビデオを理解する上で、人間の間に大きなギャップがあることを示します。
論文 参考訳(メタデータ) (2022-10-08T05:49:05Z) - Visual Perspective Taking for Opponent Behavior Modeling [22.69165968663182]
ロボットのためのエンドツーエンドの長期視覚予測フレームワークを提案する。
視覚的に隠れて見るという文脈で、我々のアプローチを実証する。
我々は,実世界のマルチエージェント活動に完全に統合できる物理ロボットの能力において,視覚行動モデリングとパースペクティブテイキングスキルが重要な役割を果たすことを示唆する。
論文 参考訳(メタデータ) (2021-05-11T16:02:32Z) - Bongard-LOGO: A New Benchmark for Human-Level Concept Learning and
Reasoning [78.13740873213223]
ボナード問題(BP)は、インテリジェントシステムにおける視覚認知へのインスピレーションとして導入された。
我々は人間レベルの概念学習と推論のための新しいベンチマークBongard-LOGOを提案する。
論文 参考訳(メタデータ) (2020-10-02T03:19:46Z) - Machine Common Sense [77.34726150561087]
機械の常識は、人工知能(AI)において広範で潜在的に無拘束な問題のままである
本稿では、対人インタラクションのようなドメインに焦点を当てたコモンセンス推論のモデル化の側面について論じる。
論文 参考訳(メタデータ) (2020-06-15T13:59:47Z) - Dark, Beyond Deep: A Paradigm Shift to Cognitive AI with Humanlike
Common Sense [142.53911271465344]
我々は、次世代のAIは、新しいタスクを解決するために、人間のような「暗黒」の常識を取り入れなければならないと論じている。
我々は、人間のような常識を持つ認知AIの5つの中核領域として、機能、物理学、意図、因果性、実用性(FPICU)を識別する。
論文 参考訳(メタデータ) (2020-04-20T04:07:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。