論文の概要: Analyzing the Roles of Language and Vision in Learning from Limited Data
- arxiv url: http://arxiv.org/abs/2403.19669v2
- Date: Fri, 10 May 2024 17:33:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-13 18:05:28.260031
- Title: Analyzing the Roles of Language and Vision in Learning from Limited Data
- Title(参考訳): 限られたデータからの学習における言語と視覚の役割の分析
- Authors: Allison Chen, Ilia Sucholutsky, Olga Russakovsky, Thomas L. Griffiths,
- Abstract要約: 我々は、言語とビジョンが世界について学ぶために与える貢献について研究する。
すべてのコンポーネントを活用する言語モデルがビジョンランゲージモデルの性能の大部分を回復することがわかった。
- 参考スコア(独自算出の注目度): 31.895396236504993
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Does language help make sense of the visual world? How important is it to actually see the world rather than having it described with words? These basic questions about the nature of intelligence have been difficult to answer because we only had one example of an intelligent system -- humans -- and limited access to cases that isolated language or vision. However, the development of sophisticated Vision-Language Models (VLMs) by artificial intelligence researchers offers us new opportunities to explore the contributions that language and vision make to learning about the world. We ablate components from the cognitive architecture of these models to identify their contributions to learning new tasks from limited data. We find that a language model leveraging all components recovers a majority of a VLM's performance, despite its lack of visual input, and that language seems to allow this by providing access to prior knowledge and reasoning.
- Abstract(参考訳): 言語は視覚世界を理解するのに役立つか?
言葉で表現するのではなく、実際に世界を見ることがどれほど重要か?
インテリジェンスの性質に関するこれらの基本的な質問は、人間という知的なシステムの1つの例と、孤立した言語やビジョンを持つケースへの限定的なアクセスしかなかったため、答えが難しい。
しかし、人工知能研究者による高度な視覚言語モデル(VLM)の開発は、言語とビジョンが世界について学ぶための貢献を探求する新たな機会を与えてくれる。
これらのモデルの認知アーキテクチャからコンポーネントを吸収し、限られたデータから新しいタスクを学ぶことへの貢献を特定する。
視覚的入力の欠如にもかかわらず、全てのコンポーネントを活用する言語モデルがVLMの性能の大部分を回復し、その言語は、事前の知識と推論へのアクセスを提供することで、これを許容しているように思われる。
関連論文リスト
- Is A Picture Worth A Thousand Words? Delving Into Spatial Reasoning for Vision Language Models [26.839159541015597]
空間的推論の様々な側面をカバーする新しいベンチマークを開発する。
文献で見過ごされてきたいくつかの反直感的な洞察が明らかとなった。
我々は,空間知性を改善するためのマルチモーダルモデルの開発について報告する。
論文 参考訳(メタデータ) (2024-06-21T03:53:37Z) - Vision-Language Navigation with Embodied Intelligence: A Survey [19.049590467248255]
視覚言語ナビゲーション(VLN)は、インテリジェンスを実現するための重要な研究経路である。
VLNは人工知能、自然言語処理、コンピュータビジョン、ロボット工学を統合している。
本調査は,VLN研究の進捗を体系的にレビューし,VLN研究の方向性を具体的知性で詳述する。
論文 参考訳(メタデータ) (2024-02-22T05:45:17Z) - Learning to Model the World with Language [100.76069091703505]
人間と対話し、世界で行動するためには、エージェントは人々が使用する言語の範囲を理解し、それを視覚の世界に関連付ける必要がある。
私たちのキーとなるアイデアは、エージェントが将来を予測するのに役立つ信号として、このような多様な言語を解釈すべきである、ということです。
我々は、将来のテキストや画像表現を予測するマルチモーダル世界モデルを学ぶエージェントであるDynalangでこれをインスタンス化する。
論文 参考訳(メタデータ) (2023-07-31T17:57:49Z) - Brain in a Vat: On Missing Pieces Towards Artificial General
Intelligence in Large Language Models [83.63242931107638]
本稿では,知的エージェントの4つの特徴について述べる。
実世界の物体との活発な関わりは、概念的表現を形成するためのより堅牢な信号をもたらすと我々は主張する。
我々は、人工知能分野における将来的な研究の方向性を概説して結論付ける。
論文 参考訳(メタデータ) (2023-07-07T13:58:16Z) - Vision-Language Models in Remote Sensing: Current Progress and Future Trends [25.017685538386548]
視覚言語モデルは、画像とその関連するテキスト記述の推論を可能にし、基礎となるセマンティクスのより深い理解を可能にする。
視覚言語モデルは、RS画像の視覚的認識を超えて、意味的関係をモデル化し、画像の自然言語記述を生成することができる。
本稿では,リモートセンシングにおける視覚言語モデルの研究を包括的にレビューする。
論文 参考訳(メタデータ) (2023-05-09T19:17:07Z) - Language-Driven Representation Learning for Robotics [115.93273609767145]
ロボット工学における視覚表現学習の最近の研究は、日々の作業を行う人間の大規模なビデオデータセットから学ぶことの可能性を実証している。
人間のビデオやキャプションから言語による表現学習を行うためのフレームワークを提案する。
我々は、Voltronの言語駆動学習が、特に高レベル制御を必要とするターゲット問題において、先行技術よりも優れていることを発見した。
論文 参考訳(メタデータ) (2023-02-24T17:29:31Z) - Imagination-Augmented Natural Language Understanding [71.51687221130925]
自然言語理解タスクを解決するために,Imagination-Augmented Cross-modal (iACE)を導入する。
iACEは、強力な生成的および事前訓練された視覚・言語モデルから変換された外部知識で視覚的な想像を可能にする。
GLUEとSWAGの実験は、iACEが視覚的に教師付き事前訓練されたモデルよりも一貫した改善を達成していることを示している。
論文 参考訳(メタデータ) (2022-04-18T19:39:36Z) - VidLanKD: Improving Language Understanding via Video-Distilled Knowledge
Transfer [76.3906723777229]
言語理解を改善するためのビデオ言語知識蒸留法VidLanKDを提案する。
我々は、ビデオテキストデータセット上でマルチモーダル教師モデルを訓練し、その知識をテキストデータセットを用いて学生言語モデルに伝達する。
我々の実験では、VidLanKDはテキストのみの言語モデルや発声モデルよりも一貫した改善を実現している。
論文 参考訳(メタデータ) (2021-07-06T15:41:32Z) - Vision and Language: from Visual Perception to Content Creation [100.36776435627962]
言語へのビジョン"は、おそらく過去5年で最も人気のあるトピックの1つである。
本稿は、これらの2つの側面に沿った最近の進歩、すなわち「言語へのビジョン」と「視覚への言語」を概観する。
論文 参考訳(メタデータ) (2019-12-26T14:07:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。