論文の概要: Deep Neural Networks for Visual Reasoning
- arxiv url: http://arxiv.org/abs/2209.11990v1
- Date: Sat, 24 Sep 2022 12:11:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 16:06:42.579849
- Title: Deep Neural Networks for Visual Reasoning
- Title(参考訳): 視覚推論のためのディープニューラルネットワーク
- Authors: Thao Minh Le
- Abstract要約: 機械は視覚的知覚と言語理解を用いて推論する能力を持つことが不可欠である。
近年のディープラーニングの進歩は、視覚シーンと言語の両方の洗練された表現を別々に構築してきた。
この論文は、推論をサポートするニューラルネットワークによる視覚と言語タスクの重要側面の活用と活用方法の理解を深めている。
- 参考スコア(独自算出の注目度): 12.411844611718958
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual perception and language understanding are - fundamental components of
human intelligence, enabling them to understand and reason about objects and
their interactions. It is crucial for machines to have this capacity to reason
using these two modalities to invent new robot-human collaborative systems.
Recent advances in deep learning have built separate sophisticated
representations of both visual scenes and languages. However, understanding the
associations between the two modalities in a shared context for multimodal
reasoning remains a challenge. Focusing on language and vision modalities, this
thesis advances the understanding of how to exploit and use pivotal aspects of
vision-and-language tasks with neural networks to support reasoning. We derive
these understandings from a series of works, making a two-fold contribution:
(i) effective mechanisms for content selection and construction of temporal
relations from dynamic visual scenes in response to a linguistic query and
preparing adequate knowledge for the reasoning process (ii) new frameworks to
perform reasoning with neural networks by exploiting visual-linguistic
associations, deduced either directly from data or guided by external priors.
- Abstract(参考訳): 視覚知覚と言語理解は、人間の知性の基本要素であり、物体とその相互作用について理解し、推論することができる。
ロボットと人間のコラボレーティブシステムを開発するためには、この2つのモダリティを推論する能力を持つことが重要です。
近年のディープラーニングの進歩は、視覚シーンと言語の両方の洗練された表現を構築している。
しかし、マルチモーダル推論の共用文脈における2つのモダリティ間の関連を理解することは依然として困難である。
言語と視覚のモダリティに焦点をあてたこの論文は、推論をサポートするために、ニューラルネットワークを用いた視覚・言語タスクの重要側面の活用と活用方法の理解を深めている。
私たちはこれらの理解を一連の作品から導き、2倍の貢献をする。
(i)言語的問合せに応答し、推論過程に十分な知識を準備する際に、動的視覚シーンからコンテンツ選択と時間関係の構築に有効なメカニズム
(ii)視覚言語関連を利用してニューラルネットワークで推論を行うための新しいフレームワークは、直接データから導かれるか、外部の優先順位によって導かれるかのいずれかである。
関連論文リスト
- From Frege to chatGPT: Compositionality in language, cognition, and deep neural networks [0.0]
我々は、哲学、認知科学、神経科学の幅広い読者のために、機械学習による最近の経験的研究をレビューする。
特に,我々は,合成一般化機能を備えたニューラルネットワークを実現するための2つのアプローチを強調した。
これらの発見が人間の認知における構成性の研究にもたらす意味について論じる。
論文 参考訳(メタデータ) (2024-05-24T02:36:07Z) - SNeL: A Structured Neuro-Symbolic Language for Entity-Based Multimodal
Scene Understanding [0.0]
SNeL(Structured Neuro-symbolic Language, 構造化ニューラルシンボリック言語)は,マルチモーダルデータを処理するニューラルネットワークとのニュアンスな相互作用を容易にする汎用的なクエリ言語である。
SNeLの表現的インターフェースは、複雑なクエリの構築、論理演算と算術演算子、コンパレータ、ネストなどをサポートする。
我々の評価は、SNeLが複雑なニューラルネットワークとの相互作用を形作る可能性を示している。
論文 参考訳(メタデータ) (2023-06-09T17:01:51Z) - Synergistic information supports modality integration and flexible
learning in neural networks solving multiple tasks [107.8565143456161]
本稿では,様々な認知タスクを行う単純な人工ニューラルネットワークが採用する情報処理戦略について検討する。
結果は、ニューラルネットワークが複数の多様なタスクを学習するにつれて、シナジーが増加することを示している。
トレーニング中に無作為にニューロンを停止させると、ネットワークの冗長性が増加し、ロバスト性の増加に対応する。
論文 参考訳(メタデータ) (2022-10-06T15:36:27Z) - Formal Conceptual Views in Neural Networks [0.0]
本稿では,ニューラルネットワークの概念的視点,特に多値・記号的視点の2つの概念を紹介する。
我々は、ImageNetとFruit-360データセットの異なる実験を通して、新しいビューの概念的表現性をテストする。
本研究では,ニューロンからの人間の理解可能なルールの帰納的学習に概念的視点が適用可能であることを実証する。
論文 参考訳(メタデータ) (2022-09-27T16:38:24Z) - Rethinking Explainability as a Dialogue: A Practitioner's Perspective [57.87089539718344]
医師、医療専門家、政策立案者に対して、説明を求めるニーズと欲求について尋ねる。
本研究は, 自然言語対話の形での対話的説明を, 意思決定者が強く好むことを示唆する。
これらのニーズを考慮して、インタラクティブな説明を設計する際に、研究者が従うべき5つの原則を概説する。
論文 参考訳(メタデータ) (2022-02-03T22:17:21Z) - Understanding the computational demands underlying visual reasoning [10.308647202215708]
我々は,現代の深層畳み込みニューラルネットワークによる視覚的推論問題の解法を体系的に評価する。
我々の分析は、視覚的推論タスクの新たな分類につながり、主に、その基礎となるルールを構成するために使用される関係の種類と関係の数によって説明できる。
論文 参考訳(メタデータ) (2021-08-08T10:46:53Z) - Constellation: Learning relational abstractions over objects for
compositional imagination [64.99658940906917]
静的な視覚シーンのリレーショナル抽象化を学習するネットワークであるConstellationを紹介する。
この研究は、視覚的関係を明確に表現し、それらを複雑な認知手続きに使用するための第一歩である。
論文 参考訳(メタデータ) (2021-07-23T11:59:40Z) - Compositional Processing Emerges in Neural Networks Solving Math
Problems [100.80518350845668]
人工知能の最近の進歩は、大きなモデルが十分な言語データに基づいて訓練されると、文法構造が表現に現れることを示している。
我々は、この研究を数学的推論の領域にまで拡張し、どのように意味を構成するべきかについての正確な仮説を定式化することができる。
私たちの研究は、ニューラルネットワークがトレーニングデータに暗黙的に構造化された関係について何かを推測できるだけでなく、個々の意味の合成を合成全体へと導くために、この知識を展開できることを示している。
論文 参考訳(メタデータ) (2021-05-19T07:24:42Z) - Semantics-Aware Inferential Network for Natural Language Understanding [79.70497178043368]
このようなモチベーションを満たすために,セマンティックス対応推論ネットワーク(SAIN)を提案する。
SAINの推論モジュールは、明示的な文脈的セマンティクスを補完的な入力として、セマンティクス上の一連の推論ステップを可能にする。
本モデルでは,機械読解や自然言語推論など11タスクの大幅な改善を実現している。
論文 参考訳(メタデータ) (2020-04-28T07:24:43Z) - Learning Intermediate Features of Object Affordances with a
Convolutional Neural Network [1.52292571922932]
我々は深層畳み込みニューラルネットワーク(CNN)を訓練し、画像から手当を認識し、その基盤となる特徴や手当の寸法を知る。
我々は、この表現分析を、人間がどのように環境を知覚し、どのように相互作用するかを、よりフォーマルに説明するための第一歩であると考えている。
論文 参考訳(メタデータ) (2020-02-20T19:04:40Z) - Vision and Language: from Visual Perception to Content Creation [100.36776435627962]
言語へのビジョン"は、おそらく過去5年で最も人気のあるトピックの1つである。
本稿は、これらの2つの側面に沿った最近の進歩、すなわち「言語へのビジョン」と「視覚への言語」を概観する。
論文 参考訳(メタデータ) (2019-12-26T14:07:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。