論文の概要: Image interpretation by iterative bottom-up top-down processing
- arxiv url: http://arxiv.org/abs/2105.05592v1
- Date: Wed, 12 May 2021 11:10:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-13 12:15:52.833245
- Title: Image interpretation by iterative bottom-up top-down processing
- Title(参考訳): 繰り返しボトムアップトップダウン処理による画像解釈
- Authors: Shimon Ullman, Liav Assif, Alona Strugatski, Ben-Zion Vatashsky, Hila
Levy, Aviv Netanyahu, Adam Yaari
- Abstract要約: 本稿では,映像から有意義なシーン構造を反復的に抽出するモデルについて述べる。
モデルは、3つのコンポーネントの反復的な使用によるシーン表現を構成する。
- 参考スコア(独自算出の注目度): 7.558187412210051
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Scene understanding requires the extraction and representation of scene
components together with their properties and inter-relations. We describe a
model in which meaningful scene structures are extracted from the image by an
iterative process, combining bottom-up (BU) and top-down (TD) networks,
interacting through a symmetric bi-directional communication between them
(counter-streams structure). The model constructs a scene representation by the
iterative use of three components. The first model component is a BU stream
that extracts selected scene elements, properties and relations. The second
component (cognitive augmentation) augments the extracted visual representation
based on relevant non-visual stored representations. It also provides input to
the third component, the TD stream, in the form of a TD instruction,
instructing the model what task to perform next. The TD stream then guides the
BU visual stream to perform the selected task in the next cycle. During this
process, the visual representations extracted from the image can be combined
with relevant non-visual representations, so that the final scene
representation is based on both visual information extracted from the scene and
relevant stored knowledge of the world. We describe how a sequence of
TD-instructions is used to extract from the scene structures of interest,
including an algorithm to automatically select the next TD-instruction in the
sequence. The extraction process is shown to have favorable properties in terms
of combinatorial generalization, generalizing well to novel scene structures
and new combinations of objects, properties and relations not seen during
training. Finally, we compare the model with relevant aspects of the human
vision, and suggest directions for using the BU-TD scheme for integrating
visual and cognitive components in the process of scene understanding.
- Abstract(参考訳): シーン理解には、シーンコンポーネントとそのプロパティと相互関係の抽出と表現が必要である。
本稿では,ボトムアップ (bu) とトップダウン (td) ネットワークを組み合わせた反復プロセスによって,画像から意味のあるシーン構造を抽出するモデルについて述べる。
モデルは、3つのコンポーネントの反復的な使用によってシーン表現を構成する。
最初のモデルコンポーネントは、選択されたシーン要素、プロパティ、リレーションを抽出するBUストリームである。
第2成分(認知増強)は、関連する非視覚的記憶表現に基づいて抽出された視覚的表現を増強する。
また、第3のコンポーネントであるTDストリームへの入力をTD命令の形式で提供し、次に実行するタスクをモデルに指示する。
その後、TDストリームはBUビジュアルストリームをガイドし、選択したタスクを次のサイクルで実行する。
この過程において、画像から抽出された視覚表現と関連する非視覚表現とを組み合わせることで、シーンから抽出された視覚情報と、世界の記憶された知識の両方に基づいて最終シーン表現を行うことができる。
本稿では,次のtd命令を自動的に選択するアルゴリズムを含む,興味のあるシーン構造からtd命令のシーケンスを抽出した方法について述べる。
抽出過程は組合せ一般化の点で有利な性質を有し、新しいシーン構造や訓練中に見られないオブジェクト、プロパティ、関係の新たな組み合わせにうまく一般化する。
最後に、このモデルと人間の視覚の関連する側面を比較し、シーン理解の過程で視覚と認知の要素を統合するためにbu-tdスキームを使用する方向を提案する。
関連論文リスト
- Disentangling Structure and Appearance in ViT Feature Space [26.233355454282446]
本稿では,ある自然画像の視覚的外観を別の自然画像に意味的に伝達する手法を提案する。
具体的には、ソース構造画像中のオブジェクトを、ターゲットの外観画像中のそれらの意味的関連オブジェクトの視覚的外観で“ペイント”する画像を生成する。
本研究では,特定の領域から画像のデータセットに基づいて学習したフィードフォワードリアルタイムな外見伝達モデルであるSpliceNetと,一対の構造化画像に対してジェネレータをトレーニングすることで機能するセマンティックな外見伝達の2つのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-20T21:20:15Z) - Visual Semantic Parsing: From Images to Abstract Meaning Representation [20.60579156219413]
自然言語処理の分野で広く使われている意味表現である抽象的意味表現(AMR)を活用することを提案する。
我々の視覚的AMRグラフは、視覚入力から外挿された高レベルな意味概念に焦点をあてて、言語的により理解されている。
本研究は,シーン理解の改善に向けた今後の重要な研究方向を示唆するものである。
論文 参考訳(メタデータ) (2022-10-26T17:06:42Z) - Good Visual Guidance Makes A Better Extractor: Hierarchical Visual
Prefix for Multimodal Entity and Relation Extraction [88.6585431949086]
本稿では,視覚的な実体と関係抽出のための階層型ビジュアルプレフィックス融合NeTwork(HVPNeT)を提案する。
視覚的表現をプラグ可能な視覚的接頭辞とみなして, 誤りに敏感な予測決定のためのテキスト的表現を導出する。
3つのベンチマークデータセットの実験により,本手法の有効性が実証され,最先端の性能が得られた。
論文 参考訳(メタデータ) (2022-05-07T02:10:55Z) - Continuous Scene Representations for Embodied AI [33.00565252990522]
連続シーン表現 (Continuous Scene Representations, CSR) は、空間内を移動するエンボディエージェントによって構築されたシーン表現である。
私たちの重要な洞察は、オブジェクト間のペアワイズ関係を潜在空間に埋め込むことです。
CSRは、エージェントがシーン内を移動するときにオブジェクトを追跡し、それに従って表現を更新し、部屋の構成の変更を検出する。
論文 参考訳(メタデータ) (2022-03-31T17:55:33Z) - Splicing ViT Features for Semantic Appearance Transfer [10.295754142142686]
本稿では,ある自然画像の視覚的外観を別の自然画像に意味的に伝達する手法を提案する。
具体的には、ソース構造画像中のオブジェクトを、ターゲットの外観画像中のそれらの意味的関連オブジェクトの視覚的外観で“ペイント”する画像を生成する。
論文 参考訳(メタデータ) (2022-01-02T22:00:34Z) - SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense
Reasoning [61.57887011165744]
マルチモーダルトランスフォーマーはVisual Commonsense Reasoningのタスクにおいて大きな進歩を遂げた。
視覚的なシーングラフを常識的推論に組み込むためのScene Graph Enhanced Image-Text Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-16T03:16:30Z) - Integrating Visuospatial, Linguistic and Commonsense Structure into
Story Visualization [81.26077816854449]
まず、構造的入力を符号化するための選挙区解析木の利用について検討する。
第二に、構造化されたインプットをコモンセンス情報で強化し、この外部知識が視覚的ストーリーの生成に与える影響について検討する。
第3に、境界ボックスと高密度キャプションによって視覚構造を組み込んで、生成された画像の文字やオブジェクトに関するフィードバックを提供する。
論文 参考訳(メタデータ) (2021-10-21T00:16:02Z) - SIMONe: View-Invariant, Temporally-Abstracted Object Representations via
Unsupervised Video Decomposition [69.90530987240899]
この問題に対して教師なしの変分法を提案する。
我々のモデルは、RGBビデオ入力のみから2組の潜在表現を推論することを学ぶ。
これは、視点に依存しないアロセントリックな方法でオブジェクト属性を表現する。
論文 参考訳(メタデータ) (2021-06-07T17:59:23Z) - Locate then Segment: A Strong Pipeline for Referring Image Segmentation [73.19139431806853]
参照画像セグメンテーションは、自然言語表現によって参照されるオブジェクトをセグメンテーションすることを目的とする。
従来の方法は、視覚言語機能を融合させ、最終的なセグメンテーションマスクを直接生成するための暗黙的および反復的な相互作用メカニズムの設計に焦点を当てています。
これらの問題に取り組むための「Then-Then-Segment」スキームを紹介します。
私たちのフレームワークはシンプルですが驚くほど効果的です。
論文 参考訳(メタデータ) (2021-03-30T12:25:27Z) - Dense Relational Image Captioning via Multi-task Triple-Stream Networks [95.0476489266988]
視覚的な場面におけるオブジェクト間の情報に関して,キャプションを生成することを目的とした新しいタスクである。
このフレームワークは、多様性と情報の量の両方において有利であり、包括的なイメージ理解につながる。
論文 参考訳(メタデータ) (2020-10-08T09:17:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。