論文の概要: Image interpretation by iterative bottom-up top-down processing
- arxiv url: http://arxiv.org/abs/2105.05592v1
- Date: Wed, 12 May 2021 11:10:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-13 12:15:52.833245
- Title: Image interpretation by iterative bottom-up top-down processing
- Title(参考訳): 繰り返しボトムアップトップダウン処理による画像解釈
- Authors: Shimon Ullman, Liav Assif, Alona Strugatski, Ben-Zion Vatashsky, Hila
Levy, Aviv Netanyahu, Adam Yaari
- Abstract要約: 本稿では,映像から有意義なシーン構造を反復的に抽出するモデルについて述べる。
モデルは、3つのコンポーネントの反復的な使用によるシーン表現を構成する。
- 参考スコア(独自算出の注目度): 7.558187412210051
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Scene understanding requires the extraction and representation of scene
components together with their properties and inter-relations. We describe a
model in which meaningful scene structures are extracted from the image by an
iterative process, combining bottom-up (BU) and top-down (TD) networks,
interacting through a symmetric bi-directional communication between them
(counter-streams structure). The model constructs a scene representation by the
iterative use of three components. The first model component is a BU stream
that extracts selected scene elements, properties and relations. The second
component (cognitive augmentation) augments the extracted visual representation
based on relevant non-visual stored representations. It also provides input to
the third component, the TD stream, in the form of a TD instruction,
instructing the model what task to perform next. The TD stream then guides the
BU visual stream to perform the selected task in the next cycle. During this
process, the visual representations extracted from the image can be combined
with relevant non-visual representations, so that the final scene
representation is based on both visual information extracted from the scene and
relevant stored knowledge of the world. We describe how a sequence of
TD-instructions is used to extract from the scene structures of interest,
including an algorithm to automatically select the next TD-instruction in the
sequence. The extraction process is shown to have favorable properties in terms
of combinatorial generalization, generalizing well to novel scene structures
and new combinations of objects, properties and relations not seen during
training. Finally, we compare the model with relevant aspects of the human
vision, and suggest directions for using the BU-TD scheme for integrating
visual and cognitive components in the process of scene understanding.
- Abstract(参考訳): シーン理解には、シーンコンポーネントとそのプロパティと相互関係の抽出と表現が必要である。
本稿では,ボトムアップ (bu) とトップダウン (td) ネットワークを組み合わせた反復プロセスによって,画像から意味のあるシーン構造を抽出するモデルについて述べる。
モデルは、3つのコンポーネントの反復的な使用によってシーン表現を構成する。
最初のモデルコンポーネントは、選択されたシーン要素、プロパティ、リレーションを抽出するBUストリームである。
第2成分(認知増強)は、関連する非視覚的記憶表現に基づいて抽出された視覚的表現を増強する。
また、第3のコンポーネントであるTDストリームへの入力をTD命令の形式で提供し、次に実行するタスクをモデルに指示する。
その後、TDストリームはBUビジュアルストリームをガイドし、選択したタスクを次のサイクルで実行する。
この過程において、画像から抽出された視覚表現と関連する非視覚表現とを組み合わせることで、シーンから抽出された視覚情報と、世界の記憶された知識の両方に基づいて最終シーン表現を行うことができる。
本稿では,次のtd命令を自動的に選択するアルゴリズムを含む,興味のあるシーン構造からtd命令のシーケンスを抽出した方法について述べる。
抽出過程は組合せ一般化の点で有利な性質を有し、新しいシーン構造や訓練中に見られないオブジェクト、プロパティ、関係の新たな組み合わせにうまく一般化する。
最後に、このモデルと人間の視覚の関連する側面を比較し、シーン理解の過程で視覚と認知の要素を統合するためにbu-tdスキームを使用する方向を提案する。
関連論文リスト
- Decomposing and Interpreting Image Representations via Text in ViTs Beyond CLIP [53.18562650350898]
私たちは、CLIP以外のViTにおける様々なコンポーネントの役割を識別できる一般的なフレームワークを紹介します。
また,特定の特徴について重要な要素をランク付けするための新しいスコアリング機能も導入する。
フレームワークをさまざまなViT変種に適用することで、特定の画像機能に関するさまざまなコンポーネントの役割について、洞察を得ることができます。
論文 参考訳(メタデータ) (2024-06-03T17:58:43Z) - Vision-Aware Text Features in Referring Image Segmentation: From Object Understanding to Context Understanding [26.768147543628096]
本稿では,人間の認知プロセスに触発された対象と文脈の理解を強調する新しい枠組みを提案する。
提案手法は,3つのベンチマークデータセットにおいて,大幅な性能向上を実現する。
論文 参考訳(メタデータ) (2024-04-12T16:38:48Z) - VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning [66.23296689828152]
我々は、視覚・言語モデルの機能を活用し、文脈内感情分類を強化する。
第1段階では、VLLMが対象者の明らかな感情の自然言語で記述を生成できるように促すことを提案する。
第2段階では、記述を文脈情報として使用し、画像入力とともに、トランスフォーマーベースのアーキテクチャのトレーニングに使用する。
論文 参考訳(メタデータ) (2024-04-10T15:09:15Z) - Disentangling Structure and Appearance in ViT Feature Space [26.233355454282446]
本稿では,ある自然画像の視覚的外観を別の自然画像に意味的に伝達する手法を提案する。
具体的には、ソース構造画像中のオブジェクトを、ターゲットの外観画像中のそれらの意味的関連オブジェクトの視覚的外観で“ペイント”する画像を生成する。
本研究では,特定の領域から画像のデータセットに基づいて学習したフィードフォワードリアルタイムな外見伝達モデルであるSpliceNetと,一対の構造化画像に対してジェネレータをトレーニングすることで機能するセマンティックな外見伝達の2つのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-20T21:20:15Z) - Continuous Scene Representations for Embodied AI [33.00565252990522]
連続シーン表現 (Continuous Scene Representations, CSR) は、空間内を移動するエンボディエージェントによって構築されたシーン表現である。
私たちの重要な洞察は、オブジェクト間のペアワイズ関係を潜在空間に埋め込むことです。
CSRは、エージェントがシーン内を移動するときにオブジェクトを追跡し、それに従って表現を更新し、部屋の構成の変更を検出する。
論文 参考訳(メタデータ) (2022-03-31T17:55:33Z) - Splicing ViT Features for Semantic Appearance Transfer [10.295754142142686]
本稿では,ある自然画像の視覚的外観を別の自然画像に意味的に伝達する手法を提案する。
具体的には、ソース構造画像中のオブジェクトを、ターゲットの外観画像中のそれらの意味的関連オブジェクトの視覚的外観で“ペイント”する画像を生成する。
論文 参考訳(メタデータ) (2022-01-02T22:00:34Z) - SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense
Reasoning [61.57887011165744]
マルチモーダルトランスフォーマーはVisual Commonsense Reasoningのタスクにおいて大きな進歩を遂げた。
視覚的なシーングラフを常識的推論に組み込むためのScene Graph Enhanced Image-Text Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-16T03:16:30Z) - SIMONe: View-Invariant, Temporally-Abstracted Object Representations via
Unsupervised Video Decomposition [69.90530987240899]
この問題に対して教師なしの変分法を提案する。
我々のモデルは、RGBビデオ入力のみから2組の潜在表現を推論することを学ぶ。
これは、視点に依存しないアロセントリックな方法でオブジェクト属性を表現する。
論文 参考訳(メタデータ) (2021-06-07T17:59:23Z) - Locate then Segment: A Strong Pipeline for Referring Image Segmentation [73.19139431806853]
参照画像セグメンテーションは、自然言語表現によって参照されるオブジェクトをセグメンテーションすることを目的とする。
従来の方法は、視覚言語機能を融合させ、最終的なセグメンテーションマスクを直接生成するための暗黙的および反復的な相互作用メカニズムの設計に焦点を当てています。
これらの問題に取り組むための「Then-Then-Segment」スキームを紹介します。
私たちのフレームワークはシンプルですが驚くほど効果的です。
論文 参考訳(メタデータ) (2021-03-30T12:25:27Z) - Dense Relational Image Captioning via Multi-task Triple-Stream Networks [95.0476489266988]
視覚的な場面におけるオブジェクト間の情報に関して,キャプションを生成することを目的とした新しいタスクである。
このフレームワークは、多様性と情報の量の両方において有利であり、包括的なイメージ理解につながる。
論文 参考訳(メタデータ) (2020-10-08T09:17:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。