論文の概要: HindSight: A Graph-Based Vision Model Architecture For Representing
Part-Whole Hierarchies
- arxiv url: http://arxiv.org/abs/2104.03722v1
- Date: Thu, 8 Apr 2021 12:17:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-09 20:33:12.729785
- Title: HindSight: A Graph-Based Vision Model Architecture For Representing
Part-Whole Hierarchies
- Title(参考訳): HindSight: 部分ホール階層を表現するグラフベースの視覚モデルアーキテクチャ
- Authors: Muhammad AbdurRafae
- Abstract要約: 本稿では,画像中の部分全体階層の表現をグラフ形式で符号化するモデルアーキテクチャを提案する。
イメージを異なるレベルのパッチに分割し、すべてのパッチを完全に接続されたグラフのノードとして扱うというアイデアです。
動的特徴抽出モジュールは、各グラフイテレーションでこれらのパッチから特徴表現を抽出するために使用される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a model architecture for encoding the representations of
part-whole hierarchies in images in form of a graph. The idea is to divide the
image into patches of different levels and then treat all of these patches as
nodes for a fully connected graph. A dynamic feature extraction module is used
to extract feature representations from these patches in each graph iteration.
This enables us to learn a rich graph representation of the image that
encompasses the inherent part-whole hierarchical information. Utilizing proper
self-supervised training techniques, such a model can be trained as a general
purpose vision encoder model which can then be used for various vision related
downstream tasks (e.g., Image Classification, Object Detection, Image
Captioning, etc.).
- Abstract(参考訳): 本稿では,画像中の部分全体階層の表現をグラフ形式で符号化するモデルアーキテクチャを提案する。
イメージを異なるレベルのパッチに分割して、これらすべてのパッチを、完全に接続されたグラフのノードとして扱うことが目的だ。
動的特徴抽出モジュールは、各グラフイテレーションでこれらのパッチから特徴表現を抽出するために使用される。
これにより、固有の階層的な情報を包含する画像のリッチなグラフ表現を学べる。
適切な自己監督型トレーニング技術を利用することで、そのようなモデルを汎用視覚エンコーダモデルとしてトレーニングし、下流の様々な視覚関連タスク(画像分類、オブジェクト検出、画像キャプチャなど)に使用することができる。
).
関連論文リスト
- Isomorphic-Consistent Variational Graph Auto-Encoders for Multi-Level
Graph Representation Learning [9.039193854524763]
本稿では,タスク非依存グラフ表現学習のためのアイソモルフィック-一貫性VGAE(IsoC-VGAE)を提案する。
まず、同型整合性を維持する理論的保証を提供するための復号法を考案する。
次に,逆グラフニューラルネットワーク(Inv-GNN)デコーダを直感的な実現法として提案する。
論文 参考訳(メタデータ) (2023-12-09T10:16:53Z) - Sequential Modeling Enables Scalable Learning for Large Vision Models [120.91839619284431]
本稿では,言語データを用いずにLVM(Large Vision Model)を学習できる新しい逐次モデリング手法を提案する。
我々は、生画像やビデオや注釈付きデータソースを表現できる共通フォーマット「視覚文」を定義した。
論文 参考訳(メタデータ) (2023-12-01T18:59:57Z) - Graph-based Neural Modules to Inspect Attention-based Architectures: A
Position Paper [0.0]
encoder-decoderモデルは、モデルウェイトに暗黙的に表される知識の人間による可視化と編集のためのエキサイティングな機会を提供する。
本研究では,ネットワークセグメントを双方向グラフベース表現として抽象化する方法を探究する。
このような双方向グラフ表現は、エンコーダデコーダのパターン認識機能と、グラフ上で実行されるシンボリック推論を活用することにより、新しいニューロシンボリックシステムを実現する。
論文 参考訳(メタデータ) (2022-10-13T15:52:12Z) - Vision GNN: An Image is Worth Graph of Nodes [49.3335689216822]
本稿では,画像をグラフ構造として表現し,視覚タスクのためのグラフレベルの特徴を抽出するビジョンGNN(ViG)アーキテクチャを提案する。
画像のグラフ表現に基づいて、すべてのノード間で情報を変換、交換するViGモデルを構築します。
画像認識および物体検出タスクに関する大規模な実験は、我々のViGアーキテクチャの優位性を実証している。
論文 参考訳(メタデータ) (2022-06-01T07:01:04Z) - Learning Hierarchical Graph Representation for Image Manipulation
Detection [50.04902159383709]
画像操作検出の目的は、画像内の操作された領域を特定し、特定することである。
最近のアプローチでは、画像に残っている改ざんするアーティファクトをキャプチャするために、洗練された畳み込みニューラルネットワーク(CNN)が採用されている。
本稿では2つの並列分岐からなる階層型グラフ畳み込みネットワーク(HGCN-Net)を提案する。
論文 参考訳(メタデータ) (2022-01-15T01:54:25Z) - Graph Representation Learning for Spatial Image Steganalysis [11.358487655918678]
空間画像ステガナリシスのためのグラフ表現学習アーキテクチャを提案する。
詳細なアーキテクチャでは、各画像をグラフに変換し、ノードは画像のパッチを表し、エッジはパッチ間の局所的な関連を示す。
注意ネットワークにグラフを供給することにより、効率的なステガナリシスのための識別的特徴を学習することができる。
論文 参考訳(メタデータ) (2021-10-03T09:09:08Z) - Font Completion and Manipulation by Cycling Between Multi-Modality
Representations [113.26243126754704]
中間表現としてグラフを用いた2次元グラフィックオブジェクトとしてフォントグリフの生成を探求する。
我々は、画像エンコーダと画像の間のグラフで、モダリティサイクルのイメージ・ツー・イメージ構造を定式化する。
本モデルでは,画像から画像までのベースラインと,それ以前のグリフ補完手法よりも改善された結果を生成する。
論文 参考訳(メタデータ) (2021-08-30T02:43:29Z) - A Deep Local and Global Scene-Graph Matching for Image-Text Retrieval [4.159666152160874]
シーングラフの提示は画像テキストマッチングの課題に適した方法である。
本稿では,最先端の手法を強化するローカル・グローバル・シーングラフマッチング(LGSGM)モデルを提案する。
Flickr30kデータセットのリコールを10%以上増やすことで,レベルの組み合わせによる改善により,ベースライン手法の性能を向上させることができる。
論文 参考訳(メタデータ) (2021-06-04T10:33:14Z) - Multi-Modal Retrieval using Graph Neural Networks [1.8911962184174562]
我々は、同じ高次元空間に埋め込まれた共同ビジョンと概念を学ぶ。
視覚と概念の関係をグラフ構造としてモデル化する。
また、選択的近傍接続に基づく新しい推論時間制御も導入する。
論文 参考訳(メタデータ) (2020-10-04T19:34:20Z) - SumGraph: Video Summarization via Recursive Graph Modeling [59.01856443537622]
本稿では、関係グラフを表すために、SumGraphと呼ばれるビデオ要約のためのグラフモデリングネットワークを提案する。
教師なしと教師なしの両方の方法で、映像要約のためのいくつかのベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-07-17T08:11:30Z) - Bridging Knowledge Graphs to Generate Scene Graphs [49.69377653925448]
本稿では,2つのグラフ間の情報伝達を反復的に行う新しいグラフベースニューラルネットワークを提案する。
我々のグラフブリッジネットワークであるGB-Netは、エッジとノードを連続的に推論し、相互接続されたシーンとコモンセンスグラフのリッチでヘテロジニアスな構造を同時に活用し、洗練する。
論文 参考訳(メタデータ) (2020-01-07T23:35:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。