論文の概要: RL-CSDia: Representation Learning of Computer Science Diagrams
- arxiv url: http://arxiv.org/abs/2103.05900v1
- Date: Wed, 10 Mar 2021 07:01:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-11 15:07:18.964137
- Title: RL-CSDia: Representation Learning of Computer Science Diagrams
- Title(参考訳): RL-CSDia:コンピュータサイエンス図の表現学習
- Authors: Shaowei Wang, LingLing Zhang, Xuan Luo, Yi Yang, Xin Hu, and Jun Liu
- Abstract要約: コンピュータサイエンスダイアグラム(csdia)という,図形図の新しいデータセットを構築する。
1200以上の図とオブジェクトと関係の完全なアノテーションを含んでいる。
図中の様々な表現に起因する視覚ノイズを考慮して,図形のトポロジーを導入し,位相構造を解析する。
- 参考スコア(独自算出の注目度): 25.66215925641988
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies on computer vision mainly focus on natural images that express
real-world scenes. They achieve outstanding performance on diverse tasks such
as visual question answering. Diagram is a special form of visual expression
that frequently appears in the education field and is of great significance for
learners to understand multimodal knowledge. Current research on diagrams
preliminarily focuses on natural disciplines such as Biology and Geography,
whose expressions are still similar to natural images. Another type of diagrams
such as from Computer Science is composed of graphics containing complex
topologies and relations, and research on this type of diagrams is still blank.
The main challenges of graphic diagrams understanding are the rarity of data
and the confusion of semantics, which are mainly reflected in the diversity of
expressions. In this paper, we construct a novel dataset of graphic diagrams
named Computer Science Diagrams (CSDia). It contains more than 1,200 diagrams
and exhaustive annotations of objects and relations. Considering the visual
noises caused by the various expressions in diagrams, we introduce the topology
of diagrams to parse topological structure. After that, we propose Diagram
Parsing Net (DPN) to represent the diagram from three branches: topology,
visual feature, and text, and apply the model to the diagram classification
task to evaluate the ability of diagrams understanding. The results show the
effectiveness of the proposed DPN on diagrams understanding.
- Abstract(参考訳): 最近のコンピュータビジョンの研究は、主に現実世界のシーンを表現する自然画像に焦点を当てている。
視覚的質問応答など、多様なタスクで優れたパフォーマンスを発揮します。
図は、教育分野で頻繁に現れる視覚表現の特別な形態であり、学習者がマルチモーダル知識を理解するために非常に重要です。
現在のダイアグラムの研究は、生物学や地理学などの自然の分野に焦点を当てており、その表現はまだ自然のイメージに類似している。
コンピュータサイエンスなどの他の図は複雑なトポロジと関係を含むグラフィックで構成されており、この種の図の研究はいまだに空白である。
グラフィックダイアグラムの理解の主な課題は、データの希少性と意味の混乱であり、それは主に表現の多様性に反映されます。
本稿では,コンピュータサイエンス・ダイアグラム(csdia)と呼ばれる新しいグラフィック図のデータセットを構築する。
1200以上の図とオブジェクトと関係の完全なアノテーションを含んでいる。
図中の様々な表現に起因する視覚ノイズを考慮して,図形のトポロジーを導入し,位相構造を解析する。
その後、トポロジー、視覚的特徴、テキストの3つの枝から図を表現するために、図解析ネット(DPN: Diagram Parsing Net)を提案し、図の理解能力を評価するために、図分類タスクにモデルを適用します。
提案されたDPNがダイアグラム理解に及ぼす影響を示した。
関連論文リスト
- Do Vision-Language Models Really Understand Visual Language? [43.893398898373995]
ダイアグラムは、複雑な概念とその関係をイメージとして表現した視覚言語の典型例である。
近年の研究では、LVLM(Large Vision-Language Models)が図を含む複雑な推論タスクに対処できることが示唆されている。
本稿では,LVLMのダイアグラム理解能力を評価するための総合的なテストスイートを開発する。
論文 参考訳(メタデータ) (2024-09-30T19:45:11Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - Graph schemas as abstractions for transfer learning, inference, and
planning [5.565347203528707]
本稿では,伝達学習の抽象化機構としてグラフスキーマを提案する。
海馬の新しい計算モデルとして潜在グラフ学習が登場している。
学習した潜在グラフを事前の知識として扱うことで、新しい環境を素早く学習することができる。
論文 参考訳(メタデータ) (2023-02-14T21:23:22Z) - State of the Art and Potentialities of Graph-level Learning [54.68482109186052]
グラフレベルの学習は、比較、回帰、分類など、多くのタスクに適用されている。
グラフの集合を学習する伝統的なアプローチは、サブストラクチャのような手作りの特徴に依存している。
ディープラーニングは、機能を自動的に抽出し、グラフを低次元表現に符号化することで、グラフレベルの学習をグラフの規模に適応させるのに役立っている。
論文 参考訳(メタデータ) (2023-01-14T09:15:49Z) - Symbolic image detection using scene and knowledge graphs [39.49756199669471]
画像のグラフ表現であるシーングラフを用いて、視覚的コンポーネントをキャプチャする。
本研究では,ConceptNetから抽出した事実を用いて,オブジェクトや属性を推論する知識グラフを生成する。
我々はさらにネットワークを拡張して、グラフの表現の重要性を学習するアテンションメカニズムを利用する。
論文 参考訳(メタデータ) (2022-06-10T04:06:28Z) - SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense
Reasoning [61.57887011165744]
マルチモーダルトランスフォーマーはVisual Commonsense Reasoningのタスクにおいて大きな進歩を遂げた。
視覚的なシーングラフを常識的推論に組み込むためのScene Graph Enhanced Image-Text Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-16T03:16:30Z) - Learning to Represent Image and Text with Denotation Graph [32.417311523031195]
本稿では,画像とテキスト間の暗黙的・視覚的接地表現の集合から学習表現を提案する。
得られた構造的関係を利用して,最先端のマルチモーダル学習モデルをさらに改良できることを示す。
論文 参考訳(メタデータ) (2020-10-06T18:00:58Z) - A Heterogeneous Graph with Factual, Temporal and Logical Knowledge for
Question Answering Over Dynamic Contexts [81.4757750425247]
動的テキスト環境における質問応答について検討する。
構築したグラフ上にグラフニューラルネットワークを構築し,エンドツーエンドでモデルをトレーニングする。
論文 参考訳(メタデータ) (2020-04-25T04:53:54Z) - Graph-Structured Referring Expression Reasoning in The Wild [105.95488002374158]
接地参照表現は、自然言語表現によって参照されるオブジェクトのイメージ中を特定することを目的としている。
本研究では,シーングラフとシーングラフの推論を行うために,シーングラフガイドモジュールネットワーク(SGMN)を提案する。
また,構造化参照式推論のための大規模実世界のデータセットRef-Reasoningを提案する。
論文 参考訳(メタデータ) (2020-04-19T11:00:30Z) - NODIS: Neural Ordinary Differential Scene Understanding [35.37702159888773]
画像中のすべてのオブジェクトを検出するだけでなく、それら間のすべての関係を識別する必要がある。
提案アーキテクチャは、エンドツーエンドの学習によってODEのニューラルバリアントを解くことにより、シーングラフの推論を行う。
Visual Genomeベンチマークでは、シーングラフ生成(SGGen)、分類(SGCls)、視覚的関係検出(PredCls)という3つのベンチマークタスクで最先端の結果が得られている。
論文 参考訳(メタデータ) (2020-01-14T12:17:18Z) - Bridging Knowledge Graphs to Generate Scene Graphs [49.69377653925448]
本稿では,2つのグラフ間の情報伝達を反復的に行う新しいグラフベースニューラルネットワークを提案する。
我々のグラフブリッジネットワークであるGB-Netは、エッジとノードを連続的に推論し、相互接続されたシーンとコモンセンスグラフのリッチでヘテロジニアスな構造を同時に活用し、洗練する。
論文 参考訳(メタデータ) (2020-01-07T23:35:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。