論文の概要: CLEVR Parser: A Graph Parser Library for Geometric Learning on Language
Grounded Image Scenes
- arxiv url: http://arxiv.org/abs/2009.09154v2
- Date: Thu, 1 Oct 2020 22:56:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-16 21:20:44.874707
- Title: CLEVR Parser: A Graph Parser Library for Geometric Learning on Language
Grounded Image Scenes
- Title(参考訳): CLEVR Parser: 言語接地画像シーンの幾何学的学習のためのグラフパーザライブラリ
- Authors: Raeid Saqur and Ameet Deshpande
- Abstract要約: CLEVRデータセットは、機械学習(ML)と自然言語処理(NLP)ドメインにおいて、言語基盤の視覚的推論で広く使用されている。
本稿では,CLEVR用のグラフライブラリについて述べる。オブジェクト中心属性と関係抽出の機能を提供し,デュアルモーダル性のための構造グラフ表現の構築を行う。
図書館の下流利用と応用について論じるとともに,NLP研究コミュニティにおける研究の促進について論じる。
- 参考スコア(独自算出の注目度): 2.750124853532831
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The CLEVR dataset has been used extensively in language grounded visual
reasoning in Machine Learning (ML) and Natural Language Processing (NLP)
domains. We present a graph parser library for CLEVR, that provides
functionalities for object-centric attributes and relationships extraction, and
construction of structural graph representations for dual modalities.
Structural order-invariant representations enable geometric learning and can
aid in downstream tasks like language grounding to vision, robotics,
compositionality, interpretability, and computational grammar construction. We
provide three extensible main components - parser, embedder, and visualizer
that can be tailored to suit specific learning setups. We also provide
out-of-the-box functionality for seamless integration with popular deep graph
neural network (GNN) libraries. Additionally, we discuss downstream usage and
applications of the library, and how it accelerates research for the NLP
research community.
- Abstract(参考訳): CLEVRデータセットは、機械学習(ML)と自然言語処理(NLP)ドメインにおいて、言語基盤の視覚的推論で広く使用されている。
本稿では,オブジェクト中心属性と関係抽出のための機能を提供し,双対モダリティのための構造グラフ表現を構築するclevrのためのグラフパーサライブラリを提案する。
構造的順序不変表現は幾何学的学習を可能にし、視覚、ロボット工学、構成性、解釈可能性、計算文法構築などの下流タスクを支援する。
私たちは3つの拡張可能なメインコンポーネント – パーサ,埋め込み,ビジュアライザ – を提供しています。
また、人気のあるディープグラフニューラルネットワーク(GNN)ライブラリとシームレスに統合するためのアウトオブボックス機能も提供しています。
さらに,図書館の下流利用と応用,NLP研究コミュニティにおける研究の促進について論じる。
関連論文リスト
- Language is All a Graph Needs [33.9836278881785]
InstructGLM (Instruction-finetuned Graph Language Model) を提案する。
我々の手法は、ogbn-arxiv, Cora, PubMedデータセット上のすべてのGNNベースラインを超える。
論文 参考訳(メタデータ) (2023-08-14T13:41:09Z) - LAVIS: A Library for Language-Vision Intelligence [98.88477610704938]
LAVISは、LAnguage-VISionの研究と応用のためのオープンソースライブラリである。
最先端の画像言語、ビデオ言語モデル、一般的なデータセットに容易にアクセスできる統一インターフェースを備えている。
論文 参考訳(メタデータ) (2022-09-15T18:04:10Z) - Video-Text Pre-training with Learned Regions [59.30893505895156]
Video-Textプレトレーニングは、大規模なビデオテキストペアから転送可能な表現を学ぶことを目的としている。
本研究では,大規模ビデオテキストペアの事前学習において,対象物の構造を考慮に入れたビデオテキスト学習用モジュール「RereaLearner」を提案する。
論文 参考訳(メタデータ) (2021-12-02T13:06:53Z) - DomiKnowS: A Library for Integration of Symbolic Domain Knowledge in
Deep Learning [12.122347427933637]
ディープラーニングアーキテクチャにおけるドメイン知識の統合のためのライブラリを実演する。
このライブラリを使用すると、データの構造はグラフ宣言によって象徴的に表現される。
ドメイン知識は明確に定義することができ、モデルの説明可能性を改善する。
論文 参考訳(メタデータ) (2021-08-27T16:06:42Z) - Leveraging Language to Learn Program Abstractions and Search Heuristics [66.28391181268645]
LAPS(Language for Abstraction and Program Search)は、自然言語アノテーションを用いて、ライブラリとニューラルネットワークによる合成のための検索モデルの共同学習をガイドする手法である。
最先端のライブラリ学習システム(DreamCoder)に統合されると、LAPSは高品質なライブラリを生成し、検索効率と一般化を改善する。
論文 参考訳(メタデータ) (2021-06-18T15:08:47Z) - Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文 参考訳(メタデータ) (2020-11-18T20:21:19Z) - Captum: A unified and generic model interpretability library for PyTorch [49.72749684393332]
我々は,PyTorch用の新しい,統一されたオープンソースモデル解釈可能性ライブラリを紹介する。
このライブラリには、多くの勾配と摂動に基づく属性アルゴリズムの汎用的な実装が含まれている。
分類モデルと非分類モデルの両方に使用できる。
論文 参考訳(メタデータ) (2020-09-16T18:57:57Z) - Object Relational Graph with Teacher-Recommended Learning for Video
Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。
具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。
一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文 参考訳(メタデータ) (2020-02-26T15:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。