論文の概要: VisionKG: Unleashing the Power of Visual Datasets via Knowledge Graph
- arxiv url: http://arxiv.org/abs/2309.13610v2
- Date: Thu, 28 Mar 2024 15:52:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-29 21:43:17.480139
- Title: VisionKG: Unleashing the Power of Visual Datasets via Knowledge Graph
- Title(参考訳): VisionKG:知識グラフによるビジュアルデータセットのパワーの解放
- Authors: Jicheng Yuan, Anh Le-Tuan, Manh Nguyen-Duc, Trung-Kien Tran, Manfred Hauswirth, Danh Le-Phuoc,
- Abstract要約: Vision Knowledge Graph (VisionKG)は、知識グラフとセマンティックWeb技術を介して視覚データセットを相互にリンクし、整理し、管理する新しいリソースである。
VisionKGには現在5億1900万のRDFトリプルがあり、約4000万のエンティティを記述している。
- 参考スコア(独自算出の注目度): 2.3143591448419074
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The availability of vast amounts of visual data with heterogeneous features is a key factor for developing, testing, and benchmarking of new computer vision (CV) algorithms and architectures. Most visual datasets are created and curated for specific tasks or with limited image data distribution for very specific situations, and there is no unified approach to manage and access them across diverse sources, tasks, and taxonomies. This not only creates unnecessary overheads when building robust visual recognition systems, but also introduces biases into learning systems and limits the capabilities of data-centric AI. To address these problems, we propose the Vision Knowledge Graph (VisionKG), a novel resource that interlinks, organizes and manages visual datasets via knowledge graphs and Semantic Web technologies. It can serve as a unified framework facilitating simple access and querying of state-of-the-art visual datasets, regardless of their heterogeneous formats and taxonomies. One of the key differences between our approach and existing methods is that ours is knowledge-based rather than metadatabased. It enhances the enrichment of the semantics at both image and instance levels and offers various data retrieval and exploratory services via SPARQL. VisionKG currently contains 519 million RDF triples that describe approximately 40 million entities, and are accessible at https://vision.semkg.org and through APIs. With the integration of 30 datasets and four popular CV tasks, we demonstrate its usefulness across various scenarios when working with CV pipelines.
- Abstract(参考訳): 不均一な特徴を持つ膨大なビジュアルデータの可用性は、新しいコンピュータビジョン(CV)アルゴリズムとアーキテクチャの開発、テスト、ベンチマークにおいて重要な要素である。
ほとんどのビジュアルデータセットは、特定のタスクのために、あるいは非常に特定の状況のために限られた画像データ分布で作成、キュレーションされ、様々なソース、タスク、分類学にまたがってそれらを管理、アクセスするための統一されたアプローチは存在しない。
これにより、堅牢な視覚認識システムを構築する際に不要なオーバーヘッドが発生するだけでなく、学習システムにバイアスを導入し、データ中心AIの能力を制限します。
これらの問題に対処するために、知識グラフとセマンティックWeb技術を介して視覚データセットをインターリンクし、整理し、管理する新しいリソースVisionKG(VisionKG)を提案する。
異質なフォーマットや分類によらず、最先端のビジュアルデータセットの単純なアクセスとクエリを容易にする統一されたフレームワークとして機能する。
アプローチと既存のメソッドの主な違いの1つは、メタデータベースではなく知識ベースであることです。
これは、イメージレベルとインスタンスレベルのセマンティクスの強化を強化し、SPARQLを介してさまざまなデータ検索と探索サービスを提供する。
VisionKGには519万のRDFトリプルがあり、約4000万のエンティティを記述しており、https://vision.semkg.orgおよびAPIを通じてアクセス可能である。
30のデータセットと4つの一般的なCVタスクを統合することで、CVパイプラインで作業する場合に、さまざまなシナリオでその有用性を示すことができる。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - AGENTiGraph: An Interactive Knowledge Graph Platform for LLM-based Chatbots Utilizing Private Data [14.328402787379538]
本稿では,自然言語インタラクションによる知識管理プラットフォームである AgentiGraph (タスクベースインタラクションとグラフィカル表現のための適応生成ENgine) を紹介する。
AgentiGraphはマルチエージェントアーキテクチャを使用して、ユーザの意図を動的に解釈し、タスクを管理し、新しい知識を統合する。
3,500のテストケースのデータセットの実験結果から、AgentiGraphは最先端のゼロショットベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2024-10-15T12:05:58Z) - Recognizing Unseen Objects via Multimodal Intensive Knowledge Graph
Propagation [68.13453771001522]
画像の領域と対応するセマンティック埋め込みとをマッチングする多モード集中型ZSLフレームワークを提案する。
我々は、大規模な実世界のデータに基づいて、広範囲な実験を行い、そのモデルを評価する。
論文 参考訳(メタデータ) (2023-06-14T13:07:48Z) - A large scale multi-view RGBD visual affordance learning dataset [4.3773754388936625]
大規模マルチビューRGBDビジュアルアプライアンス学習データセットを提案する。
これは、初めてかつ最大のマルチビューRGBDビジュアルアプライアンス学習データセットである。
いくつかの最先端のディープラーニングネットワークを,それぞれが可視性認識とセグメンテーションタスクのために評価する。
論文 参考訳(メタデータ) (2022-03-26T14:31:35Z) - X-Learner: Learning Cross Sources and Tasks for Universal Visual
Representation [71.51719469058666]
本稿では,X-Learnerという表現学習フレームワークを提案する。
X-Learnerは、様々なソースによって管理される複数の視覚タスクの普遍的な特徴を学習する。
X-Learnerは、追加のアノテーションやモダリティ、計算コストを使わずに、様々なタスクで強力なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-03-16T17:23:26Z) - One-shot Scene Graph Generation [130.57405850346836]
ワンショットシーングラフ生成タスクに対して,複数の構造化知識(関係知識知識)を提案する。
提案手法は既存の最先端手法よりも大きなマージンで優れる。
論文 参考訳(メタデータ) (2022-02-22T11:32:59Z) - A Survey on Visual Transfer Learning using Knowledge Graphs [0.8701566919381223]
本調査は知識グラフ(KG)を用いた視覚伝達学習手法に焦点を当てる。
KGは、基礎となるグラフ構造化スキーマやベクトルベースの知識グラフの埋め込みにおいて補助的な知識を表現することができる。
本稿では,知識グラフの埋め込み手法の概要を概説し,それらを高次元の視覚的埋め込みと組み合わせた共同学習の目的について述べる。
論文 参考訳(メタデータ) (2022-01-27T20:19:55Z) - Campus3D: A Photogrammetry Point Cloud Benchmark for Hierarchical
Understanding of Outdoor Scene [76.4183572058063]
複数の屋外シーン理解タスクに対して,リッチな注釈付き3Dポイントクラウドデータセットを提案する。
データセットは階層型ラベルとインスタンスベースのラベルの両方でポイントワイズアノテートされている。
本稿では,3次元点雲分割のための階層的学習問題を定式化し,様々な階層間の整合性を評価することを提案する。
論文 参考訳(メタデータ) (2020-08-11T19:10:32Z) - KACC: A Multi-task Benchmark for Knowledge Abstraction, Concretization
and Completion [99.47414073164656]
包括的知識グラフ(KG)は、インスタンスレベルのエンティティグラフとオントロジーレベルの概念グラフを含む。
2ビューのKGは、知識の抽象化、包括化、完成に関する人間の能力を「シミュレーション」するためのモデルのためのテストベッドを提供する。
我々は,データセットのスケール,タスクカバレッジ,難易度の観点から,既存のベンチマークを改善した統一KGベンチマークを提案する。
論文 参考訳(メタデータ) (2020-04-28T16:21:57Z) - A Common Operating Picture Framework Leveraging Data Fusion and Deep
Learning [0.7348448478819135]
本稿では,処理,爆発,拡散のソリューションを高速化するためのデータ融合フレームワークを提案する。
私たちのプラットフォームは、ディープラーニングやその他の処理手段を活用することで、複数のデータソースから情報を抽出するサービスの集合体です。
最初のイテレーションでは、ビジュアルデータ(FMV, WAMI, CCTV/PTZ-Cameras, オープンソースビデオなど)とAISデータストリーム(衛星と地上ソース)に焦点を当てました。
論文 参考訳(メタデータ) (2020-01-16T18:32:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。