論文の概要: Open Visual Knowledge Extraction via Relation-Oriented Multimodality
Model Prompting
- arxiv url: http://arxiv.org/abs/2310.18804v1
- Date: Sat, 28 Oct 2023 20:09:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 16:31:29.136409
- Title: Open Visual Knowledge Extraction via Relation-Oriented Multimodality
Model Prompting
- Title(参考訳): 関係指向型マルチモーダリティモデルによるオープンビジュアル知識抽出
- Authors: Hejie Cui, Xinyu Fang, Zihan Zhang, Ran Xu, Xuan Kan, Xin Liu, Yue Yu,
Manling Li, Yangqiu Song, Carl Yang
- Abstract要約: オープンビジュアル知識抽出の新しいパラダイムを初めて探求する。
OpenVikは、リレーショナル知識を含む可能性のあるリージョンを検出するオープンリレーショナルリージョン検出器で構成されている。
検出された関心領域で大規模なマルチモーダリティモデルを促すことにより、書式のない知識を生成する視覚的知識生成装置。
- 参考スコア(独自算出の注目度): 89.95541601837719
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Images contain rich relational knowledge that can help machines understand
the world. Existing methods on visual knowledge extraction often rely on the
pre-defined format (e.g., sub-verb-obj tuples) or vocabulary (e.g., relation
types), restricting the expressiveness of the extracted knowledge. In this
work, we take a first exploration to a new paradigm of open visual knowledge
extraction. To achieve this, we present OpenVik which consists of an open
relational region detector to detect regions potentially containing relational
knowledge and a visual knowledge generator that generates format-free knowledge
by prompting the large multimodality model with the detected region of
interest. We also explore two data enhancement techniques for diversifying the
generated format-free visual knowledge. Extensive knowledge quality evaluations
highlight the correctness and uniqueness of the extracted open visual knowledge
by OpenVik. Moreover, integrating our extracted knowledge across various visual
reasoning applications shows consistent improvements, indicating the real-world
applicability of OpenVik.
- Abstract(参考訳): 画像には、機械が世界を理解するのに役立つ豊富な関係知識が含まれている。
既存の視覚的知識抽出法は、しばしば事前に定義された形式(例えば、サブバーブ・オブイ・タプル)や語彙(例えば、関係型)に依存し、抽出された知識の表現性を制限する。
本研究では,オープンな視覚的知識抽出の新しいパラダイムを初めて探求する。
そこで本稿では,関係知識を含む可能性のある領域を検出するオープンリレーショナル領域検出器と,検出された領域に対して大きなマルチモーダリティモデルを促すことにより,フォーマットフリーな知識を生成する視覚知識生成器とからなるopenvikを提案する。
また、生成したフォーマットのない視覚知識を多様化するための2つのデータ拡張手法についても検討する。
広範にわたる知識品質評価は、OpenVikによる抽出されたオープンビジュアル知識の正しさと独自性を強調する。
さらに、抽出した知識を様々な視覚的推論アプリケーションに統合すると、一貫した改善が見られ、OpenVikの現実的な適用性を示している。
関連論文リスト
- Knowledge Graph Extension by Entity Type Recognition [2.8231106019727195]
本稿では,エンティティ型認識に基づく知識グラフ拡張フレームワークを提案する。
このフレームワークは、異なる知識グラフ間でスキーマとエンティティを整列させることにより、高品質な知識抽出を実現することを目的としている。
論文 参考訳(メタデータ) (2024-05-03T19:55:03Z) - Visual Knowledge in the Big Model Era: Retrospect and Prospect [63.282425615863]
視覚知識は、視覚概念とその関係を簡潔で包括的で解釈可能な方法でカプセル化できる新しい知識表現である。
視覚世界に関する知識は、人間の認知と知性にとって欠かせない要素として認識されているため、視覚知識は、機械知性を確立する上で重要な役割を担っていると考えられる。
論文 参考訳(メタデータ) (2024-04-05T07:31:24Z) - Percept, Chat, and then Adapt: Multimodal Knowledge Transfer of
Foundation Models for Open-World Video Recognition [36.56176821492121]
オープンワールドビデオ認識を促進するための汎用的な知識伝達パイプラインを提案する。
私たちはPCAと命名し、Percept、Chat、Adaptの3つのステージに基づいています。
提案手法は,3つのデータセットすべてに対して最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-02-29T08:29:03Z) - A Comprehensive Evaluation of GPT-4V on Knowledge-Intensive Visual Question Answering [53.70661720114377]
マルチモーダル・大型モデル(MLM)は視覚的理解の分野を著しく進歩させ、視覚的質問応答(VQA)の領域で顕著な能力を提供している
しかし、真の課題は知識集約型VQAタスクの領域にある。
1) モデルが視覚的手がかりを理解し、一般的な知識にどのように結びつくかを評価するコモンセンス知識、2) 画像から特定の知識を推論し、提示する際のモデルのスキルをテストする微粒な世界知識。
論文 参考訳(メタデータ) (2023-11-13T18:22:32Z) - Recognizing Unseen Objects via Multimodal Intensive Knowledge Graph
Propagation [68.13453771001522]
画像の領域と対応するセマンティック埋め込みとをマッチングする多モード集中型ZSLフレームワークを提案する。
我々は、大規模な実世界のデータに基づいて、広範囲な実験を行い、そのモデルを評価する。
論文 参考訳(メタデータ) (2023-06-14T13:07:48Z) - ReSee: Responding through Seeing Fine-grained Visual Knowledge in
Open-domain Dialogue [34.223466503256766]
視覚的知識をよりきめ細かな粒度に分割することで多モーダル対話を構築するための新しいパラダイムを提供する。
拡張視覚情報の精度と多様性を高めるため、インターネットや大規模な画像データセットからそれらを検索する。
テキストと視覚知識を活用することで、ReSeeは現実世界の視覚概念による情報応答を生成できる。
論文 参考訳(メタデータ) (2023-05-23T02:08:56Z) - Combo of Thinking and Observing for Outside-Knowledge VQA [13.838435454270014]
外部知識の視覚的質問応答は、買収とオープンエンドの現実世界の知識の使用の両方を必要とする難しいタスクである。
本稿では,モダリティ空間を自然言語空間と同じ空間に制約することに着想を得た。
本稿では,マルチモーダルエンコーダ,テキストエンコーダ,応答デコーダからなる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-10T18:32:32Z) - UNTER: A Unified Knowledge Interface for Enhancing Pre-trained Language
Models [100.4659557650775]
構造化知識と非構造化知識の両方を活用する統一的な視点を提供するために、統一知識インターフェイスUNTERを提案する。
どちらの形態の知識も注入され、UNTERは一連の知識駆動NLPタスクの継続的な改善を得る。
論文 参考訳(メタデータ) (2023-05-02T17:33:28Z) - Knowledge Graph Augmented Network Towards Multiview Representation
Learning for Aspect-based Sentiment Analysis [96.53859361560505]
本稿では,知識グラフ拡張ネットワーク(KGAN)を提案する。
KGANは感情の特徴表現を、文脈、構文、知識に基づく複数の視点から捉えている。
3つの人気のあるABSAベンチマークの実験は、我々のKGANの有効性と堅牢性を示している。
論文 参考訳(メタデータ) (2022-01-13T08:25:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。