論文の概要: Open Visual Knowledge Extraction via Relation-Oriented Multimodality
Model Prompting
- arxiv url: http://arxiv.org/abs/2310.18804v1
- Date: Sat, 28 Oct 2023 20:09:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 16:31:29.136409
- Title: Open Visual Knowledge Extraction via Relation-Oriented Multimodality
Model Prompting
- Title(参考訳): 関係指向型マルチモーダリティモデルによるオープンビジュアル知識抽出
- Authors: Hejie Cui, Xinyu Fang, Zihan Zhang, Ran Xu, Xuan Kan, Xin Liu, Yue Yu,
Manling Li, Yangqiu Song, Carl Yang
- Abstract要約: オープンビジュアル知識抽出の新しいパラダイムを初めて探求する。
OpenVikは、リレーショナル知識を含む可能性のあるリージョンを検出するオープンリレーショナルリージョン検出器で構成されている。
検出された関心領域で大規模なマルチモーダリティモデルを促すことにより、書式のない知識を生成する視覚的知識生成装置。
- 参考スコア(独自算出の注目度): 89.95541601837719
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Images contain rich relational knowledge that can help machines understand
the world. Existing methods on visual knowledge extraction often rely on the
pre-defined format (e.g., sub-verb-obj tuples) or vocabulary (e.g., relation
types), restricting the expressiveness of the extracted knowledge. In this
work, we take a first exploration to a new paradigm of open visual knowledge
extraction. To achieve this, we present OpenVik which consists of an open
relational region detector to detect regions potentially containing relational
knowledge and a visual knowledge generator that generates format-free knowledge
by prompting the large multimodality model with the detected region of
interest. We also explore two data enhancement techniques for diversifying the
generated format-free visual knowledge. Extensive knowledge quality evaluations
highlight the correctness and uniqueness of the extracted open visual knowledge
by OpenVik. Moreover, integrating our extracted knowledge across various visual
reasoning applications shows consistent improvements, indicating the real-world
applicability of OpenVik.
- Abstract(参考訳): 画像には、機械が世界を理解するのに役立つ豊富な関係知識が含まれている。
既存の視覚的知識抽出法は、しばしば事前に定義された形式(例えば、サブバーブ・オブイ・タプル)や語彙(例えば、関係型)に依存し、抽出された知識の表現性を制限する。
本研究では,オープンな視覚的知識抽出の新しいパラダイムを初めて探求する。
そこで本稿では,関係知識を含む可能性のある領域を検出するオープンリレーショナル領域検出器と,検出された領域に対して大きなマルチモーダリティモデルを促すことにより,フォーマットフリーな知識を生成する視覚知識生成器とからなるopenvikを提案する。
また、生成したフォーマットのない視覚知識を多様化するための2つのデータ拡張手法についても検討する。
広範にわたる知識品質評価は、OpenVikによる抽出されたオープンビジュアル知識の正しさと独自性を強調する。
さらに、抽出した知識を様々な視覚的推論アプリケーションに統合すると、一貫した改善が見られ、OpenVikの現実的な適用性を示している。
関連論文リスト
- Percept, Chat, and then Adapt: Multimodal Knowledge Transfer of
Foundation Models for Open-World Video Recognition [36.56176821492121]
オープンワールドビデオ認識を促進するための汎用的な知識伝達パイプラインを提案する。
私たちはPCAと命名し、Percept、Chat、Adaptの3つのステージに基づいています。
提案手法は,3つのデータセットすべてに対して最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-02-29T08:29:03Z) - Recognizing Unseen Objects via Multimodal Intensive Knowledge Graph
Propagation [68.13453771001522]
画像の領域と対応するセマンティック埋め込みとをマッチングする多モード集中型ZSLフレームワークを提案する。
我々は、大規模な実世界のデータに基づいて、広範囲な実験を行い、そのモデルを評価する。
論文 参考訳(メタデータ) (2023-06-14T13:07:48Z) - ReSee: Responding through Seeing Fine-grained Visual Knowledge in
Open-domain Dialogue [34.223466503256766]
視覚的知識をよりきめ細かな粒度に分割することで多モーダル対話を構築するための新しいパラダイムを提供する。
拡張視覚情報の精度と多様性を高めるため、インターネットや大規模な画像データセットからそれらを検索する。
テキストと視覚知識を活用することで、ReSeeは現実世界の視覚概念による情報応答を生成できる。
論文 参考訳(メタデータ) (2023-05-23T02:08:56Z) - Combo of Thinking and Observing for Outside-Knowledge VQA [13.838435454270014]
外部知識の視覚的質問応答は、買収とオープンエンドの現実世界の知識の使用の両方を必要とする難しいタスクである。
本稿では,モダリティ空間を自然言語空間と同じ空間に制約することに着想を得た。
本稿では,マルチモーダルエンコーダ,テキストエンコーダ,応答デコーダからなる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-10T18:32:32Z) - UNTER: A Unified Knowledge Interface for Enhancing Pre-trained Language
Models [100.4659557650775]
構造化知識と非構造化知識の両方を活用する統一的な視点を提供するために、統一知識インターフェイスUNTERを提案する。
どちらの形態の知識も注入され、UNTERは一連の知識駆動NLPタスクの継続的な改善を得る。
論文 参考訳(メタデータ) (2023-05-02T17:33:28Z) - REVIVE: Regional Visual Representation Matters in Knowledge-Based Visual
Question Answering [75.53187719777812]
本稿では,知識に基づく視覚的質問応答(VQA)における視覚表現を再考する。
本稿では,対象領域の明示的な情報を活用するための知識に基づく新しいVQA手法REVIVEを提案する。
我々は,新しい最先端性能,すなわち58.0%の精度を実現し,従来の最先端手法を大きなマージンで上回った。
論文 参考訳(メタデータ) (2022-06-02T17:59:56Z) - Knowledge Graph Augmented Network Towards Multiview Representation
Learning for Aspect-based Sentiment Analysis [96.53859361560505]
本稿では,知識グラフ拡張ネットワーク(KGAN)を提案する。
KGANは感情の特徴表現を、文脈、構文、知識に基づく複数の視点から捉えている。
3つの人気のあるABSAベンチマークの実験は、我々のKGANの有効性と堅牢性を示している。
論文 参考訳(メタデータ) (2022-01-13T08:25:53Z) - External Knowledge Augmented Text Visual Question Answering [0.6445605125467573]
本稿では,視覚言語理解タスクのための標準マルチモーダルトランスフォーマー上で知識を抽出,フィルタリング,エンコードするフレームワークを提案する。
2つの公開データセット上で、最先端のデータセットに匹敵する結果を生成する。
論文 参考訳(メタデータ) (2021-08-22T13:21:58Z) - Visual Relationship Detection with Visual-Linguistic Knowledge from
Multimodal Representations [103.00383924074585]
視覚的関係検出は、画像内の有能なオブジェクト間の関係を推論することを目的としている。
変換器からの視覚言語表現(RVL-BERT)という新しい手法を提案する。
RVL-BERTは、自己教師付き事前学習を通じて学習した視覚的・言語的常識知識を用いて空間推論を行う。
論文 参考訳(メタデータ) (2020-09-10T16:15:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。