論文の概要: VisKnow: Constructing Visual Knowledge Base for Object Understanding
- arxiv url: http://arxiv.org/abs/2512.08221v1
- Date: Tue, 09 Dec 2025 04:00:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.8011
- Title: VisKnow: Constructing Visual Knowledge Base for Object Understanding
- Title(参考訳): VisKnow: オブジェクト理解のためのビジュアル知識ベースを構築する
- Authors: Ziwei Yao, Qiyang Wan, Ruiping Wang, Xilin Chen,
- Abstract要約: マルチモーダルなオブジェクト知識をグラフとして構築するビジュアルナレッジベースを提案し,VisKnowという構築フレームワークを提案する。
具体的なケーススタディとして,406種の動物を対象とする構造化動物知識基盤であるAnimalKBを構築した。
一連の実験では、AnimalKBがゼロショット認識や細粒度VQAといったオブジェクトレベルの視覚タスクをどのように強化するかが示されている。
- 参考スコア(独自算出の注目度): 34.5763329787359
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Understanding objects is fundamental to computer vision. Beyond object recognition that provides only a category label as typical output, in-depth object understanding represents a comprehensive perception of an object category, involving its components, appearance characteristics, inter-category relationships, contextual background knowledge, etc. Developing such capability requires sufficient multi-modal data, including visual annotations such as parts, attributes, and co-occurrences for specific tasks, as well as textual knowledge to support high-level tasks like reasoning and question answering. However, these data are generally task-oriented and not systematically organized enough to achieve the expected understanding of object categories. In response, we propose the Visual Knowledge Base that structures multi-modal object knowledge as graphs, and present a construction framework named VisKnow that extracts multi-modal, object-level knowledge for object understanding. This framework integrates enriched aligned text and image-source knowledge with region annotations at both object and part levels through a combination of expert design and large-scale model application. As a specific case study, we construct AnimalKB, a structured animal knowledge base covering 406 animal categories, which contains 22K textual knowledge triplets extracted from encyclopedic documents, 420K images, and corresponding region annotations. A series of experiments showcase how AnimalKB enhances object-level visual tasks such as zero-shot recognition and fine-grained VQA, and serves as challenging benchmarks for knowledge graph completion and part segmentation. Our findings highlight the potential of automatically constructing visual knowledge bases to advance visual understanding and its practical applications. The project page is available at https://vipl-vsu.github.io/VisKnow.
- Abstract(参考訳): 物体を理解することはコンピュータビジョンの基本である。
典型的な出力としてカテゴリラベルのみを提供するオブジェクト認識以外にも、深いオブジェクト理解は、そのコンポーネント、外観特性、カテゴリ間の関係、文脈的背景知識などを含む、オブジェクトカテゴリの包括的認識を表す。
このような機能を開発するには、特定のタスクに対する部品、属性、共起といった視覚アノテーションや、推論や質問応答といった高度なタスクをサポートするためのテキスト知識を含む、十分なマルチモーダルデータが必要である。
しかしながら、これらのデータは一般にタスク指向であり、オブジェクトカテゴリの期待される理解を達成するのに十分な体系的な組織化はされていない。
そこで我々は,マルチモーダルなオブジェクト知識をグラフとして構築するVisual Knowledge Baseを提案し,オブジェクト理解のための多モーダルなオブジェクトレベルの知識を抽出するVisKnowという構築フレームワークを提案する。
このフレームワークは、高度に整合したテキストと画像ソースの知識を、専門家設計と大規模モデルアプリケーションの組み合わせによって、オブジェクトおよび部分レベルの領域アノテーションと統合します。
具体的なケーススタディとして,百科事典文書から抽出した22Kのテキスト知識トリップ,420K画像,およびそれに対応する領域アノテーションを含む406の動物カテゴリをカバーする構造化動物知識ベースであるAnimalKBを構築した。
一連の実験では、AnimalKBがゼロショット認識や細粒度VQAのようなオブジェクトレベルの視覚タスクをどのように強化するかを示し、知識グラフの補完と部分分割の挑戦的なベンチマークとして機能する。
本研究は,視覚的理解を促進するために視覚知識ベースを自動構築する可能性とその実践的応用を明らかにするものである。
プロジェクトのページはhttps://vipl-vsu.github.io/VisKnow.comで公開されている。
関連論文リスト
- Seeing and Knowing in the Wild: Open-domain Visual Entity Recognition with Large-scale Knowledge Graphs via Contrastive Learning [17.580250180523752]
オープンドメインのビジュアルエンティティ認識は、画像に描かれたエンティティを、広範に進化する現実世界の概念の集合に識別し、リンクすることを目的としている。
本稿では,画像とテキスト記述を共有意味空間に組み合わせた知識誘導型コントラスト学習フレームワークを提案する。
我々の実験は、視覚的、テキスト的、構造化された知識を用いることで、特に稀で目に見えないエンティティの精度が大幅に向上することを示した。
論文 参考訳(メタデータ) (2025-10-15T15:33:36Z) - Augmented Commonsense Knowledge for Remote Object Grounding [67.30864498454805]
エージェントナビゲーションを改善するための時間的知識グラフとして,コモンセンス情報を活用するための拡張コモンセンス知識モデル(ACK)を提案する。
ACKは知識グラフ対応のクロスモーダルとコンセプトアグリゲーションモジュールで構成され、視覚的表現と視覚的テキストデータアライメントを強化する。
我々は、より正確な局所的な行動予測につながるコモンセンスに基づく意思決定プロセスのための新しいパイプラインを追加します。
論文 参考訳(メタデータ) (2024-06-03T12:12:33Z) - Object Attribute Matters in Visual Question Answering [15.705504296316576]
本稿では,オブジェクト属性の活用の観点から,新しいVQAアプローチを提案する。
属性融合モジュールはマルチモーダルグラフニューラルネットワークを構築し、メッセージパッシングを通じて属性と視覚的特徴を融合する。
オブジェクトレベルの視覚言語アライメントの改善により、マルチモーダルシーンの理解が容易になり、モデルの堅牢性が改善される。
論文 参考訳(メタデータ) (2023-12-20T12:46:30Z) - CoTDet: Affordance Knowledge Prompting for Task Driven Object Detection [42.2847114428716]
タスク駆動オブジェクト検出は、イメージ内のタスクを提供するのに適したオブジェクトインスタンスを検出することを目的としている。
その課題は、従来のオブジェクト検出のためのクローズドなオブジェクト語彙に制限されるほど多様すぎるタスクのために利用できるオブジェクトカテゴリにある。
本稿では,オブジェクトカテゴリではなく,異なるオブジェクトが同じタスクを達成できる共通属性について検討する。
論文 参考訳(メタデータ) (2023-09-03T06:18:39Z) - Knowledge-Aware Prompt Tuning for Generalizable Vision-Language Models [64.24227572048075]
本稿では,視覚言語モデルのためのKnowledge-Aware Prompt Tuning(KAPT)フレームワークを提案する。
我々のアプローチは、人間の知性からインスピレーションを得ており、外部知識は、通常、オブジェクトの新たなカテゴリを認識するために組み込まれています。
論文 参考訳(メタデータ) (2023-08-22T04:24:45Z) - Learning by Asking Questions for Knowledge-based Novel Object
Recognition [64.55573343404572]
実世界のオブジェクト認識には、認識すべきオブジェクトクラスが多数存在する。教師付き学習に基づく従来の画像認識は、トレーニングデータに存在するオブジェクトクラスのみを認識できるため、現実の世界においては限定的な適用性を有する。
そこで本研究では,モデルが新たなオブジェクトを瞬時に認識するのに役立つ質問生成を通じて,外部知識を取得するための枠組みについて検討する。
我々のパイプラインは、オブジェクトベースのオブジェクト認識と、新しい知識を得るために知識を意識した質問を生成する質問生成という2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2022-10-12T02:51:58Z) - Contrastive Object Detection Using Knowledge Graph Embeddings [72.17159795485915]
一つのホットアプローチで学習したクラス埋め込みの誤差統計と、自然言語処理や知識グラフから意味的に構造化された埋め込みを比較した。
本稿では,キーポイントベースおよびトランスフォーマーベースオブジェクト検出アーキテクチャの知識埋め込み設計を提案する。
論文 参考訳(メタデータ) (2021-12-21T17:10:21Z) - Reasoning over Vision and Language: Exploring the Benefits of
Supplemental Knowledge [59.87823082513752]
本稿では,汎用知識基盤(KB)から視覚言語変換器への知識の注入について検討する。
我々は複数のタスクやベンチマークに対する様々なkbの関連性を実証的に研究する。
この技術はモデルに依存しず、最小限の計算オーバーヘッドで任意の視覚言語変換器の適用可能性を拡張することができる。
論文 参考訳(メタデータ) (2021-01-15T08:37:55Z) - Look-into-Object: Self-supervised Structure Modeling for Object
Recognition [71.68524003173219]
我々は,自己スーパービジョンを取り入れた「対象」(具体的かつ内在的に対象構造をモデル化する)を提案する。
認識バックボーンは、より堅牢な表現学習のために大幅に拡張可能であることを示す。
提案手法は汎用オブジェクト認識(ImageNet)や細粒度オブジェクト認識タスク(CUB, Cars, Aircraft)など,多数のベンチマークにおいて大きなパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-03-31T12:22:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。