論文の概要: Visually Grounded Commonsense Knowledge Acquisition
- arxiv url: http://arxiv.org/abs/2211.12054v2
- Date: Sat, 25 Mar 2023 07:16:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 01:42:19.304572
- Title: Visually Grounded Commonsense Knowledge Acquisition
- Title(参考訳): 視覚的に接地したコモンセンス知識獲得
- Authors: Yuan Yao, Tianyu Yu, Ao Zhang, Mengdi Li, Ruobing Xie, Cornelius
Weber, Zhiyuan Liu, Hai-Tao Zheng, Stefan Wermter, Tat-Seng Chua, Maosong Sun
- Abstract要約: 大規模なコモンセンス知識ベースは、幅広いAIアプリケーションを促進する。
視覚知覚には、現実世界の実体に関する豊富な常識知識が含まれる。
本稿では,遠隔教師付きマルチインスタンス学習問題としてCKEを定式化するCLEVERを提案する。
- 参考スコア(独自算出の注目度): 132.42003872906062
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale commonsense knowledge bases empower a broad range of AI
applications, where the automatic extraction of commonsense knowledge (CKE) is
a fundamental and challenging problem. CKE from text is known for suffering
from the inherent sparsity and reporting bias of commonsense in text. Visual
perception, on the other hand, contains rich commonsense knowledge about
real-world entities, e.g., (person, can_hold, bottle), which can serve as
promising sources for acquiring grounded commonsense knowledge. In this work,
we present CLEVER, which formulates CKE as a distantly supervised
multi-instance learning problem, where models learn to summarize commonsense
relations from a bag of images about an entity pair without any human
annotation on image instances. To address the problem, CLEVER leverages
vision-language pre-training models for deep understanding of each image in the
bag, and selects informative instances from the bag to summarize commonsense
entity relations via a novel contrastive attention mechanism. Comprehensive
experimental results in held-out and human evaluation show that CLEVER can
extract commonsense knowledge in promising quality, outperforming pre-trained
language model-based methods by 3.9 AUC and 6.4 mAUC points. The predicted
commonsense scores show strong correlation with human judgment with a 0.78
Spearman coefficient. Moreover, the extracted commonsense can also be grounded
into images with reasonable interpretability. The data and codes can be
obtained at https://github.com/thunlp/CLEVER.
- Abstract(参考訳): 大規模なコモンセンス知識ベースは、コモンセンス知識の自動抽出(CKE)が基本的で困難な問題である幅広いAIアプリケーションを促進する。
テキストからのCKEは、テキスト内のコモンセンスの本質的な疎さと報告バイアスに悩まされていることで知られている。
一方、視覚知覚には、現実世界のエンティティ(人、can_hold、 bottle)に関する豊富なコモンセンス知識が含まれており、基礎となるコモンセンス知識を取得するための有望な情報源となる。
本稿では,ckeを遠方の教師付きマルチインスタンス学習問題として定式化し,モデルが画像インスタンスに人間のアノテーションを使わずにエンティティペアに関するイメージの袋から常識関係を要約する手法を提案する。
この問題に対処するために、CLEVERは、バッグ内の各画像の深い理解に視覚言語事前学習モデルを活用し、バッグから情報的インスタンスを選択して、新しいコントラスト的注意機構を通じて常識的エンティティ関係を要約する。
CLEVERは有望な品質でコモンセンスの知識を抽出し,3.9AUCと6.4mAUCで事前学習した言語モデルに基づく手法より優れていることを示す。
予測されたコモンセンススコアは、0.78のスピアマン係数を持つ人間の判断と強い相関を示す。
さらに、抽出したコモンセンスを合理的な解釈性のある画像にグラウンド化することもできる。
データとコードはhttps://github.com/thunlp/CLEVERで取得できる。
関連論文リスト
- What Really is Commonsense Knowledge? [58.5342212738895]
我々は、既存のコモンセンス知識の定義を調査し、概念を定義するための3つのフレームワークに基礎を置き、それらをコモンセンス知識の統一的な定義に統合する。
次に、アノテーションと実験のための統合された定義をCommonsenseQAとCommonsenseQA 2.0データセットで使用します。
本研究は,2つのデータセットには非常識知識のインスタンスが多数存在し,これら2つのサブセットに対して大きな性能差があることを示す。
論文 参考訳(メタデータ) (2024-11-06T14:54:19Z) - Recognizing Unseen Objects via Multimodal Intensive Knowledge Graph
Propagation [68.13453771001522]
画像の領域と対応するセマンティック埋め込みとをマッチングする多モード集中型ZSLフレームワークを提案する。
我々は、大規模な実世界のデータに基づいて、広範囲な実験を行い、そのモデルを評価する。
論文 参考訳(メタデータ) (2023-06-14T13:07:48Z) - Commonsense Knowledge Transfer for Pre-trained Language Models [83.01121484432801]
ニューラルコモンセンス知識モデルに格納されたコモンセンス知識を汎用的な事前学習言語モデルに転送するフレームワークであるコモンセンス知識伝達を導入する。
まず、一般的なテキストを利用して、ニューラルコモンセンス知識モデルからコモンセンス知識を抽出するクエリを形成する。
次に、コモンセンスマスクの埋め込みとコモンセンスの関係予測という2つの自己教師対象で言語モデルを洗練する。
論文 参考訳(メタデータ) (2023-06-04T15:44:51Z) - ComFact: A Benchmark for Linking Contextual Commonsense Knowledge [31.19689856957576]
そこで我々は,KGから状況に関連のあるコモンセンス知識を特定するために,モデルにコンテキストを付与し,訓練を行う,コモンセンス事実リンクの新しい課題を提案する。
われわれの新しいベンチマークであるComFactは、4つのスタイリスティックな多様なデータセットにまたがるコモンセンスのための293kのインコンテキスト関連アノテーションを含んでいる。
論文 参考訳(メタデータ) (2022-10-23T09:30:39Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z) - Knowledge Graph Augmented Network Towards Multiview Representation
Learning for Aspect-based Sentiment Analysis [96.53859361560505]
本稿では,知識グラフ拡張ネットワーク(KGAN)を提案する。
KGANは感情の特徴表現を、文脈、構文、知識に基づく複数の視点から捉えている。
3つの人気のあるABSAベンチマークの実験は、我々のKGANの有効性と堅牢性を示している。
論文 参考訳(メタデータ) (2022-01-13T08:25:53Z) - Commonsense Knowledge in Word Associations and ConceptNet [37.751909219863585]
本稿では,ConcpetNet と SWOW という2つの大規模知識資源の詳細な比較を行った。
本稿では,2つのグラフの構造,重なり合い,相違点と,それらが状況的常識的知識をエンコードする程度について検討する。
論文 参考訳(メタデータ) (2021-09-20T06:06:30Z) - Latent Correlation-Based Multiview Learning and Self-Supervision: A
Unifying Perspective [41.80156041871873]
この研究は、教師なしのマルチビュー学習のための理論支援フレームワークを提供する。
私たちの開発は、各ビューが共有コンポーネントとプライベートコンポーネントの非線形混合であるマルチビューモデルの提案から始まります。
さらに、各ビュー内のプライベート情報を適切な正規化設計を用いて共有から確実に切り離すことができる。
論文 参考訳(メタデータ) (2021-06-14T00:12:36Z) - KVL-BERT: Knowledge Enhanced Visual-and-Linguistic BERT for Visual
Commonsense Reasoning [4.787501955202053]
visual commonsense reasoning (vcr)タスクでは、マシンは正しく答え、その答えを正当化するための根拠を提供する必要がある。
本稿では,KVL-BERT(KVL-BERT)モデルを提案する。
視覚的および言語的内容の入力に加えて、ConceptNetから抽出された外部コモンセンス知識を多層トランスフォーマーに統合する。
論文 参考訳(メタデータ) (2020-12-13T08:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。