論文の概要: CK-Transformer: Commonsense Knowledge Enhanced Transformers for
Referring Expression Comprehension
- arxiv url: http://arxiv.org/abs/2302.09027v1
- Date: Fri, 17 Feb 2023 17:49:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-20 13:58:47.839349
- Title: CK-Transformer: Commonsense Knowledge Enhanced Transformers for
Referring Expression Comprehension
- Title(参考訳): CK変換器:表現理解を参照する共通知識強化変換器
- Authors: Zhi Zhang, Helen Yannakoudakis, Xiantong Zhen, Ekaterina Shutova
- Abstract要約: CK変換器(Commonsense Knowledge Enhanced Transformer)のための新しいフレームワークを提案する。
CK-Transformerはイメージ内のオブジェクトの表現に常識知識を統合し、表現によって参照される対象オブジェクトの識別を容易にする。
その結果, CK-Transformer は既存の技術に比べて3.14%の精度向上を実現した。
- 参考スコア(独自算出の注目度): 46.16286822672404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of multimodal referring expression comprehension (REC), aiming at
localizing an image region described by a natural language expression, has
recently received increasing attention within the research comminity. In this
paper, we specifically focus on referring expression comprehension with
commonsense knowledge (KB-Ref), a task which typically requires reasoning
beyond spatial, visual or semantic information. We propose a novel framework
for Commonsense Knowledge Enhanced Transformers (CK-Transformer) which
effectively integrates commonsense knowledge into the representations of
objects in an image, facilitating identification of the target objects referred
to by the expressions. We conduct extensive experiments on several benchmarks
for the task of KB-Ref. Our results show that the proposed CK-Transformer
achieves a new state of the art, with an absolute improvement of 3.14% accuracy
over the existing state of the art.
- Abstract(参考訳): 自然言語表現によって記述される画像領域の局所化を目的としたマルチモーダル参照表現理解(REC)の課題は,近年,研究コミュニティ内で注目されている。
本稿では,空間的,視覚的,意味的情報を超えた推論を必要とするタスクである共通感覚知識(kb-ref)を用いた表現理解に着目した。
本稿では,画像内のオブジェクトの表現にコモンセンス知識を効果的に統合し,表現で参照される対象オブジェクトの識別を容易にするコモンセンス知識強化トランスフォーマ(ck-transformer)の新たなフレームワークを提案する。
KB-Refのタスクに対して,いくつかのベンチマークで広範な実験を行う。
その結果, CK-Transformer は既存の技術に比べて3.14%の精度向上を実現した。
関連論文リスト
- Augmented Commonsense Knowledge for Remote Object Grounding [67.30864498454805]
エージェントナビゲーションを改善するための時間的知識グラフとして,コモンセンス情報を活用するための拡張コモンセンス知識モデル(ACK)を提案する。
ACKは知識グラフ対応のクロスモーダルとコンセプトアグリゲーションモジュールで構成され、視覚的表現と視覚的テキストデータアライメントを強化する。
我々は、より正確な局所的な行動予測につながるコモンセンスに基づく意思決定プロセスのための新しいパイプラインを追加します。
論文 参考訳(メタデータ) (2024-06-03T12:12:33Z) - Stitching Gaps: Fusing Situated Perceptual Knowledge with Vision
Transformers for High-Level Image Classification [0.1843404256219181]
我々は,交流画像分類の性能と解釈性を高めるために,文化的イメージの位置認識的知識を活用する。
このリソースは、ACでラベル付けされた14,000以上の文化画像から得られた知覚的セマンティクスをキャプチャする。
本稿では,KGE埋め込みの知覚的知識と深部視覚モデルの知覚的知覚的理解の相乗効果と相補性を示す。
論文 参考訳(メタデータ) (2024-02-29T16:46:48Z) - Towards Generalizable Referring Image Segmentation via Target Prompt and
Visual Coherence [48.659338080020746]
Referring Image segmentation (RIS) は、自由なテキスト記述に基づいて画像条件でオブジェクトを分割することを目的としている。
本稿では,先述の2つのジレンマに対処することにより,一般化能力を大幅に向上させる新しいRISアプローチを提案する。
特に、制約のないテキストを扱うために、明示的で決定的なプロンプトで与えられた表現を増強し、統一された文脈での表現を補完することを提案する。
論文 参考訳(メタデータ) (2023-12-01T09:31:24Z) - Improving Reference-based Distinctive Image Captioning with Contrastive
Rewards [52.406331702017596]
近年のDIC法では,対象画像と意味相似参照画像のセットを比較して,特徴的なキャプションを生成する方法が提案されている。
本稿では,2つの新しいRef-DICベンチマークを提案し,TransformerベースのRef-DICベースライントランスDICを開発した。
より信頼性の高いベンチマークを行うために、Ref-DICのためのDisCIDErという新しい評価指標を提案する。
論文 参考訳(メタデータ) (2023-06-25T14:37:13Z) - CLIPTER: Looking at the Bigger Picture in Scene Text Recognition [10.561377899703238]
私たちは、CLIPのような現代視覚言語モデルの能力を利用して、作物ベースの認識者にシーンレベルの情報を提供する。
我々は,視覚言語モデルから得られた画像全体の表現を,クロスアテンションゲート機構を介して認識語レベルの特徴と融合させることにより,これを実現する。
論文 参考訳(メタデータ) (2023-01-18T12:16:19Z) - Exploring Explicit and Implicit Visual Relationships for Image
Captioning [11.82805641934772]
本稿では,画像キャプションのための領域レベルの表現を豊かにするために,明示的かつ暗黙的な視覚関係を探索する。
具体的には、オブジェクトペア上にセマンティックグラフを構築し、ゲートグラフ畳み込みネットワーク(Gated GCN)を利用して、近隣住民の情報を選択的に集約する。
暗黙的に、我々は変圧器から領域ベースの双方向エンコーダ表現を介して検出されたオブジェクト間のグローバルな相互作用を描画する。
論文 参考訳(メタデータ) (2021-05-06T01:47:51Z) - Reasoning over Vision and Language: Exploring the Benefits of
Supplemental Knowledge [59.87823082513752]
本稿では,汎用知識基盤(KB)から視覚言語変換器への知識の注入について検討する。
我々は複数のタスクやベンチマークに対する様々なkbの関連性を実証的に研究する。
この技術はモデルに依存しず、最小限の計算オーバーヘッドで任意の視覚言語変換器の適用可能性を拡張することができる。
論文 参考訳(メタデータ) (2021-01-15T08:37:55Z) - Exploring and Distilling Cross-Modal Information for Image Captioning [47.62261144821135]
このような理解には、関連した画像領域に対する視覚的注意と、コヒーレントな特徴に対する意味的注意が必要であると論じる。
トランスフォーマーに基づくグローバル・ローカル情報探索・蒸留手法を提案する。
我々のTransformerベースのモデルでは、COCOテストセットのオフラインCOCO評価においてCIDErスコアが129.3に達し、精度、速度、パラメータ予算の点で著しく効率が良い。
論文 参考訳(メタデータ) (2020-02-28T07:46:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。