論文の概要: Constructing a Visual Relationship Authenticity Dataset
- arxiv url: http://arxiv.org/abs/2010.05185v1
- Date: Sun, 11 Oct 2020 07:38:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 12:41:28.297667
- Title: Constructing a Visual Relationship Authenticity Dataset
- Title(参考訳): Visual Relation Authenticityデータセットの構築
- Authors: Chenhui Chu, Yuto Takebayashi, Mishra Vipul, Yuta Nakashima
- Abstract要約: 視覚的関係は、画像内の2つのオブジェクト間の関係を表し、それは(対象、述語、対象)の三重項として表すことができる。
既存の視覚的関係検出データセットは、画像内のコンテンツを正しく記述する真の関係のみを含む。
我々は、Flickr30kエンティティの画像キャプションデータセットのキャプションに現れるすべてのオブジェクト間の真偽関係を注釈付けした、視覚的関係認証データセットを構築した。
- 参考スコア(独自算出の注目度): 21.68935793021146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A visual relationship denotes a relationship between two objects in an image,
which can be represented as a triplet of (subject; predicate; object). Visual
relationship detection is crucial for scene understanding in images. Existing
visual relationship detection datasets only contain true relationships that
correctly describe the content in an image. However, distinguishing false
visual relationships from true ones is also crucial for image understanding and
grounded natural language processing. In this paper, we construct a visual
relationship authenticity dataset, where both true and false relationships
among all objects appeared in the captions in the Flickr30k entities image
caption dataset are annotated. The dataset is available at
https://github.com/codecreator2053/VR_ClassifiedDataset. We hope that this
dataset can promote the study on both vision and language understanding.
- Abstract(参考訳): 視覚的な関係とは、画像内の2つのオブジェクト間の関係を表し、(サブジェクト; 述語; オブジェクト)の三重項として表現することができる。
画像のシーン理解には視覚的関係検出が不可欠である。
既存の視覚関係検出データセットは、画像内のコンテンツを正しく記述する真の関係のみを含む。
しかし,画像理解や自然言語処理において,偽の視覚的関係を真のものと区別することが重要である。
本稿では,flickr30kエンティティ画像キャプションデータセットのキャプションに現れるすべてのオブジェクト間の真偽関係を注釈付きで表現する,視覚関係の真正性データセットを構築する。
データセットはhttps://github.com/codecreator2053/vr_classifieddatasetで利用可能である。
このデータセットが視覚と言語理解の両方の研究を促進できることを願っています。
関連論文リスト
- RelationBooth: Towards Relation-Aware Customized Object Generation [32.762475563341525]
リレーショナルブース(RelationBooth)は、よく計算されたデータセットを通じて、アイデンティティとリレーショナルラーニングをアンハングリングするフレームワークである。
トレーニングデータには,関係固有画像,アイデンティティ情報を含む独立オブジェクト画像,関係生成をガイドするテキストプロンプトが含まれている。
まず,関係に密接に結びついたオブジェクトのポーズを調整する際に,効果的にモデルを導くキーポイントマッチング損失を導入する。
第二に、画像のプロンプトから局所的な特徴を取り入れて、オブジェクトの区別をより良くし、重複するケースの混同を防ぐ。
論文 参考訳(メタデータ) (2024-10-30T17:57:21Z) - Composing Object Relations and Attributes for Image-Text Matching [70.47747937665987]
この研究は、シーングラフを利用して、リレーショナルエッジで相互接続されたオブジェクトや属性のノードでキャプションを表現するデュアルエンコーダ画像テキストマッチングモデルを導入する。
本モデルは,オブジェクト属性とオブジェクトオブジェクトの意味関係を効率的に符号化し,ロバストかつ高速な性能システムを実現する。
論文 参考訳(メタデータ) (2024-06-17T17:56:01Z) - Dual Relation Alignment for Composed Image Retrieval [24.812654620141778]
合成画像検索における2種類の関係性の存在を論じる。
明示的な関係は、参照画像と補完テキストターゲット画像に関連する。
本稿では,合成画像検索のための新たな枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-05T12:16:14Z) - Learning to Compose Visual Relations [100.45138490076866]
我々は,各関係を非正規化密度(エネルギーベースモデル)として表現することを提案する。
このような分解を分解することで、複数の関係を持つシーンをより忠実に生成・編集できることを示す。
論文 参考訳(メタデータ) (2021-11-17T18:51:29Z) - Boosting Entity-aware Image Captioning with Multi-modal Knowledge Graph [96.95815946327079]
名前付きエンティティの長期分布により、名前付きエンティティと視覚的キューの関係を学習することは困難である。
本稿では、視覚オブジェクトと名前付きエンティティを関連付けるために、マルチモーダルな知識グラフを構築する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-07-26T05:50:41Z) - Scenes and Surroundings: Scene Graph Generation using Relation
Transformer [13.146732454123326]
この研究は、リレーショナルトランスと呼ばれる新しいローカルコンテキスト対応アーキテクチャを提案する。
階層的マルチヘッドアテンションに基づくアプローチは、オブジェクト間のコンテキスト依存を効率的に捕捉し、それらの関係を予測する。
最先端のアプローチと比較して、私たちは全体として、textbf4.85%の改善を達成しました。
論文 参考訳(メタデータ) (2021-07-12T14:22:20Z) - Relationship-based Neural Baby Talk [10.342180619706724]
幾何学的相互作用を探索するtextitpatial relationship、意味的相互作用を抽出するtextitsemantic relationship、隠された情報をキャプチャするtextitimplicit relationshipの3つの主な関係を検討する。
提案したR-NBTモデルは,COCOデータセット上で訓練された最先端モデルよりも3つの画像キャプション生成タスクで優れる。
論文 参考訳(メタデータ) (2021-03-08T15:51:24Z) - Language and Visual Entity Relationship Graph for Agent Navigation [54.059606864535304]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従って現実世界の環境をナビゲートする必要がある。
テキストと視覚間のモーダル関係をモデル化するための新しい言語とビジュアルエンティティ関係グラフを提案する。
実験によって、私たちは最先端技術よりも改善できる関係を利用しています。
論文 参考訳(メタデータ) (2020-10-19T08:25:55Z) - Learning to Represent Image and Text with Denotation Graph [32.417311523031195]
本稿では,画像とテキスト間の暗黙的・視覚的接地表現の集合から学習表現を提案する。
得られた構造的関係を利用して,最先端のマルチモーダル学習モデルをさらに改良できることを示す。
論文 参考訳(メタデータ) (2020-10-06T18:00:58Z) - Consensus-Aware Visual-Semantic Embedding for Image-Text Matching [69.34076386926984]
画像テキストマッチングは、視覚と言語をブリッジする上で中心的な役割を果たす。
既存のアプローチのほとんどは、表現を学ぶためにイメージテキストインスタンスペアのみに依存しています。
コンセンサスを意識したビジュアル・セマンティック・エンベディングモデルを提案し,コンセンサス情報を組み込む。
論文 参考訳(メタデータ) (2020-07-17T10:22:57Z) - Expressing Objects just like Words: Recurrent Visual Embedding for
Image-Text Matching [102.62343739435289]
既存の画像テキストマッチングアプローチは、テキストと画像の各独立オブジェクト間の親和性をキャプチャして集約することにより、画像テキストペアの類似性を推測する。
本稿では,リカレントニューラルネットワーク(RNN)を用いて画像と文を対称に処理するDual Path Recurrent Neural Network (DP-RNN)を提案する。
我々のモデルはFlickr30Kデータセットの最先端性能とMS-COCOデータセットの競合性能を達成する。
論文 参考訳(メタデータ) (2020-02-20T00:51:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。