論文の概要: Resilience through Scene Context in Visual Referring Expression Generation
- arxiv url: http://arxiv.org/abs/2404.12289v2
- Date: Fri, 23 Aug 2024 13:58:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-26 19:37:13.519696
- Title: Resilience through Scene Context in Visual Referring Expression Generation
- Title(参考訳): 視覚参照表現生成におけるシーンコンテキストによるレジリエンス
- Authors: Simeon Junker, Sina Zarrieß,
- Abstract要約: 画像中のオブジェクトに対する参照表現生成(REG)におけるコンテキストの役割について検討する。
我々は、REGにおけるシーンコンテキストに関する新たな視点を捉え、REGモデルをより弾力性のあるものにするためのリソースとして、コンテキスト情報が考えられることを仮定する。
- 参考スコア(独自算出の注目度): 8.883534683127415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scene context is well known to facilitate humans' perception of visible objects. In this paper, we investigate the role of context in Referring Expression Generation (REG) for objects in images, where existing research has often focused on distractor contexts that exert pressure on the generator. We take a new perspective on scene context in REG and hypothesize that contextual information can be conceived of as a resource that makes REG models more resilient and facilitates the generation of object descriptions, and object types in particular. We train and test Transformer-based REG models with target representations that have been artificially obscured with noise to varying degrees. We evaluate how properties of the models' visual context affect their processing and performance. Our results show that even simple scene contexts make models surprisingly resilient to perturbations, to the extent that they can identify referent types even when visual information about the target is completely missing.
- Abstract(参考訳): シーンコンテキストは、人間が目に見える物体に対する知覚を促進するためによく知られている。
本稿では,画像中のオブジェクトに対する参照表現生成(REG)におけるコンテキストの役割について検討する。
我々は、REGにおけるシーンコンテキストを新たな視点で捉え、REGモデルをよりレジリエンスにし、特にオブジェクト記述やオブジェクトタイプの生成を容易にするリソースとして、コンテキスト情報が考えられることを仮定する。
我々は,様々な程度にノイズで人工的に隠蔽されたターゲット表現を用いたTransformer-based REGモデルを訓練し,試験する。
モデルの視覚的コンテキストの特性が,その処理や性能に与える影響を評価する。
以上の結果から,単純なシーンコンテキストであっても,ターゲットの視覚情報が完全に欠落している場合でも,モデルが参照型を識別できる程度に,摂動に驚くほど耐性があることが示唆された。
関連論文リスト
- Learning Visual Grounding from Generative Vision and Language Model [29.2712567454021]
ビジュアルグラウンドタスクは、自然言語参照に基づいて画像領域をローカライズすることを目的としている。
生成的VLMには基底知識がすでに存在しており、適切なプロンプトによって引き起こすことができる。
本研究は,実世界における視覚的接地を拡大するための生成型VLMの可能性を実証するものである。
論文 参考訳(メタデータ) (2024-07-18T20:29:49Z) - Visual Context-Aware Person Fall Detection [52.49277799455569]
画像中の個人とオブジェクトを半自動分離するセグメンテーションパイプラインを提案する。
ベッド、椅子、車椅子などの背景オブジェクトは、転倒検知システムに挑戦し、誤ったポジティブアラームを引き起こす。
トレーニング中のオブジェクト固有のコンテキスト変換が、この課題を効果的に軽減することを示す。
論文 参考訳(メタデータ) (2024-04-11T19:06:36Z) - Context-Guided Spatio-Temporal Video Grounding [22.839160907707885]
本稿では,ビデオ中のオブジェクトの識別インスタンスコンテキストを抽出する,文脈誘導型STVG(CG-STVG)を提案する。
CG-STVGは、テキストクエリにおけるオブジェクト情報と、より正確なターゲットローカライゼーションのためのマイニングされたインスタンス視覚コンテキストからのガイダンスを楽しみます。
HCSTVG-v1/-v2 と VidSTG の3つのベンチマーク実験において、CG-STVG は m_tIoU と m_vIoU で新しい最先端を設定できる。
論文 参考訳(メタデータ) (2024-01-03T07:05:49Z) - DisCLIP: Open-Vocabulary Referring Expression Generation [37.789850573203694]
大規模ビジュアル・セマンティック・モデルであるCLIPを用いてLCMを誘導し、画像中のターゲット概念の文脈記述を生成する。
本研究では、シーン内の記述対象を正確に識別する受信機モデルの能力を評価することにより、生成されたテキストの品質を測定する。
本結果は,事前学習した視覚意味論モデルを用いて,高品質な文脈記述を生成する可能性を強調した。
論文 参考訳(メタデータ) (2023-05-30T15:13:17Z) - Context-LGM: Leveraging Object-Context Relation for Context-Aware Object
Recognition [48.5398871460388]
本稿では,オブジェクト・コンテキスト関係を階層的にモデル化する新しいコンテキスト潜在生成モデル(Contextual Latent Generative Model,Context-LGM)を提案する。
文脈的特徴を推定するために、変数自動エンコーダ(VAE)の目的関数を再構成し、対象物に対する後続条件付き分布として文脈的特徴を学習する。
本手法の有効性は,2つのコンテキスト認識オブジェクト認識タスクにおける最先端性能によって検証される。
論文 参考訳(メタデータ) (2021-10-08T11:31:58Z) - Context-Aware Layout to Image Generation with Enhanced Object Appearance [123.62597976732948]
レイアウト・トゥ・イメージ(l2i)生成モデルの目的は、自然背景(スタフ)に対して複数のオブジェクト(もの)を含む複雑な画像を生成することである。
既存のL2Iモデルは大きな進歩を遂げているが、オブジェクト間とオブジェクト間の関係はしばしば壊れている。
これらの原因は、ジェネレータにコンテキスト認識オブジェクトや機能エンコーディングがないことと、識別装置に位置依存の外観表現がないことにあります。
論文 参考訳(メタデータ) (2021-03-22T14:43:25Z) - Learning from Context or Names? An Empirical Study on Neural Relation
Extraction [112.06614505580501]
テキストにおける2つの主要な情報ソースの効果について検討する:テキストコンテキストとエンティティ参照(名前)
本稿では,関係抽出のための実体型コントラスト事前学習フレームワーク(RE)を提案する。
我々のフレームワークは、異なるREシナリオにおけるニューラルモデルの有効性と堅牢性を改善することができる。
論文 参考訳(メタデータ) (2020-10-05T11:21:59Z) - Learning Object Detection from Captions via Textual Scene Attributes [70.90708863394902]
キャプションには、オブジェクトの属性やそれらの関係など、画像に関するよりリッチな情報が含まれている、と我々は主張する。
本稿では,この「テキストシーングラフ」の属性を用いて物体検知器を訓練する手法を提案する。
得られたモデルが、いくつかの挑戦的なオブジェクト検出データセットに対して、最先端の結果を達成することを実証的に実証した。
論文 参考訳(メタデータ) (2020-09-30T10:59:20Z) - Spatio-Temporal Graph for Video Captioning with Knowledge Distillation [50.034189314258356]
空間と時間におけるオブジェクトの相互作用を利用したビデオキャプションのためのグラフモデルを提案する。
我々のモデルは解釈可能なリンクを構築し、明示的な視覚的グラウンドを提供することができる。
オブジェクト数の変動による相関を回避するため,オブジェクト認識型知識蒸留機構を提案する。
論文 参考訳(メタデータ) (2020-03-31T03:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。