論文の概要: Finding It at Another Side: A Viewpoint-Adapted Matching Encoder for
Change Captioning
- arxiv url: http://arxiv.org/abs/2009.14352v1
- Date: Wed, 30 Sep 2020 00:13:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 23:55:22.808705
- Title: Finding It at Another Side: A Viewpoint-Adapted Matching Encoder for
Change Captioning
- Title(参考訳): 反対側でそれを見つける: 変更キャプションのためのビューポイント適応マッチングエンコーダ
- Authors: Xiangxi Shi, Xu Yang, Jiuxiang Gu, Shafiq Joty, and Jianfei Cai
- Abstract要約: 本稿では,変化字幕タスクにおける意味的変化と視点的変化を明確に区別する新しいビジュアルエンコーダを提案する。
また,言語評価報酬を直接微調整する新たな強化学習手法を提案する。
提案手法は,Spot-the-DiffデータセットとCLEVR-Changeデータセットの両方において,最先端のアプローチよりも大きなマージンで優れている。
- 参考スコア(独自算出の注目度): 41.044241265804125
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Change Captioning is a task that aims to describe the difference between
images with natural language. Most existing methods treat this problem as a
difference judgment without the existence of distractors, such as viewpoint
changes. However, in practice, viewpoint changes happen often and can overwhelm
the semantic difference to be described. In this paper, we propose a novel
visual encoder to explicitly distinguish viewpoint changes from semantic
changes in the change captioning task. Moreover, we further simulate the
attention preference of humans and propose a novel reinforcement learning
process to fine-tune the attention directly with language evaluation rewards.
Extensive experimental results show that our method outperforms the
state-of-the-art approaches by a large margin in both Spot-the-Diff and
CLEVR-Change datasets.
- Abstract(参考訳): Change Captioningは、自然言語による画像の違いを記述することを目的としたタスクである。
既存のほとんどの手法では、視点の変化のような障害のない差分判定としてこの問題を扱う。
しかし、実際には視点の変化が頻繁に起こり、説明すべき意味的な違いを圧倒することがある。
本稿では,変化キャプションタスクにおける意味的変化と視点変化を明確に区別する新しいビジュアルエンコーダを提案する。
さらに,人間の注意選好をシミュレートし,言語評価の報奨と直接注意を調整するための新しい強化学習プロセスを提案する。
実験結果から,本手法はSpot-the-DiffとCLEVR-Changeの両方のデータセットにおいて,最先端の手法よりも高い性能を示した。
関連論文リスト
- Distractors-Immune Representation Learning with Cross-modal Contrastive Regularization for Change Captioning [71.14084801851381]
変更キャプションは、類似した画像間のセマンティックな変化を簡潔に記述することを目的としている。
既存のほとんどの手法は、それらの違いを直接キャプチャし、エラーを起こしやすい特徴を得るリスクを負う。
本稿では,2つの画像表現の対応するチャネルを関連づけるイントラクタ免疫表現学習ネットワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T13:00:33Z) - Context-aware Difference Distilling for Multi-change Captioning [106.72151597074098]
マルチチェンジキャプションは、自然言語でイメージペア内の複雑で結合的な変化を記述することを目的としている。
そこで本稿では, 文収量に対する真の変化をすべて捉えるための, 文脈認識型差分蒸留ネットワークを提案する。
論文 参考訳(メタデータ) (2024-05-31T14:07:39Z) - Neighborhood Contrastive Transformer for Change Captioning [80.10836469177185]
本研究では,異なる環境下での様々な変化に対するモデルの知覚能力を向上させるために,近傍のコントラスト変換器を提案する。
提案手法は,変化シナリオの異なる3つの公開データセットに対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-06T14:39:54Z) - Word-Level Fine-Grained Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、動的シーンやキャラクターをまたいだグローバルな一貫性を備えた多文ストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は画像の品質と一貫性に苦慮しており、追加のセマンティック情報や補助的なキャプションネットワークに依存している。
まず,全ての物語文からの単語情報を取り入れた新しい文表現を導入し,不整合問題を緩和する。
そこで本稿では,画像の質とストーリーの整合性を改善するために,融合機能を備えた新たな識別器を提案する。
論文 参考訳(メタデータ) (2022-08-03T21:01:47Z) - Audio-Adaptive Activity Recognition Across Video Domains [112.46638682143065]
ドメイン間のばらつきが少なく、どのアクティビティが起こっていないかを確実に示すことができるので、ドメイン適応のためにアクティビティサウンドを活用します。
視覚特徴表現を識別的に調整するオーディオ適応型エンコーダと学習方法を提案する。
また、アクターシフトという新たなタスクを対応するオーディオ・ビジュアル・データセットで導入し、アクターの出現が劇的に変化する状況において、我々の手法に挑戦する。
論文 参考訳(メタデータ) (2022-03-27T08:15:20Z) - Changing the Narrative Perspective: From Deictic to Anaphoric Point of
View [0.0]
そこで,筆者が当初使用していたものと異なる視点を文字に割り当てて,物語の視点を変える作業を紹介する。
その結果、物語的視点の転換は読書体験を変化させ、フィクション執筆の道具として使用できる。
本稿では,参照選択のためのニューラルアーキテクチャに依存する生テキストを処理するパイプラインについて述べる。
論文 参考訳(メタデータ) (2021-03-06T19:03:42Z) - Detection and Description of Change in Visual Streams [20.62923173347949]
本研究では,変化の自然言語記述を生成するために,ラベルのないデータをトレーニングに組み込む新しい手法を提案する。
また、視覚的ストリームの変化時期を推定するフレームワークも開発しています。
学習した表現を変化証拠と認識された変化の一貫性に使用し、それらを正規化グラフカットに基づく変化検出器に組み合わせる。
論文 参考訳(メタデータ) (2020-03-27T20:49:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。