論文の概要: Learning Compact Reward for Image Captioning
- arxiv url: http://arxiv.org/abs/2003.10925v1
- Date: Tue, 24 Mar 2020 15:31:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 08:14:01.203134
- Title: Learning Compact Reward for Image Captioning
- Title(参考訳): 画像キャプションのためのコンパクト報酬の学習
- Authors: Nannan Li, Zhenzhong Chen
- Abstract要約: 本稿では,報酬あいまいさ問題に対処する改良された逆逆強化学習法(rAIRL)を提案する。
我々は,MS COCOとFlickr30Kを用いた実験により,画像キャプションのコンパクトな報酬を学習できることを実証した。
- 参考スコア(独自算出の注目度): 68.61251746898323
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adversarial learning has shown its advances in generating natural and diverse
descriptions in image captioning. However, the learned reward of existing
adversarial methods is vague and ill-defined due to the reward ambiguity
problem. In this paper, we propose a refined Adversarial Inverse Reinforcement
Learning (rAIRL) method to handle the reward ambiguity problem by disentangling
reward for each word in a sentence, as well as achieve stable adversarial
training by refining the loss function to shift the generator towards Nash
equilibrium. In addition, we introduce a conditional term in the loss function
to mitigate mode collapse and to increase the diversity of the generated
descriptions. Our experiments on MS COCO and Flickr30K show that our method can
learn compact reward for image captioning.
- Abstract(参考訳): 敵対的学習は、画像キャプションにおいて自然かつ多様な記述を生成することの進歩を示している。
しかし、既存の敵対的手法の学習された報酬は、報酬の曖昧さの問題により曖昧で不明確なものである。
本稿では,文中の各単語に対する報酬を分散させることにより,報酬あいまいさ問題に対処する改良された逆逆強化学習(rAIRL)手法を提案する。
さらに,モード崩壊を緩和し,生成した記述の多様性を高めるために,損失関数の条件項を導入する。
我々は,MS COCOとFlickr30Kを用いた実験により,画像キャプションのコンパクトな報酬を学習できることを示した。
関連論文リスト
- Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis [70.58988592832684]
PGPIS(Pose-Guided Person Image Synthesis)のためのCFLD(Coarse-to-Fine Latent Diffusion)法を提案する。
認識修正デコーダは、学習可能なクエリの集合を段階的に洗練し、粗いプロンプトとして人物画像の意味的理解を抽出するように設計されている。
論文 参考訳(メタデータ) (2024-02-28T06:07:07Z) - DenoSent: A Denoising Objective for Self-Supervised Sentence
Representation Learning [59.4644086610381]
本稿では,他の視点,すなわち文内視点から継承する新たな認知的目的を提案する。
離散ノイズと連続ノイズの両方を導入することで、ノイズの多い文を生成し、モデルを元の形式に復元するように訓練する。
我々の経験的評価は,本手法が意味的テキスト類似性(STS)と幅広い伝達タスクの両面で競合する結果をもたらすことを示した。
論文 参考訳(メタデータ) (2024-01-24T17:48:45Z) - Reconstruction Distortion of Learned Image Compression with
Imperceptible Perturbations [69.25683256447044]
本稿では,学習画像圧縮(lic)の再構成品質を効果的に劣化させる攻撃手法を提案する。
我々は,Frobeniusノルムに基づく損失関数を導入して,元の画像と再構成された逆例との差を最大化することによって,逆例を生成する。
様々なlicモデルを用いてKodakデータセット上で実験を行った結果,有効性が確認された。
論文 参考訳(メタデータ) (2023-06-01T20:21:05Z) - CoReFace: Sample-Guided Contrastive Regularization for Deep Face
Recognition [3.1677775852317085]
特徴表現学習に画像レベルの正規化を適用するために,CoReFace(Contrastive Regularization for Face Recognition)を提案する。
具体的には、サンプル誘導型コントラスト学習を用いて、画像と画像の関係を直接調整する。
コントラスト学習を顔認識に統合するため,画像の画質劣化を回避するために,画像の代わりに埋め込みを拡大する。
論文 参考訳(メタデータ) (2023-04-23T14:33:24Z) - Unpaired Deep Image Dehazing Using Contrastive Disentanglement Learning [36.24651058888557]
そこで本稿では,未ペアのクリアでヘイズな画像の集合から,効果的な未ペア学習に基づく画像デハージングネットワークを提案する。
提案手法は,既存の最先端デヘイズ手法に対して良好に機能することを示す。
論文 参考訳(メタデータ) (2022-03-15T06:45:03Z) - Robust Contrastive Learning against Noisy Views [79.71880076439297]
ノイズの多い視点に対して頑健な新しいコントラスト損失関数を提案する。
提案手法は,最新の画像,ビデオ,グラフのコントラスト学習ベンチマークに対して一貫した改善を提供する。
論文 参考訳(メタデータ) (2022-01-12T05:24:29Z) - ExCon: Explanation-driven Supervised Contrastive Learning for Image
Classification [12.109442912963969]
本稿では,サリエンシに基づく説明手法を活用して,コンテント保存型マスク強化によるコントラスト学習を提案する。
提案手法は, 近距離画像の埋め込みに類似した内容と説明を与えるという2つの目的を, 批判的に果たすものである。
ExConは、分類、説明品質、対向ロバスト性、および分布シフトの文脈におけるモデルの確率的予測のキャリブレーションの観点から、バニラ指導によるコントラスト学習より優れていることを示す。
論文 参考訳(メタデータ) (2021-11-28T23:15:26Z) - Annotation-Efficient Learning for Medical Image Segmentation based on
Noisy Pseudo Labels and Adversarial Learning [12.781598229608983]
医療画像セグメンテーションのためのアノテーション効率の高い学習フレームワークを提案する。
我々は、改良されたサイクル一貫性生成適応ネットワーク(GAN)を用いて、障害のない医療画像と補助マスクのセットから学習する。
基礎画像の光学ディスクや超音波画像の胎児頭部のような単純な形状の物体、X線画像の肺やCT画像の肝臓のような複雑な構造、という2つの状況で、我々の枠組みを検証した。
論文 参考訳(メタデータ) (2020-12-29T03:22:41Z) - Contrastive Learning for Weakly Supervised Phrase Grounding [99.73968052506206]
単語領域の注目度を最適化することにより,句の接頭辞が学習可能であることを示す。
キーとなる考え方は、言語モデルに基づく単語置換を通して学習するための効果的な負のキャプションを構築することである。
COCO-Captionsでトレーニングされた弱い教師付きフレーズグラウンドモデルは、Flickr30Kベンチマークで76.7%の精度を達成するために、健全な5.7%の上昇を示している。
論文 参考訳(メタデータ) (2020-06-17T15:00:53Z) - oIRL: Robust Adversarial Inverse Reinforcement Learning with Temporally
Extended Actions [37.66289166905027]
与えられた環境に対する報酬関数の明示的エンジニアリングは、強化学習方法の大きな障害となっている。
本稿では,階層的不整合報酬を選択肢に対するポリシーで学習するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-20T22:21:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。