論文の概要: Switching to Discriminative Image Captioning by Relieving a Bottleneck
of Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2212.03230v1
- Date: Tue, 6 Dec 2022 18:55:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 15:38:02.876182
- Title: Switching to Discriminative Image Captioning by Relieving a Bottleneck
of Reinforcement Learning
- Title(参考訳): 強化学習のボトルネックを緩和した識別的画像キャプションへの切り替え
- Authors: Ukyo Honda, Taro Watanabe, Yuji Matsumoto
- Abstract要約: 予期せぬ低識別性の原因について検討し、RLが出力語を高周波語に制限する根深い副作用を有することを示す。
低周波語生成を促すため, 識別画像の字幕化を極めて単純な課題として再検討した。
本手法は,市販のRLモデルの識別性を著しく向上させ,計算コストをはるかに小さくした従来の識別性認識手法よりも優れていた。
- 参考スコア(独自算出の注目度): 24.676231888909097
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Discriminativeness is a desirable feature of image captions: captions should
describe the characteristic details of input images. However, recent
high-performing captioning models, which are trained with reinforcement
learning (RL), tend to generate overly generic captions despite their high
performance in various other criteria. First, we investigate the cause of the
unexpectedly low discriminativeness and show that RL has a deeply rooted side
effect of limiting the output words to high-frequency words. The limited
vocabulary is a severe bottleneck for discriminativeness as it is difficult for
a model to describe the details beyond its vocabulary. Then, based on this
identification of the bottleneck, we drastically recast discriminative image
captioning as a much simpler task of encouraging low-frequency word generation.
Hinted by long-tail classification and debiasing methods, we propose methods
that easily switch off-the-shelf RL models to discriminativeness-aware models
with only a single-epoch fine-tuning on the part of the parameters. Extensive
experiments demonstrate that our methods significantly enhance the
discriminativeness of off-the-shelf RL models and even outperform previous
discriminativeness-aware methods with much smaller computational costs.
Detailed analysis and human evaluation also verify that our methods boost the
discriminativeness without sacrificing the overall quality of captions.
- Abstract(参考訳): 識別性は画像キャプションの望ましい特徴である:キャプションは入力画像の特徴的詳細を記述する必要がある。
しかし、強化学習(rl)で訓練された最近のハイパフォーマンスキャプションモデルは、他の様々な基準でのハイパフォーマンスにもかかわらず、過度に汎用的なキャプションを生成する傾向がある。
まず, 予期せぬ低判別性の原因について検討し, 出力語を高周波語に限定することで, rlが深く根ざした副作用を持つことを示す。
限定語彙は、モデルがその語彙を超えた詳細を記述することが困難であるため、識別のボトルネックとなる。
そして,このボトルネックの同定に基づいて,低頻度の単語生成を促すタスクとして,識別的画像キャプションを劇的に再キャストする。
長い尾の分類とデバイアス化の手法を用いて, パラメータの一部に単一エピック微調整のみを施した識別性認識モデルに, オフザシェルフRLモデルを簡単に切り替える手法を提案する。
大規模な実験により,本手法は市販のRLモデルの識別性を著しく向上させ,計算コストをはるかに小さくした従来の識別性認識手法よりも優れていた。
詳細な分析と人格評価は,字幕全体の品質を犠牲にすることなく識別性を高めることを検証した。
関連論文リスト
- IG Captioner: Information Gain Captioners are Strong Zero-shot Classifiers [31.455819448471157]
生成的トレーニングは視覚言語モデルを構築する上で強力であることが示されている。
ゼロショット判別ベンチマークでは、生成的および差別的目的で訓練されたモデルの間にはまだパフォーマンスのギャップがある。
本稿では,分類作業における生成学習の有効性を向上させることにより,このギャップを狭めることを目的とする。
論文 参考訳(メタデータ) (2023-11-27T19:00:06Z) - Pragmatic Inference with a CLIP Listener for Contrastive Captioning [10.669625017690658]
そこで本研究では、ターゲット画像と、非常に類似した代替画像とを区別する識別キャプションを生成する手法を提案する。
提案手法は,話者とリスナ間の参照ゲームとしてキャプションを定式化する実用的な推論手法に基づいている。
論文 参考訳(メタデータ) (2023-06-15T02:22:28Z) - Discffusion: Discriminative Diffusion Models as Few-shot Vision and Language Learners [88.07317175639226]
本稿では,事前学習したテキストと画像の拡散モデルを数ショットの識別学習者に変換する新しい手法,DSDを提案する。
本手法は, 安定拡散モデルにおいて, 視覚情報とテキスト情報の相互影響を捉えるために, クロスアテンションスコアを用いている。
論文 参考訳(メタデータ) (2023-05-18T05:41:36Z) - Discriminative Class Tokens for Text-to-Image Diffusion Models [107.98436819341592]
自由形式のテキストの表現可能性を利用した非侵襲的な微調整手法を提案する。
本手法は,従来の微調整法と比較して高速で,クラス内の画像の収集を必要としない。
i)標準拡散モデルよりも正確で高品質な生成画像,(ii)低リソース環境でのトレーニングデータの拡張,および(iii)誘導分類器の訓練に使用されるデータ情報を明らかにする。
論文 参考訳(メタデータ) (2023-03-30T05:25:20Z) - Enhancing Fine-Grained Classification for Low Resolution Images [97.82441158440527]
低解像度画像は、限られた情報内容の固有の課題と、サブカテゴリ分類に有用な詳細の欠如に悩まされる。
本研究では,補助情報を用いて分類の識別的特徴を学習する,新たな属性支援損失を提案する。
提案する損失関数により、モデルは属性レベルの分離性を取り入れながら、クラス固有の識別特徴を学習することができる。
論文 参考訳(メタデータ) (2021-05-01T13:19:02Z) - Discriminatively-Tuned Generative Classifiers for Robust Natural
Language Inference [59.62779187457773]
自然言語推論のための生成型分類器(NLI)を提案する。
差別モデルやBERTのような大規模事前学習言語表現モデルを含む5つのベースラインと比較する。
実験の結果、GenNLIはいくつかの挑戦的なNLI実験環境において差別的ベースラインと事前訓練ベースラインの両方に優れていた。
論文 参考訳(メタデータ) (2020-10-08T04:44:00Z) - Discriminative Residual Analysis for Image Set Classification with
Posture and Age Variations [27.751472312581228]
識別残差分析(DRA)は分類性能を向上させるために提案される。
DRAは、残差表現を識別部分空間にキャストする強力な射影を得ようとする。
2つの正則化アプローチは、可能な小さなサンプルサイズ問題に対処するために使用される。
論文 参考訳(メタデータ) (2020-08-23T08:53:06Z) - Blind Face Restoration via Deep Multi-scale Component Dictionaries [75.02640809505277]
劣化した観測の復元過程をガイドするディープフェイス辞書ネットワーク(DFDNet)を提案する。
DFDNetは高品質な画像から知覚的に重要な顔成分のディープ辞書を生成する。
コンポーネントAdaINは、入力機能と辞書機能の間のスタイルの多様性を取り除くために利用される。
論文 参考訳(メタデータ) (2020-08-02T07:02:07Z) - Fine-Grained Image Captioning with Global-Local Discriminative Objective [80.73827423555655]
本研究では, 細粒度記述キャプションの生成を容易にするため, グローバルな識別目的を提案する。
提案手法をMS-COCOデータセット上で評価した。
論文 参考訳(メタデータ) (2020-07-21T08:46:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。