論文の概要: Pragmatic Inference with a CLIP Listener for Contrastive Captioning
- arxiv url: http://arxiv.org/abs/2306.08818v1
- Date: Thu, 15 Jun 2023 02:22:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 16:54:12.980316
- Title: Pragmatic Inference with a CLIP Listener for Contrastive Captioning
- Title(参考訳): コントラストキャプションのためのCLIPリスナーによる語用推論
- Authors: Jiefu Ou, Benno Krojer and Daniel Fried
- Abstract要約: そこで本研究では、ターゲット画像と、非常に類似した代替画像とを区別する識別キャプションを生成する手法を提案する。
提案手法は,話者とリスナ間の参照ゲームとしてキャプションを定式化する実用的な推論手法に基づいている。
- 参考スコア(独自算出の注目度): 10.669625017690658
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a simple yet effective and robust method for contrastive
captioning: generating discriminative captions that distinguish target images
from very similar alternative distractor images. Our approach is built on a
pragmatic inference procedure that formulates captioning as a reference game
between a speaker, which produces possible captions describing the target, and
a listener, which selects the target given the caption. Unlike previous methods
that derive both speaker and listener distributions from a single captioning
model, we leverage an off-the-shelf CLIP model to parameterize the listener.
Compared with captioner-only pragmatic models, our method benefits from rich
vision language alignment representations from CLIP when reasoning over
distractors. Like previous methods for discriminative captioning, our method
uses a hyperparameter to control the tradeoff between the informativity (how
likely captions are to allow a human listener to discriminate the target image)
and the fluency of the captions. However, we find that our method is
substantially more robust to the value of this hyperparameter than past
methods, which allows us to automatically optimize the captions for
informativity - outperforming past methods for discriminative captioning by 11%
to 15% accuracy in human evaluations
- Abstract(参考訳): そこで,本論文では,ターゲット画像と類似の代替画像とを識別する識別キャプションを生成する,シンプルで効果的かつ堅牢なコントラストキャプション手法を提案する。
提案手法は, 対象を記述可能なキャプションを生成する話者と, 与えられたキャプションを選択するリスナーとの間に, 参照ゲームとしてキャプションを定式化する実用的推論手法に基づいている。
単一キャプションモデルから話者分布とリスナー分布を導出する従来の手法とは異なり、既成のCLIPモデルを用いてリスナーのパラメータ化を行う。
提案手法は,キャプタのみの実用モデルと比較した場合,CLIPからのリッチビジョン言語アライメント表現の恩恵を受ける。
従来の識別的キャプション法と同様に,本手法ではハイパーパラメータを用いて情報伝達率のトレードオフを制御している(人間の聴取者が対象画像の識別を行えるようにするためのキャプションの可能性)。
しかし,本手法は過去の手法に比べて,このハイパーパラメータの値に対してかなり堅牢であることが判明し,人間の評価において従来の識別的キャプションの精度を11%から15%向上させた。
関連論文リスト
- Character-aware audio-visual subtitling in context [58.95580154761008]
本稿では,テレビ番組における文字認識型音声視覚サブタイピングのための改良されたフレームワークを提案する。
提案手法は,音声認識,話者ダイアリゼーション,文字認識を統合し,音声と視覚の両方を活用する。
提案手法を12テレビ番組のデータセット上で検証し,既存手法と比較して話者ダイアリゼーションと文字認識精度に優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T20:27:34Z) - Fluent and Accurate Image Captioning with a Self-Trained Reward Model [47.213906345208315]
本稿では,自己生成陰性に基づく学習可能な報酬モデルに基づくキャプション手法であるSelf-Capを提案する。
我々の識別器は、字幕の正しさを促進するために訓練された微調整されたコントラスト画像テキストモデルである。
論文 参考訳(メタデータ) (2024-08-29T18:00:03Z) - Zero-Shot Audio Captioning via Audibility Guidance [57.70351255180495]
音声のキャプションのためのデシラタを3つ提案する -- (i) 生成したテキストの流布, (ii) 生成したテキストを入力オーディオに忠実さ, (iii) 可聴性。
本手法はゼロショット法であり,キャプションの実行を学習していない。
本稿では,AudioCapデータセットを用いて,聴力指導がベースラインと比較して性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:45:58Z) - Cross-Domain Image Captioning with Discriminative Finetuning [20.585138136033905]
自己監督的な識別的コミュニケーションの目的を持ったアウト・オブ・ザ・ボックスのニューラルキャプタを微調整することは、プレーンで視覚的に記述された言語を回復するのに役立ちます。
画像識別タスクを担っているヒトのアノテータに対して,Vanilla ClipCapのキャプションや接地木キャプションよりも,識別的に微調整されたキャプションの方が有用であることを示す。
論文 参考訳(メタデータ) (2023-04-04T09:33:16Z) - Controllable Image Captioning [0.0]
本稿では,パートオフ音声タグとセマンティクスの相互依存を捉えることで,多様な記述を生成できる画像キャプションのための新しいフレームワークを提案する。
入力されたPart-Of-Speechタグシーケンスに基づいて単語を予測するトランスフォーマーネットワークを介してキャプションを生成する手法を提案する。
論文 参考訳(メタデータ) (2022-04-28T07:47:49Z) - Caption Feature Space Regularization for Audio Captioning [24.40864471466915]
一般的な音声キャプションモデルは、音声毎に関連付けられたキャプションを基本真実としてランダムに選択することにより、一対多の訓練を実現する。
音声キャプションのための2段階のフレームワークを提案する: (i) コントラスト学習を通して、同じオーディオに関連付けられたキャプション間の距離を減らすためにプロキシ特徴空間を構築し、 (ii) 第二段階では、プロキシ特徴空間を追加のインスペクションとして利用し、関連するすべてのキャプションに利益をもたらす方向にモデルが最適化されるように促す。
論文 参考訳(メタデータ) (2022-04-18T17:07:31Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。