論文の概要: Improving Image Captioning by Mimicking Human Reformulation Feedback at Inference-time
- arxiv url: http://arxiv.org/abs/2501.04513v1
- Date: Wed, 08 Jan 2025 14:00:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-09 14:56:52.565350
- Title: Improving Image Captioning by Mimicking Human Reformulation Feedback at Inference-time
- Title(参考訳): 推論時間におけるヒト再構成フィードバックの緩和による画像キャプションの改善
- Authors: Uri Berger, Omri Abend, Lea Frermann, Gabriel Stanovsky,
- Abstract要約: そこで我々は,人間のアノテーションに基づくリフォームフィードバックを模倣するために,新しいタイプのフィードバック(キャプション改訂)とモデルを訓練する。
本手法は,画像キャプションモデル自体のトレーニングを必要としないため,計算作業の大幅な削減が要求される。
既存の画像キャプションモデルの推論フェーズに、このデータに基づいてトレーニングされた再構成モデルを組み込むことで、キャプションの改善が期待できる。
- 参考スコア(独自算出の注目度): 35.71703501731082
- License:
- Abstract: Incorporating automatically predicted human feedback into the process of training generative models has attracted substantial recent interest, while feedback at inference time has received less attention. The typical feedback at training time, i.e., preferences of choice given two samples, does not naturally transfer to the inference phase. We introduce a novel type of feedback -- caption reformulations -- and train models to mimic reformulation feedback based on human annotations. Our method does not require training the image captioning model itself, thereby demanding substantially less computational effort. We experiment with two types of reformulation feedback: first, we collect a dataset of human reformulations that correct errors in the generated captions. We find that incorporating reformulation models trained on this data into the inference phase of existing image captioning models results in improved captions, especially when the original captions are of low quality. We apply our method to non-English image captioning, a domain where robust models are less prevalent, and gain substantial improvement. Second, we apply reformulations to style transfer. Quantitative evaluations reveal state-of-the-art performance on German image captioning and English style transfer, while human validation with a detailed comparative framework exposes the specific axes of improvement.
- Abstract(参考訳): 自動予測された人間のフィードバックを生成モデルの訓練プロセスに組み込むことは、近年、かなりの関心を集めている一方、推論時のフィードバックは、あまり注目されていない。
トレーニング時の典型的なフィードバック、すなわち2つのサンプルが与えられた選択の好みは、推論フェーズに自然に移行しない。
そこで我々は,人間のアノテーションに基づくリフォームフィードバックを模倣するために,新しいタイプのフィードバック(キャプションの修正)とモデルを訓練する。
本手法は,画像キャプションモデル自体のトレーニングを必要としないため,計算作業の大幅な削減が要求される。
まず、生成されたキャプションの誤りを訂正する人間のリフォームのデータセットを収集する。
既存の画像キャプションモデルの推論フェーズに、このデータに基づいてトレーニングされた再構成モデルを組み込むことで、特にオリジナルのキャプションが低品質である場合には、キャプションの改善が期待できる。
我々は、ロバストモデルがあまり普及しない領域であるノンイングリッシュ画像キャプションに適用し、大幅に改善した。
第2に、スタイル転送に改定を適用する。
定量的評価により,ドイツの画像キャプションと英語スタイルの転送における最先端のパフォーマンスが明らかにされる一方,詳細な比較フレームワークによる人間による検証では,改善の特定の軸が露呈される。
関連論文リスト
- Precision or Recall? An Analysis of Image Captions for Training Text-to-Image Generation Model [32.14771853421448]
テキスト・ツー・イメージ・モデルトレーニングにおけるキャプション精度とリコールの重要な役割について分析する。
我々は、大規模視覚言語モデルを用いて、学習のための合成キャプションを生成する。
論文 参考訳(メタデータ) (2024-11-07T19:00:37Z) - Improving face generation quality and prompt following with synthetic captions [57.47448046728439]
画像から正確な外観記述を生成するために,トレーニング不要のパイプラインを導入する。
次に、これらの合成キャプションを使用して、テキストから画像への拡散モデルを微調整する。
提案手法は,高品質で現実的な人間の顔を生成するモデルの能力を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-05-17T15:50:53Z) - Bridging the Gap: A Survey on Integrating (Human) Feedback for Natural
Language Generation [68.9440575276396]
この調査は、人間のフィードバックを利用して自然言語生成を改善した最近の研究の概要を提供することを目的としている。
まず、フィードバックの形式化を包括的に導入し、この形式化に続いて既存の分類学研究を特定・整理する。
第二に、フィードバックを形式や目的によってどのように記述するかを議論し、フィードバック(トレーニングやデコード)を直接使用したり、フィードバックモデルをトレーニングしたりするための2つのアプローチについて取り上げる。
第3に、AIフィードバックの生まれたばかりの分野の概要を紹介します。これは、大きな言語モデルを利用して、一連の原則に基づいて判断し、必要最小限にします。
論文 参考訳(メタデータ) (2023-05-01T17:36:06Z) - HIVE: Harnessing Human Feedback for Instructional Visual Editing [127.29436858998064]
本稿では,ヒューマンフィードバックを利用した指導視覚編集(HIVE)のための新しいフレームワークを提案する。
具体的には、編集された画像に対する人間のフィードバックを収集し、報酬関数を学習して、基礎となるユーザの好みをキャプチャする。
次に、推定報酬に基づいて人間の好みを組み込むスケーラブルな拡散モデル微調整手法を提案する。
論文 参考訳(メタデータ) (2023-03-16T19:47:41Z) - Aligning Text-to-Image Models using Human Feedback [104.76638092169604]
現在のテキスト・ツー・イメージモデルは、しばしばテキスト・プロンプトと不適切に一致した画像を生成する。
そこで本研究では,人間のフィードバックを用いて,そのようなモデルを調整するための微調整手法を提案する。
その結果,人間のフィードバックから学び,テキスト・ツー・イメージ・モデルを大幅に改善する可能性が示された。
論文 参考訳(メタデータ) (2023-02-23T17:34:53Z) - Caption Enriched Samples for Improving Hateful Memes Detection [78.5136090997431]
憎しみのあるミームの挑戦は、ミームが憎悪であるか否かを決定するのが困難であることを示している。
ユニモーダル言語モデルとマルチモーダル視覚言語モデルの両方が人間のパフォーマンスレベルに到達できない。
論文 参考訳(メタデータ) (2021-09-22T10:57:51Z) - Macroscopic Control of Text Generation for Image Captioning [4.742874328556818]
問題を解くために2つの新しい方法が導入された。
前者問題に対して,文品質,文長,文時制,名詞数などのマクロ文属性を制御可能な制御信号を導入する。
後者の問題に対して,画像テキストマッチングモデルを用いて,前向きと後向きの両方で生成した文の品質を測定し,最終的に適切な文を選択する戦略を革新的に提案する。
論文 参考訳(メタデータ) (2021-01-20T07:20:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。