論文の概要: Enhancing Image Caption Generation Using Reinforcement Learning with
Human Feedback
- arxiv url: http://arxiv.org/abs/2403.06735v1
- Date: Mon, 11 Mar 2024 13:57:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 18:53:53.057770
- Title: Enhancing Image Caption Generation Using Reinforcement Learning with
Human Feedback
- Title(参考訳): 人間フィードバックによる強化学習による画像キャプション生成の促進
- Authors: Adarsh N L, Arun P V, Aravindh N L
- Abstract要約: 本研究では,人間に好まれるキャプションを生成するために,ディープニューラルネットワークモデルの性能を増幅する潜在的手法を検討する。
これは、教師付き学習と強化学習と人間のフィードバックを統合することで達成された。
我々は、人間の協調型生成AIモデル分野における継続的な進歩に寄与することを願って、我々のアプローチと結果のスケッチを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Research on generative models to produce human-aligned / human-preferred
outputs has seen significant recent contributions. Between text and
image-generative models, we narrowed our focus to text-based generative models,
particularly to produce captions for images that align with human preferences.
In this research, we explored a potential method to amplify the performance of
the Deep Neural Network Model to generate captions that are preferred by
humans. This was achieved by integrating Supervised Learning and Reinforcement
Learning with Human Feedback (RLHF) using the Flickr8k dataset. Also, a novel
loss function that is capable of optimizing the model based on human feedback
is introduced. In this paper, we provide a concise sketch of our approach and
results, hoping to contribute to the ongoing advances in the field of
human-aligned generative AI models.
- Abstract(参考訳): 人間/人間の予測されたアウトプットを生成する生成モデルの研究は、近年大きく貢献している。
テキストと画像生成モデルの間では、特に人間の好みに合わせて画像のキャプションを作成するために、テキストベースの生成モデルに焦点を絞りました。
本研究では,人間に好まれるキャプションを生成するために,ディープニューラルネットワークモデルの性能を増幅する潜在的手法を検討した。
これは、Flickr8kデータセットを使用して、Supervised Learning and Reinforcement Learning with Human Feedback (RLHF)を統合することで実現された。
また、人間のフィードバックに基づいてモデルを最適化できる新たな損失関数を導入する。
本稿では,人間の協調型生成AIモデルの分野における継続的な進歩に寄与することを願って,我々のアプローチと成果の簡潔なスケッチを提供する。
関連論文リスト
- Multimodal Large Language Model is a Human-Aligned Annotator for Text-to-Image Generation [87.50120181861362]
VisionPreferは高品質できめ細かい選好データセットで、複数の選好面をキャプチャする。
我々は、VisionPrefer上で報酬モデルVP-Scoreをトレーニングし、テキストから画像への生成モデルのトレーニングを指導し、VP-Scoreの嗜好予測精度は人間のアノテーションに匹敵する。
論文 参考訳(メタデータ) (2024-04-23T14:53:15Z) - YaART: Yet Another ART Rendering Technology [119.09155882164573]
そこで本研究では,ヒトの嗜好に適合する新しい生産段階のテキスト・ツー・イメージ拡散モデルYaARTを紹介した。
これらの選択がトレーニングプロセスの効率と生成された画像の品質にどのように影響するかを分析する。
高品質な画像の小さなデータセットでトレーニングされたモデルが、より大きなデータセットでトレーニングされたモデルとうまく競合できることを実証する。
論文 参考訳(メタデータ) (2024-04-08T16:51:19Z) - Enhancing Image Captioning with Neural Models [0.0]
本研究では, 異なるニューラルアーキテクチャの性能について検討し, インジェクションアーキテクチャに着目し, キャプション生成を評価するための新しい品質指標を提案する。
その結果、マージモデルはより大きな語彙と高いROUGEスコアを示す一方で、インジェクションアーキテクチャは関連性があり簡潔な画像キャプションを生成することがわかった。
論文 参考訳(メタデータ) (2023-12-01T09:06:56Z) - RenAIssance: A Survey into AI Text-to-Image Generation in the Era of
Large Model [93.8067369210696]
テキスト・ツー・イメージ生成(テキスト・トゥ・イメージ・ジェネレーション、英: Text-to-image Generation、TTI)とは、テキスト入力を処理し、テキスト記述に基づいて高忠実度画像を生成するモデルである。
拡散モデル (diffusion model) は、繰り返しステップによるノイズの体系的導入を通じて画像の生成に使用される顕著な生成モデルである。
大規模モデルの時代、モデルサイズを拡大し、大規模言語モデルとの統合により、TTIモデルの性能がさらに向上した。
論文 参考訳(メタデータ) (2023-09-02T03:27:20Z) - Bridging the Gap: A Survey on Integrating (Human) Feedback for Natural
Language Generation [68.9440575276396]
この調査は、人間のフィードバックを利用して自然言語生成を改善した最近の研究の概要を提供することを目的としている。
まず、フィードバックの形式化を包括的に導入し、この形式化に続いて既存の分類学研究を特定・整理する。
第二に、フィードバックを形式や目的によってどのように記述するかを議論し、フィードバック(トレーニングやデコード)を直接使用したり、フィードバックモデルをトレーニングしたりするための2つのアプローチについて取り上げる。
第3に、AIフィードバックの生まれたばかりの分野の概要を紹介します。これは、大きな言語モデルを利用して、一連の原則に基づいて判断し、必要最小限にします。
論文 参考訳(メタデータ) (2023-05-01T17:36:06Z) - Aligning Text-to-Image Models using Human Feedback [104.76638092169604]
現在のテキスト・ツー・イメージモデルは、しばしばテキスト・プロンプトと不適切に一致した画像を生成する。
そこで本研究では,人間のフィードバックを用いて,そのようなモデルを調整するための微調整手法を提案する。
その結果,人間のフィードバックから学び,テキスト・ツー・イメージ・モデルを大幅に改善する可能性が示された。
論文 参考訳(メタデータ) (2023-02-23T17:34:53Z) - Chain of Hindsight Aligns Language Models with Feedback [62.68665658130472]
我々は,その極性に関係なく,任意の形式のフィードバックから学習し,最適化が容易な新しい手法であるChain of Hindsightを提案する。
我々は、あらゆる種類のフィードバックを文のシーケンスに変換し、それをモデルを微調整するために使用する。
そうすることで、モデルはフィードバックに基づいて出力を生成するように訓練され、負の属性やエラーを特定し修正する。
論文 参考訳(メタデータ) (2023-02-06T10:28:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。