論文の概要: Putting Humans in the Image Captioning Loop
- arxiv url: http://arxiv.org/abs/2306.03476v1
- Date: Tue, 6 Jun 2023 07:50:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 16:42:06.537699
- Title: Putting Humans in the Image Captioning Loop
- Title(参考訳): 画像キャプションループに人間を配置する
- Authors: Aliki Anagnostopoulou and Mareike Hartmann and Daniel Sonntag
- Abstract要約: 我々は,人的フィードバックを統合するためのICシステムへの取り組みについて述べる。
提案手法は,MS COCOデータセットに基づいて事前学習したベースICモデルに基づいて,未確認画像のキャプションを生成する。
このアプローチが結果の改善につながる一方で、カスタマイズ可能なICモデルも実現することを期待しています。
- 参考スコア(独自算出の注目度): 8.584932159968002
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image Captioning (IC) models can highly benefit from human feedback in the
training process, especially in cases where data is limited. We present
work-in-progress on adapting an IC system to integrate human feedback, with the
goal to make it easily adaptable to user-specific data. Our approach builds on
a base IC model pre-trained on the MS COCO dataset, which generates captions
for unseen images. The user will then be able to offer feedback on the image
and the generated/predicted caption, which will be augmented to create
additional training instances for the adaptation of the model. The additional
instances are integrated into the model using step-wise updates, and a sparse
memory replay component is used to avoid catastrophic forgetting. We hope that
this approach, while leading to improved results, will also result in
customizable IC models.
- Abstract(参考訳): 画像キャプション(ic)モデルは、特にデータが制限された場合において、トレーニングプロセスにおける人間のフィードバックの恩恵を受ける。
我々は、ユーザ固有のデータに容易に適応できるようにすることを目的として、人間のフィードバックを統合するため、ICシステムに適応する作業を行う。
提案手法は,MS COCOデータセットに基づいて事前学習したベースICモデルに基づいて,未確認画像のキャプションを生成する。
ユーザは、画像と生成された/予測されたキャプションに対するフィードバックを提供することができ、モデル適応のための追加のトレーニングインスタンスを作成することができる。
追加インスタンスはステップワイズアップデートを使用してモデルに統合され、破滅的な忘れ物を避けるためにスパースメモリ再生コンポーネントが使用される。
このアプローチが結果の改善につながる一方で、カスタマイズ可能なICモデルも実現することを期待しています。
関連論文リスト
- Enhancing Image Caption Generation Using Reinforcement Learning with
Human Feedback [0.0]
本研究では,人間に好まれるキャプションを生成するために,ディープニューラルネットワークモデルの性能を増幅する潜在的手法を検討する。
これは、教師付き学習と強化学習と人間のフィードバックを統合することで達成された。
我々は、人間の協調型生成AIモデル分野における継続的な進歩に寄与することを願って、我々のアプローチと結果のスケッチを提供する。
論文 参考訳(メタデータ) (2024-03-11T13:57:05Z) - Scaling Laws of Synthetic Images for Model Training ... for Now [54.43596959598466]
本研究では, 合成画像のスケーリング法則について, テクスト・ツー・イメージ・モデルの現状から検討した。
合成画像は、CLIPトレーニングの実際の画像と似ているが、やや効果の低いスケーリング傾向を示す。
論文 参考訳(メタデータ) (2023-12-07T18:59:59Z) - Vision-by-Language for Training-Free Compositional Image Retrieval [78.60509831598745]
合成画像検索(CIR)は、データベース内の関連する対象画像を検索することを目的としている。
大規模視覚言語モデル(VLM)を用いた最近の研究動向
我々は、CIReVL(Vision-by-Language)による学習自由なCIRへの取り組みを提案する。
論文 参考訳(メタデータ) (2023-10-13T17:59:38Z) - Evaluating Data Attribution for Text-to-Image Models [62.844382063780365]
我々は,既存の大規模モデルを与えられた模範オブジェクトやスタイルにチューニングする「カストミゼーション」手法による属性評価を行う。
私たちのキーとなる洞察は、これによって、構築によって模範にコンピュータ的に影響される合成画像を効率的に作成できるということです。
問題の本質的な不確実性を考慮することで、一連のトレーニング画像に対してソフトな属性スコアを割り当てることができる。
論文 参考訳(メタデータ) (2023-06-15T17:59:51Z) - Towards Adaptable and Interactive Image Captioning with Data
Augmentation and Episodic Memory [8.584932159968002]
本稿では,画像キャプションのためのIMLパイプラインを提案する。これにより,事前学習したモデルをユーザ入力に基づく新しいデータ分布に漸進的に適応させることができる。
データの増大は結果が悪化するが、たとえ比較的少量のデータが利用可能であったとしても、エピソードメモリは、これまで見られたクラスタからの知識を維持するための効果的な戦略である。
論文 参考訳(メタデータ) (2023-06-06T08:38:10Z) - HIVE: Harnessing Human Feedback for Instructional Visual Editing [127.29436858998064]
本稿では,ヒューマンフィードバックを利用した指導視覚編集(HIVE)のための新しいフレームワークを提案する。
具体的には、編集された画像に対する人間のフィードバックを収集し、報酬関数を学習して、基礎となるユーザの好みをキャプチャする。
次に、推定報酬に基づいて人間の好みを組み込むスケーラブルな拡散モデル微調整手法を提案する。
論文 参考訳(メタデータ) (2023-03-16T19:47:41Z) - ClipCrop: Conditioned Cropping Driven by Vision-Language Model [90.95403416150724]
我々は、堅牢でユーザ意図的な収穫アルゴリズムを構築する基盤として、視覚言語モデルを活用している。
そこで本研究では,ユーザの意図を反映したテキストや画像クエリを用いて,トリミングを行う手法を開発した。
私たちのパイプライン設計では、小さなデータセットでテキスト条件の美学を学習することができます。
論文 参考訳(メタデータ) (2022-11-21T14:27:07Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。