論文の概要: Controlling Length in Image Captioning
- arxiv url: http://arxiv.org/abs/2005.14386v1
- Date: Fri, 29 May 2020 05:03:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-11-26 22:46:49.330575
- Title: Controlling Length in Image Captioning
- Title(参考訳): 画像キャプションにおける長さ制御
- Authors: Ruotian Luo and Greg Shakhnarovich
- Abstract要約: 字幕長の制御が可能な字幕モデルを開発し,評価する。
我々のモデルは、この制御を利用して異なるスタイルと記述性のキャプションを生成することができる。
- 参考スコア(独自算出の注目度): 16.03681832074896
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We develop and evaluate captioning models that allow control of caption
length. Our models can leverage this control to generate captions of different
style and descriptiveness.
- Abstract(参考訳): キャプション長の制御が可能なキャプションモデルを開発し,評価する。
我々のモデルは、この制御を利用して異なるスタイルと記述性のキャプションを生成することができる。
関連論文リスト
- ControlCap: Controllable Region-level Captioning [57.57406480228619]
地域レベルのキャプションは、キャプション・デジェネレーションの問題によって挑戦される。
事前訓練されたマルチモーダルモデルは、最も頻繁なキャプションを予測する傾向にあるが、あまり頻繁でないキャプションを見逃す。
制御可能な領域レベルのキャプション手法を提案し,マルチモーダルモデルに制御語を導入する。
論文 参考訳(メタデータ) (2024-01-31T15:15:41Z) - Dense Text-to-Image Generation with Attention Modulation [49.287458275920514]
既存のテキストと画像の拡散モデルは、高密度キャプションを与えられた現実的なイメージを合成するのに苦労する。
そこで我々はDenseDiffusionを提案する。DenseDiffusionは、訓練済みのテキスト・ツー・イメージ・モデルを用いて、そのような高密度キャプションを扱う訓練自由な方法である。
レイアウト条件に特化して訓練したモデルを用いて、同様の品質の視覚的結果を得る。
論文 参考訳(メタデータ) (2023-08-24T17:59:01Z) - Controllable Image Captioning via Prompting [9.935191668056463]
統一モデルは、多様なドメインでうまく機能し、複数のスタイルで自由に切り替えることができることを示す。
具体的には、事前訓練された画像キャプタを微調整する一連のプロンプトを設計する。
推論段階では,本モデルでは,対応するプロンプトを選択することで,所望のキャプションを生成することができる。
論文 参考訳(メタデータ) (2022-12-04T11:59:31Z) - CLID: Controlled-Length Image Descriptions with Limited Data [14.857590796528902]
本稿では,字幕の長さ,すなわち簡潔で簡潔な記述,あるいは長くて詳細な記述の制御に焦点を当てる。
既存の画像キャプションデータセットにはほとんど短いキャプションが含まれているため、長いキャプションを生成するのは難しい。
長いトレーニング例の不足に対処するため,様々な長さの自己生成キャプションでデータセットを充実させることを提案する。
論文 参考訳(メタデータ) (2022-11-27T14:18:40Z) - Controllable Image Captioning [0.0]
本稿では,パートオフ音声タグとセマンティクスの相互依存を捉えることで,多様な記述を生成できる画像キャプションのための新しいフレームワークを提案する。
入力されたPart-Of-Speechタグシーケンスに基づいて単語を予測するトランスフォーマーネットワークを介してキャプションを生成する手法を提案する。
論文 参考訳(メタデータ) (2022-04-28T07:47:49Z) - Controllable Video Captioning with an Exemplar Sentence [89.78812365216983]
本稿では,エンコーダ・デコーダ・リコンストラクタアーキテクチャに組み込んだ新しいSMCGを提案する。
SMCGはビデオセマンティック表現を入力とし、長期記憶ネットワークのゲートとセルを条件的に変調する。
2つの公開ビデオキャプションデータセットに対して、補助的な例文を収集して実験を行う。
論文 参考訳(メタデータ) (2021-12-02T09:24:45Z) - Comprehensive Image Captioning via Scene Graph Decomposition [51.660090468384375]
本稿では,画像シーングラフの表現を再検討することにより,画像キャプションの課題に対処する。
我々の手法の核となるのは、シーングラフをサブグラフの集合に分解することである。
我々は,重要な部分グラフを選択し,選択した各サブグラフを1つのターゲット文にデコードするディープモデルを設計する。
論文 参考訳(メタデータ) (2020-07-23T00:59:21Z) - Length-Controllable Image Captioning [67.2079793803317]
簡単な長さレベルの埋め込みを用いて,その能力を実現することを提案する。
自己回帰的な性質のため、既存のモデルの計算複雑性は、生成されたキャプションの長さが大きくなるにつれて線形的に増加する。
さらに,非自己回帰的画像キャプション手法を考案し,キャプションを時間的無関係な複雑さで生成する。
論文 参考訳(メタデータ) (2020-07-19T03:40:51Z) - Egoshots, an ego-vision life-logging dataset and semantic fidelity
metric to evaluate diversity in image captioning models [63.11766263832545]
我々は,字幕のない実生活画像978枚からなる新しい画像キャプションデータセット,Egoshotsを提案する。
生成されたキャプションの品質を評価するために,新しい画像キャプション指標,オブジェクトベースセマンティックフィデリティ(SF)を提案する。
論文 参考訳(メタデータ) (2020-03-26T04:43:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。