論文の概要: KENGIC: KEyword-driven and N-Gram Graph based Image Captioning
- arxiv url: http://arxiv.org/abs/2302.03729v1
- Date: Tue, 7 Feb 2023 19:48:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-09 18:07:49.261103
- Title: KENGIC: KEyword-driven and N-Gram Graph based Image Captioning
- Title(参考訳): kengic: キーワード駆動とn-gramグラフに基づく画像キャプション
- Authors: Brandon Birmingham and Adrian Muscat
- Abstract要約: キーワード駆動とN-gramグラフを用いた画像キャプション(KENGIC)
モデルは、与えられたテキストコーパスにあるように、重なり合うn-gramを通してノードを接続することで、有向グラフを形成するように設計されている。
このアプローチの分析は、ペア環境で訓練された現在のトップ実行キャプションジェネレータの背後にある生成プロセスにも光を当てることができた。
- 参考スコア(独自算出の注目度): 0.988326119238361
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a Keyword-driven and N-gram Graph based approach for
Image Captioning (KENGIC). Most current state-of-the-art image caption
generators are trained end-to-end on large scale paired image-caption datasets
which are very laborious and expensive to collect. Such models are limited in
terms of their explainability and their applicability across different domains.
To address these limitations, a simple model based on N-Gram graphs which does
not require any end-to-end training on paired image captions is proposed.
Starting with a set of image keywords considered as nodes, the generator is
designed to form a directed graph by connecting these nodes through overlapping
n-grams as found in a given text corpus. The model then infers the caption by
maximising the most probable n-gram sequences from the constructed graph. To
analyse the use and choice of keywords in context of this approach, this study
analysed the generation of image captions based on (a) keywords extracted from
gold standard captions and (b) from automatically detected keywords. Both
quantitative and qualitative analyses demonstrated the effectiveness of KENGIC.
The performance achieved is very close to that of current state-of-the-art
image caption generators that are trained in the unpaired setting. The analysis
of this approach could also shed light on the generation process behind current
top performing caption generators trained in the paired setting, and in
addition, provide insights on the limitations of the current most widely used
evaluation metrics in automatic image captioning.
- Abstract(参考訳): 本稿では,キーワード駆動およびn-gramグラフを用いた画像キャプション手法(kengic)を提案する。
現在の最先端の画像キャプションジェネレータのほとんどは、大規模なペア画像キャプチャデータセットでエンドツーエンドにトレーニングされています。
そのようなモデルは、説明可能性と異なる領域にまたがる適用性の観点から制限される。
これらの制約に対処するために,ペア画像キャプションのエンドツーエンドトレーニングを必要としないN-Gramグラフに基づくシンプルなモデルを提案する。
生成器は、ノードと見なされる一連の画像キーワードから始まり、与えられたテキストコーパスにあるn-gramを重ね合わせてこれらのノードを接続して有向グラフを形成するように設計されている。
モデルは、構築されたグラフから最も可能なn-gram列を最大化することでキャプションを推測する。
このアプローチの文脈でキーワードの使用と選択を分析するために,本研究は画像キャプションの生成を解析した。
(a)金本字幕から抽出したキーワード及び
(b)自動検出されたキーワードから。
定量的および定性的分析はKENGICの有効性を示した。
達成されたパフォーマンスは、現在の最先端の画像キャプションジェネレータに非常に近い。
このアプローチの分析は、ペア設定で訓練された現在のトップ実行キャプションジェネレータの背後にある生成プロセスに光を当て、また、自動キャプションにおける現在の最も広く使われている評価指標の限界についての洞察を与えることもできる。
関連論文リスト
- Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - FuseCap: Leveraging Large Language Models for Enriched Fused Image
Captions [11.274127953112574]
本稿では,「凍った」視覚専門家を用いて,既存のキャプションを視覚的詳細で拡張するための自動アプローチを提案する。
提案手法であるFuseCapは,そのような視覚専門家の出力を,大規模言語モデルを用いて原文のキャプションと融合する。
私たちはこの大規模な画像キャプチャーペアのデータセットをコミュニティ向けにリリースします。
論文 参考訳(メタデータ) (2023-05-28T13:16:03Z) - Towards Few-shot Entity Recognition in Document Images: A Graph Neural
Network Approach Robust to Image Manipulation [38.09501948846373]
トークン間のトポロジ的隣接関係を導入し、相対的な位置情報を強調する。
言語モデル埋め込みの上にグラフニューラルネットワーク層を追加することにより、これらのグラフを事前訓練された言語モデルに組み込む。
2つのベンチマークデータセットの実験によると、LAGERは異なる数ショット設定で強いベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2023-05-24T07:34:33Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - Injecting Semantic Concepts into End-to-End Image Captioning [61.41154537334627]
本稿では、地域特徴を抽出することなくグリッド表現を使用する、純粋視覚変換器を用いた画像キャプションモデルViTCAPを提案する。
性能向上のために,意味論的概念を予測し,それをエンドツーエンドのキャプションに組み込む新しいコンセプトトークンネットワーク(CTN)を導入する。
特に、CTNは視覚変換器に基づいて構築され、分類タスクを通じて概念トークンを予測するように設計されている。
論文 参考訳(メタデータ) (2021-12-09T22:05:05Z) - Partially-supervised novel object captioning leveraging context from
paired data [11.215352918313577]
既存の画像キャプチャー・ペアからコンテキストを活用することで、新しいオブジェクトに対する合成ペアキャプションデータを作成する。
さらに、これらの部分的なペアイメージを新しいオブジェクトと再使用し、擬似ラベルキャプションを作成します。
提案手法は,MS COCOの領域外テスト分割における最先端結果を実現する。
論文 参考訳(メタデータ) (2021-09-10T21:31:42Z) - SG2Caps: Revisiting Scene Graphs for Image Captioning [37.58310822924814]
本稿では,シーングラフラベルのみを競合画像キャプション性能に用いるSG2Capsを提案する。
筆者らのフレームワークは,既存のシーングラフのみのキャプションモデルにおいて,画像キャプションの有望な表現としてシーングラフを示す大きなマージン(CIDErスコア110 vs 71)よりも優れていた。
論文 参考訳(メタデータ) (2021-02-09T18:00:53Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z) - GraphPB: Graphical Representations of Prosody Boundary in Speech
Synthesis [23.836992815219904]
本稿では,中国語音声合成作業における韻律境界(GraphPB)のグラフィカルな表現手法を提案する。
グラフ埋め込みのノードは韻律語で形成され、エッジは他の韻律境界によって形成される。
逐次情報をグラフ・ツー・シーケンス・テキスト・音声モデルに組み込む2つの手法が提案されている。
論文 参考訳(メタデータ) (2020-12-03T03:34:05Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z) - XGPT: Cross-modal Generative Pre-Training for Image Captioning [80.26456233277435]
XGPTは画像キャプチャのためのクロスモーダル生成前訓練法である。
テキスト・ツー・イメージ・キャプション・ジェネレータを3つの新しい生成タスクで事前訓練するように設計されている。
XGPTはタスク固有のアーキテクチャ変更なしに微調整できる。
論文 参考訳(メタデータ) (2020-03-03T12:13:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。