論文の概要: A Hybrid Model for Combining Neural Image Caption and k-Nearest Neighbor
Approach for Image Captioning
- arxiv url: http://arxiv.org/abs/2105.03826v1
- Date: Sun, 9 May 2021 03:49:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-11 14:55:43.278743
- Title: A Hybrid Model for Combining Neural Image Caption and k-Nearest Neighbor
Approach for Image Captioning
- Title(参考訳): 画像キャプションのためのニューラル画像キャプションとk-nearest近傍アプローチを組み合わせたハイブリッドモデル
- Authors: Kartik Arora, Ajul Raj, Arun Goel, Seba Susan
- Abstract要約: テキストベース要約を生成するために2つの一般的な画像キャプション手法を統合するハイブリッドモデルを提案する。
2つの画像キャプションモデルは、Neural Image Caption (NIC) と k-nearest neighbor アプローチである。
提案したハイブリッドモデルでは, BLEU-4スコアの18.20を達成でき, 提案手法の有効性を証明できる。
- 参考スコア(独自算出の注目度): 2.9822184411723645
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: A hybrid model is proposed that integrates two popular image captioning
methods to generate a text-based summary describing the contents of the image.
The two image captioning models are the Neural Image Caption (NIC) and the
k-nearest neighbor approach. These are trained individually on the training
set. We extract a set of five features, from the validation set, for evaluating
the results of the two models that in turn is used to train a logistic
regression classifier. The BLEU-4 scores of the two models are compared for
generating the binary-value ground truth for the logistic regression
classifier. For the test set, the input images are first passed separately
through the two models to generate the individual captions. The
five-dimensional feature set extracted from the two models is passed to the
logistic regression classifier to take a decision regarding the final caption
generated which is the best of two captions generated by the models. Our
implementation of the k-nearest neighbor model achieves a BLEU-4 score of 15.95
and the NIC model achieves a BLEU-4 score of 16.01, on the benchmark Flickr8k
dataset. The proposed hybrid model is able to achieve a BLEU-4 score of 18.20
proving the validity of our approach.
- Abstract(参考訳): 画像の内容を記述するテキストベースの要約を生成するために,2つの一般的な画像キャプション手法を統合するハイブリッドモデルを提案する。
2つの画像キャプションモデルは、Neural Image Caption (NIC) と k-nearest 隣のアプローチである。
これらは個別にトレーニングセットでトレーニングされる。
検証セットから,ロジスティック回帰分類器の学習に使用される2つのモデルの結果を評価するための5つの特徴セットを抽出する。
2つのモデルのbleu-4スコアを比較し、ロジスティック回帰分類器の2値基底真理を生成する。
テストセットでは、入力画像はまず2つのモデルに別々に渡され、個々のキャプションを生成する。
2つのモデルから抽出された5次元特徴セットをロジスティック回帰分類器に渡して、モデルが生成した2つのキャプションのうちベストである最終キャプションについて決定する。
k-アネレスト隣接モデルの実装はBLEU-4スコアが15.95であり、NICモデルはベンチマークFlickr8kデータセット上でBLEU-4スコアが16.01である。
提案したハイブリッドモデルでは, BLEU-4スコアの18.20を達成でき, 提案手法の有効性を証明できる。
関連論文リスト
- Causal Image Modeling for Efficient Visual Understanding [41.87857129429512]
本稿では,イメージをパッチトークンのシーケンスとして扱うアドベンチャーシリーズモデルを紹介し,一方向言語モデルを用いて視覚表現を学習する。
このモデリングパラダイムにより、列長に対して線形な複雑度を持つ繰り返し定式化による画像の処理が可能となる。
本稿では,画像入力を因果推論フレームワークにシームレスに統合する2つの簡単な設計を提案する。
論文 参考訳(メタデータ) (2024-10-10T04:14:52Z) - Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation [52.509092010267665]
我々はLlamaGenを紹介した。LlamaGenは画像生成モデルの新しいファミリーで、視覚生成ドメインに対して、大規模言語モデルのオリジナルの次世代予測のパラダイムを適用している。
これは、例えば、視覚信号に誘導バイアスのないバニラ自己回帰モデルが、適切にスケーリングすれば最先端の画像生成性能を達成できるかどうか、肯定的な答えである。
論文 参考訳(メタデータ) (2024-06-10T17:59:52Z) - Diversified in-domain synthesis with efficient fine-tuning for few-shot
classification [64.86872227580866]
画像分類は,クラスごとのラベル付き例の小さなセットのみを用いて,画像分類器の学習を目的としている。
合成データを用いた数ショット学習における一般化問題に対処する新しいアプローチである DisEF を提案する。
提案手法を10種類のベンチマークで検証し,ベースラインを一貫して上回り,数ショット分類のための新しい最先端の手法を確立した。
論文 参考訳(メタデータ) (2023-12-05T17:18:09Z) - Artificial Interrogation for Attributing Language Models [0.0]
この課題は、人気言語モデルの12のオープンソースベースバージョンと、テキスト生成のための12の微調整言語モデルを提供する。
コンテストの目標は、どのモデルがどのベースモデルに由来するかを特定することである。
両集合のモデルから生成された応答の類似性を測定するために4つの異なるアプローチを採用した。
論文 参考訳(メタデータ) (2022-11-20T05:46:29Z) - On Distillation of Guided Diffusion Models [94.95228078141626]
そこで本研究では,分類器を含まない誘導拡散モデルから抽出し易いモデルへ抽出する手法を提案する。
画素空間上で訓練された標準拡散モデルに対して,本手法は元のモデルに匹敵する画像を生成することができる。
遅延空間で訓練された拡散モデル(例えば、安定拡散)に対して、我々の手法は1から4段階のデノナイジングステップで高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-10-06T18:03:56Z) - Analog Bits: Generating Discrete Data using Diffusion Models with
Self-Conditioning [90.02873747873444]
ビット拡散(Bit Diffusion)は、連続拡散モデルを用いて離散データを生成する一般的な手法である。
提案手法は,画像生成タスクと画像キャプションタスクの両方において,高い性能を実現することができる。
MS-COCOデータセットの画像キャプションでは, 自己回帰モデルと比較して, 競合的な結果が得られる。
論文 参考訳(メタデータ) (2022-08-08T15:08:40Z) - Meta Internal Learning [88.68276505511922]
単一画像生成のための内部学習は、単一の画像に基づいて新しい画像を生成するようにジェネレータを訓練するフレームワークである。
本稿では,サンプル画像の内部統計をより効果的にモデル化するために,画像集合のトレーニングを可能にするメタラーニング手法を提案する。
以上の結果から, 得られたモデルは, 多数の共通画像アプリケーションにおいて, シングルイメージのGANと同程度に適していることがわかった。
論文 参考訳(メタデータ) (2021-10-06T16:27:38Z) - Mixture-based Feature Space Learning for Few-shot Image Classification [6.574517227976925]
特徴抽出器を同時に訓練し,混合モデルパラメータをオンラインで学習することで,混合モデルを用いたベースクラスをモデル化することを提案する。
非常に少数のサンプルから新しい例を分類するために使用できる、よりリッチでより差別的な特徴空間における結果。
論文 参考訳(メタデータ) (2020-11-24T03:16:27Z) - Set Based Stochastic Subsampling [85.5331107565578]
本稿では,2段階間ニューラルサブサンプリングモデルを提案する。
画像分類,画像再構成,機能再構築,少数ショット分類など,様々なタスクにおいて,低いサブサンプリング率で関連ベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2020-06-25T07:36:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。