Fugu-MT 論文翻訳(概要): A Baseline for Detecting Out-of-Distribution Examples in Image Captioning

論文の概要: A Baseline for Detecting Out-of-Distribution Examples in Image Captioning

arxiv url: http://arxiv.org/abs/2207.05418v1
Date: Tue, 12 Jul 2022 09:29:57 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-13 23:21:25.296086
Title: A Baseline for Detecting Out-of-Distribution Examples in Image Captioning
Title（参考訳）: 画像キャプションにおける分布外例検出のためのベースライン
Authors: Gabi Shalev, Gal-Lev Shalev, Joseph Keshet
Abstract要約: 画像キャプションにおけるOOD検出の問題点について考察する。 OOD画像の検出と拒否におけるキャプションの確率スコアの有効性を示す。
参考スコア（独自算出の注目度）: 12.953517767147998
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Image captioning research achieved breakthroughs in recent years by developing neural models that can generate diverse and high-quality descriptions for images drawn from the same distribution as training images. However, when facing out-of-distribution (OOD) images, such as corrupted images, or images containing unknown objects, the models fail in generating relevant captions. In this paper, we consider the problem of OOD detection in image captioning. We formulate the problem and suggest an evaluation setup for assessing the model's performance on the task. Then, we analyze and show the effectiveness of the caption's likelihood score at detecting and rejecting OOD images, which implies that the relatedness between the input image and the generated caption is encapsulated within the score.
Abstract（参考訳）: 画像キャプション研究は近年,トレーニング画像と同じ分布から抽出された画像に対して,多種多様な高品質な記述を生成するニューラルモデルを開発することで,画期的な成果を上げている。しかし、腐敗した画像や未知のオブジェクトを含む画像など、分布外(ood)のイメージに直面すると、モデルは関連するキャプションを生成することに失敗する。本稿では,画像キャプションにおけるOOD検出の問題点について考察する。問題を定式化し、そのタスクにおけるモデルの性能を評価するための評価設定を提案する。そして,OOD画像の検出と拒否におけるキャプションの確率スコアの有効性を分析し,その結果から,入力画像と生成されたキャプションの関連性がスコア内にカプセル化されていることを示す。

関連論文リスト

Image2Text2Image: A Novel Framework for Label-Free Evaluation of Image-to-Text Generation with Text-to-Image Diffusion Models [16.00576040281808]
本稿では,画像キャプションモデルを評価するための新しいフレームワークであるImage2Text2Imageを提案する。高い類似度スコアは、このモデルが忠実なテキスト記述を生み出し、低いスコアは相違点を強調していることを示唆している。本フレームワークは人手によるキャプション参照に依存しないので,画像キャプションモデルを評価する上で貴重なツールである。
論文参考訳（メタデータ） (2024-11-08T17:07:01Z)
A Novel Evaluation Framework for Image2Text Generation [15.10524860121122]
本稿では,画像生成が可能な現代大規模言語モデル(LLM)に根ざした評価フレームワークを提案する。高い類似度スコアは、画像キャプションモデルが正確にテキスト記述を生成することを示唆している。類似度の低いスコアは相違点を示し、モデルの性能の潜在的な欠点を明らかにする。
論文参考訳（メタデータ） (2024-08-03T09:27:57Z)
BRIDGE: Bridging Gaps in Image Captioning Evaluation with Stronger Visual Cues [47.213906345208315]
本稿では,新たな学習可能かつ参照不要な画像キャプション指標BRIDGEを提案する。提案手法は,既存の基準フリー評価スコアと比較して,最先端の結果が得られる。
論文参考訳（メタデータ） (2024-07-29T18:00:17Z)
Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文参考訳（メタデータ） (2024-05-21T18:02:07Z)
Anomaly Score: Evaluating Generative Models and Individual Generated Images based on Complexity and Vulnerability [21.355484227864466]
生成した画像の表現空間と入力空間の関係について検討する。異常スコア(AS)と呼ばれる画像生成モデルを評価するための新しい指標を提案する。
論文参考訳（メタデータ） (2023-12-17T07:33:06Z)
Image Quality Assessment using Contrastive Learning [50.265638572116984]
我々は、補助的な問題を解決するために、対照的な対の目的を用いて深層畳み込みニューラルネットワーク(CNN)を訓練する。本研究では,最新のNR画像品質モデルと比較して,ContriQUEが競争性能を向上することを示す。以上の結果から,大きなラベル付き主観的画像品質データセットを必要とせずに,知覚的関連性を持つ強力な品質表現が得られることが示唆された。
論文参考訳（メタデータ） (2021-10-25T21:01:00Z)
Learning Conditional Knowledge Distillation for Degraded-Reference Image Quality Assessment [157.1292674649519]
劣化参照IQA(DR-IQA)という実用的な解を提案する。 DR-IQAはIRモデルの入力、劣化したイメージを参照として利用する。私たちの結果は、フル参照設定のパフォーマンスに近いものもあります。
論文参考訳（メタデータ） (2021-08-18T02:35:08Z)
Detection and Captioning with Unseen Object Classes [12.894104422808242]
テストイメージには、対応する視覚的またはテキスト的トレーニング例のない視覚的オブジェクトを含むことができる。一般化されたゼロショット検出モデルとテンプレートに基づく文生成モデルに基づく検出駆動型アプローチを提案する。実験の結果,提案したゼロショット検出モデルにより,MS-COCOデータセット上での最先端性能が得られた。
論文参考訳（メタデータ） (2021-08-13T10:43:20Z)
An Unsupervised Sampling Approach for Image-Sentence Matching Using Document-Level Structural Information [64.66785523187845]
教師なし画像文マッチングの問題に焦点をあてる。既存の研究では、文書レベルの構造情報を用いて、モデルトレーニングの正および負のインスタンスをサンプリングする方法が検討されている。そこで本研究では,追加の文書内画像-文対を正あるいは負のサンプルとして選択する新しいサンプリング手法を提案する。
論文参考訳（メタデータ） (2021-03-21T05:43:29Z)
Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文参考訳（メタデータ） (2020-12-14T08:36:05Z)
Comprehensive Image Captioning via Scene Graph Decomposition [51.660090468384375]
本稿では,画像シーングラフの表現を再検討することにより,画像キャプションの課題に対処する。我々の手法の核となるのは、シーングラフをサブグラフの集合に分解することである。我々は,重要な部分グラフを選択し,選択した各サブグラフを1つのターゲット文にデコードするディープモデルを設計する。
論文参考訳（メタデータ） (2020-07-23T00:59:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。