論文の概要: $IC^3$: Image Captioning by Committee Consensus
- arxiv url: http://arxiv.org/abs/2302.01328v1
- Date: Thu, 2 Feb 2023 18:58:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-03 12:40:03.753019
- Title: $IC^3$: Image Captioning by Committee Consensus
- Title(参考訳): ic^3$:委員会合意による画像キャプション
- Authors: David M. Chan, Austin Myers, Sudheendra Vijayanarasimhan, David A.
Ross, John Canny
- Abstract要約: 委員会合意による画像キャプション(IC3$)は、複数の視点からハイレベルな詳細をキャプチャする単一のキャプションを生成する。
IC3$で作られたキャプションは、ベースラインのSOTAモデルと同じくらい役に立つ。
IC3$キャプションは、SOTA自動リコールシステムの性能を最大84%向上させることができる。
- 参考スコア(独自算出の注目度): 3.899855581265355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: If you ask a human to describe an image, they might do so in a thousand
different ways. Traditionally, image captioning models are trained to
approximate the reference distribution of image captions, however, doing so
encourages captions that are viewpoint-impoverished. Such captions often focus
on only a subset of the possible details, while ignoring potentially useful
information in the scene. In this work, we introduce a simple, yet novel,
method: "Image Captioning by Committee Consensus" ($IC^3$), designed to
generate a single caption that captures high-level details from several
viewpoints. Notably, humans rate captions produced by $IC^3$ at least as
helpful as baseline SOTA models more than two thirds of the time, and $IC^3$
captions can improve the performance of SOTA automated recall systems by up to
84%, indicating significant material improvements over existing SOTA approaches
for visual description. Our code is publicly available at
https://github.com/DavidMChan/caption-by-committee
- Abstract(参考訳): もし人間に画像を記述するように頼んだら、1000種類の方法でそれを行うかもしれない。
伝統的に、画像キャプションモデルは画像キャプションの参照分布を近似するように訓練されるが、それによってキャプションはビューポイントに左右される。
このようなキャプションは、しばしば、可能な詳細のサブセットのみに焦点を当てるが、シーンで潜在的に有用な情報を無視している。
本研究では,複数の視点からハイレベルな詳細をキャプチャする単一キャプションを生成するために設計された,シンプルながら斬新な手法である「委員会合意による画像キャプチャー」(IC^3$)を紹介する。
特に、IC^3$が生成するキャプションは、その3分の2以上のベースラインSOTAモデルと同じくらい有効であり、IC^3$キャプションは、SOTA自動リコールシステムの性能を最大84%向上させることができる。
私たちのコードはhttps://github.com/DavidMChan/caption-by-committeeで公開されています。
関連論文リスト
- No Detail Left Behind: Revisiting Self-Retrieval for Fine-Grained Image Captioning [13.311411816150551]
画像キャプションシステムは、ノイズ(alt-text)またはジェネリック(ヒューマンアノテーション)のいずれかのデータに基づいて訓練されるため、きめ細かいキャプションを生成することができない
それまでの研究では、自己検索(SR)報酬で微調整されたキャプタによって、この制限に対処しようと試みてきた。
SRファインチューニングは, キャプションの忠実度を低下させ, 幻覚までも減少させる傾向にある。
本稿では,(1)人間のアノテーションに固定されたままの画像キャプションデータセットに細粒度を注入する新しいフレームワークであるビジュアルキャプションブースティング,(2)より最適に活用する慎重に設計されたトレーニングカリキュラムであるBagCurriについて述べる。
論文 参考訳(メタデータ) (2024-09-04T18:32:39Z) - Inserting Faces inside Captions: Image Captioning with Attention Guided Merging [0.0]
画像キャプションタスク用のデータセットであるAstroCaptionsを紹介する。
キャプション内に識別された人物の名前を挿入するための新しいポストプロセッシング手法を提案する。
論文 参考訳(メタデータ) (2024-03-20T08:38:25Z) - Towards Automatic Satellite Images Captions Generation Using Large
Language Models [0.5439020425819]
リモートセンシング画像のキャプションを自動的に収集するARSIC(Automatic Remote Sensing Image Captioning)を提案する。
また、事前学習された生成画像2テキストモデル(GIT)を用いて、リモートセンシング画像の高品質なキャプションを生成するベンチマークモデルを提案する。
論文 参考訳(メタデータ) (2023-10-17T16:45:47Z) - MultiCapCLIP: Auto-Encoding Prompts for Zero-Shot Multilingual Visual
Captioning [108.12011636732674]
MultiCapCLIPは、下流データセットのラベル付きビジョンキャプションペアなしで、さまざまなシナリオや言語に対する視覚的なキャプションを生成することができる。
本手法はBLEU@4とCIDErの基準で4.8%と21.5%の絶対的な改善を達成している。
論文 参考訳(メタデータ) (2023-08-25T07:32:34Z) - Visually-Aware Context Modeling for News Image Captioning [54.31708859631821]
News Image Captioningは、ニュース記事や画像からキャプションを作成することを目的としている。
より優れた名前埋め込みを学習するための顔命名モジュールを提案する。
私たちはCLIPを使用して、画像にセマンティックに近い文を検索します。
論文 参考訳(メタデータ) (2023-08-16T12:39:39Z) - Improving Image Captioning Descriptiveness by Ranking and LLM-based
Fusion [17.99150939602917]
State-of-The-Art (SoTA)イメージキャプションモデルは、トレーニングのためにMicrosoft COCO(MS-COCO)データセットに依存することが多い。
本稿では,異なるSoTAモデルから生成されたキャプションを効果的に融合させる方法を示すことによって,従来の課題に対処する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-20T15:13:02Z) - InfoMetIC: An Informative Metric for Reference-free Image Caption
Evaluation [69.1642316502563]
インフォメーションフリー画像キャプション評価のためのインフォーマティブメトリックを提案する。
画像とキャプションが与えられた場合、InfoMetICは不正確な単語や未完成の画像領域をきめ細かいレベルで報告することができる。
また,トークンレベルの評価データセットを構築し,詳細な評価におけるInfoMetICの有効性を示す。
論文 参考訳(メタデータ) (2023-05-10T09:22:44Z) - Fine-grained Image Captioning with CLIP Reward [104.71533106301598]
ウェブから大量の画像テキストペアをトレーニングしたマルチモーダルエンコーダであるCLIPを用いて、マルチモーダル類似性を計算し、報酬関数として利用する。
また、追加のテキストアノテーションを必要としない文法を改善するために、CLIPテキストエンコーダの簡単な微調整戦略を提案する。
テキスト・ツー・イメージ検索とFineCapEvalの実験において、提案したCLIP誘導モデルは、CIDEr最適化モデルよりも顕著なキャプションを生成する。
論文 参考訳(メタデータ) (2022-05-26T02:46:09Z) - Contrastive Semantic Similarity Learning for Image Captioning Evaluation
with Intrinsic Auto-encoder [52.42057181754076]
自動エンコーダ機構とコントラスト表現学習の進歩により,画像キャプションのための学習基準を提案する。
文レベルの表現を学習するための3つのプログレッシブモデル構造を開発する。
実験結果から,提案手法は他の指標から得られるスコアとよく一致できることが示唆された。
論文 参考訳(メタデータ) (2021-06-29T12:27:05Z) - Attention Beam: An Image Captioning Approach [33.939487457110566]
近年,エンコーダ・デコーダをベースとしたアーキテクチャは,画像キャプションの最先端化を実現している。
ここでは,エンコーダとデコーダをベースとしたアーキテクチャ上にビームサーチを行い,3つのベンチマークデータセットに対して高品質なキャプションを提供する。
論文 参考訳(メタデータ) (2020-11-03T14:57:42Z) - Egoshots, an ego-vision life-logging dataset and semantic fidelity
metric to evaluate diversity in image captioning models [63.11766263832545]
我々は,字幕のない実生活画像978枚からなる新しい画像キャプションデータセット,Egoshotsを提案する。
生成されたキャプションの品質を評価するために,新しい画像キャプション指標,オブジェクトベースセマンティックフィデリティ(SF)を提案する。
論文 参考訳(メタデータ) (2020-03-26T04:43:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。