論文の概要: $IC^3$: Image Captioning by Committee Consensus
- arxiv url: http://arxiv.org/abs/2302.01328v1
- Date: Thu, 2 Feb 2023 18:58:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-03 12:40:03.753019
- Title: $IC^3$: Image Captioning by Committee Consensus
- Title(参考訳): ic^3$:委員会合意による画像キャプション
- Authors: David M. Chan, Austin Myers, Sudheendra Vijayanarasimhan, David A.
Ross, John Canny
- Abstract要約: 委員会合意による画像キャプション(IC3$)は、複数の視点からハイレベルな詳細をキャプチャする単一のキャプションを生成する。
IC3$で作られたキャプションは、ベースラインのSOTAモデルと同じくらい役に立つ。
IC3$キャプションは、SOTA自動リコールシステムの性能を最大84%向上させることができる。
- 参考スコア(独自算出の注目度): 3.899855581265355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: If you ask a human to describe an image, they might do so in a thousand
different ways. Traditionally, image captioning models are trained to
approximate the reference distribution of image captions, however, doing so
encourages captions that are viewpoint-impoverished. Such captions often focus
on only a subset of the possible details, while ignoring potentially useful
information in the scene. In this work, we introduce a simple, yet novel,
method: "Image Captioning by Committee Consensus" ($IC^3$), designed to
generate a single caption that captures high-level details from several
viewpoints. Notably, humans rate captions produced by $IC^3$ at least as
helpful as baseline SOTA models more than two thirds of the time, and $IC^3$
captions can improve the performance of SOTA automated recall systems by up to
84%, indicating significant material improvements over existing SOTA approaches
for visual description. Our code is publicly available at
https://github.com/DavidMChan/caption-by-committee
- Abstract(参考訳): もし人間に画像を記述するように頼んだら、1000種類の方法でそれを行うかもしれない。
伝統的に、画像キャプションモデルは画像キャプションの参照分布を近似するように訓練されるが、それによってキャプションはビューポイントに左右される。
このようなキャプションは、しばしば、可能な詳細のサブセットのみに焦点を当てるが、シーンで潜在的に有用な情報を無視している。
本研究では,複数の視点からハイレベルな詳細をキャプチャする単一キャプションを生成するために設計された,シンプルながら斬新な手法である「委員会合意による画像キャプチャー」(IC^3$)を紹介する。
特に、IC^3$が生成するキャプションは、その3分の2以上のベースラインSOTAモデルと同じくらい有効であり、IC^3$キャプションは、SOTA自動リコールシステムの性能を最大84%向上させることができる。
私たちのコードはhttps://github.com/DavidMChan/caption-by-committeeで公開されています。
関連論文リスト
- MeaCap: Memory-Augmented Zero-shot Image Captioning [11.817667500151687]
メモリ拡張ゼロショット画像キャプチャフレームワーク(MeaCap)を提案する。
MeaCapは、幻覚の少ないコンセプト中心のキャプションを生成できる。
論文 参考訳(メタデータ) (2024-03-06T14:00:31Z) - Towards Automatic Satellite Images Captions Generation Using Large
Language Models [0.5439020425819]
リモートセンシング画像のキャプションを自動的に収集するARSIC(Automatic Remote Sensing Image Captioning)を提案する。
また、事前学習された生成画像2テキストモデル(GIT)を用いて、リモートセンシング画像の高品質なキャプションを生成するベンチマークモデルを提案する。
論文 参考訳(メタデータ) (2023-10-17T16:45:47Z) - MultiCapCLIP: Auto-Encoding Prompts for Zero-Shot Multilingual Visual
Captioning [108.12011636732674]
MultiCapCLIPは、下流データセットのラベル付きビジョンキャプションペアなしで、さまざまなシナリオや言語に対する視覚的なキャプションを生成することができる。
本手法はBLEU@4とCIDErの基準で4.8%と21.5%の絶対的な改善を達成している。
論文 参考訳(メタデータ) (2023-08-25T07:32:34Z) - Improving Image Captioning Descriptiveness by Ranking and LLM-based
Fusion [17.99150939602917]
State-of-The-Art (SoTA)イメージキャプションモデルは、トレーニングのためにMicrosoft COCO(MS-COCO)データセットに依存することが多い。
本稿では,異なるSoTAモデルから生成されたキャプションを効果的に融合させる方法を示すことによって,従来の課題に対処する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-20T15:13:02Z) - InfoMetIC: An Informative Metric for Reference-free Image Caption
Evaluation [69.1642316502563]
インフォメーションフリー画像キャプション評価のためのインフォーマティブメトリックを提案する。
画像とキャプションが与えられた場合、InfoMetICは不正確な単語や未完成の画像領域をきめ細かいレベルで報告することができる。
また,トークンレベルの評価データセットを構築し,詳細な評価におけるInfoMetICの有効性を示す。
論文 参考訳(メタデータ) (2023-05-10T09:22:44Z) - Summaries as Captions: Generating Figure Captions for Scientific
Documents with Automated Text Summarization [31.619379039184263]
図文キャプション生成は、科学文書におけるテキスト要約タスクとして、より効果的に取り組むことができる。
図式参照段落を具体的に要約するために,事前学習した抽象要約モデルであるPEGを微調整した。
大規模arXiv図を用いた実験により,本手法は,自動評価と人的評価の両方において,先行視覚法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-02-23T20:39:06Z) - Fine-grained Image Captioning with CLIP Reward [104.71533106301598]
ウェブから大量の画像テキストペアをトレーニングしたマルチモーダルエンコーダであるCLIPを用いて、マルチモーダル類似性を計算し、報酬関数として利用する。
また、追加のテキストアノテーションを必要としない文法を改善するために、CLIPテキストエンコーダの簡単な微調整戦略を提案する。
テキスト・ツー・イメージ検索とFineCapEvalの実験において、提案したCLIP誘導モデルは、CIDEr最適化モデルよりも顕著なキャプションを生成する。
論文 参考訳(メタデータ) (2022-05-26T02:46:09Z) - Contrastive Semantic Similarity Learning for Image Captioning Evaluation
with Intrinsic Auto-encoder [52.42057181754076]
自動エンコーダ機構とコントラスト表現学習の進歩により,画像キャプションのための学習基準を提案する。
文レベルの表現を学習するための3つのプログレッシブモデル構造を開発する。
実験結果から,提案手法は他の指標から得られるスコアとよく一致できることが示唆された。
論文 参考訳(メタデータ) (2021-06-29T12:27:05Z) - Attention Beam: An Image Captioning Approach [33.939487457110566]
近年,エンコーダ・デコーダをベースとしたアーキテクチャは,画像キャプションの最先端化を実現している。
ここでは,エンコーダとデコーダをベースとしたアーキテクチャ上にビームサーチを行い,3つのベンチマークデータセットに対して高品質なキャプションを提供する。
論文 参考訳(メタデータ) (2020-11-03T14:57:42Z) - Length-Controllable Image Captioning [67.2079793803317]
簡単な長さレベルの埋め込みを用いて,その能力を実現することを提案する。
自己回帰的な性質のため、既存のモデルの計算複雑性は、生成されたキャプションの長さが大きくなるにつれて線形的に増加する。
さらに,非自己回帰的画像キャプション手法を考案し,キャプションを時間的無関係な複雑さで生成する。
論文 参考訳(メタデータ) (2020-07-19T03:40:51Z) - Egoshots, an ego-vision life-logging dataset and semantic fidelity
metric to evaluate diversity in image captioning models [63.11766263832545]
我々は,字幕のない実生活画像978枚からなる新しい画像キャプションデータセット,Egoshotsを提案する。
生成されたキャプションの品質を評価するために,新しい画像キャプション指標,オブジェクトベースセマンティックフィデリティ(SF)を提案する。
論文 参考訳(メタデータ) (2020-03-26T04:43:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。