Fugu-MT 論文翻訳(概要): Altogether: Image Captioning via Re-aligning Alt-text

論文の概要: Altogether: Image Captioning via Re-aligning Alt-text

arxiv url: http://arxiv.org/abs/2410.17251v1
Date: Tue, 22 Oct 2024 17:59:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:39.152458
Title: Altogether: Image Captioning via Re-aligning Alt-text
Title（参考訳）: Altogether: Alt-textの再調整による画像キャプション
Authors: Hu Xu, Po-Yao Huang, Xiaoqing Ellen Tan, Ching-Feng Yeh, Jacob Kahn, Christine Jou, Gargi Ghosh, Omer Levy, Luke Zettlemoyer, Wen-tau Yih, Shang-Wen Li, Saining Xie, Christoph Feichtenhofer,
Abstract要約: 画像に関連付けられた既存のalt-textを編集・修正する鍵となるアイデアに基づいて、Altogetherの原理的なアプローチについて検討する。トレーニングデータを生成するために、アノテータは既存のalt-textから始まり、それを複数のラウンドで画像コンテンツにアライメントする。我々は、このデータに基づいて、大規模にアルトテキストを再調整するプロセスを一般化するキャプタを訓練する。
参考スコア（独自算出の注目度）: 118.29542883805405
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: This paper focuses on creating synthetic data to improve the quality of image captions. Existing works typically have two shortcomings. First, they caption images from scratch, ignoring existing alt-text metadata, and second, lack transparency if the captioners' training data (e.g. GPT) is unknown. In this paper, we study a principled approach Altogether based on the key idea to edit and re-align existing alt-texts associated with the images. To generate training data, we perform human annotation where annotators start with the existing alt-text and re-align it to the image content in multiple rounds, consequently constructing captions with rich visual concepts. This differs from prior work that carries out human annotation as a one-time description task solely based on images and annotator knowledge. We train a captioner on this data that generalizes the process of re-aligning alt-texts at scale. Our results show our Altogether approach leads to richer image captions that also improve text-to-image generation and zero-shot image classification tasks.
Abstract（参考訳）: 本稿では,画像キャプションの品質を向上させるために合成データを作成することに焦点を当てる。現存する作品には2つの欠点がある。まず、スクラッチから画像をキャプションし、既存のalt-textメタデータを無視し、第2に、キャプターのトレーニングデータ(eg GPT)が不明であれば透明性を欠く。本稿では,画像に関連付けられた既存のalt-textを編集・修正する鍵となるアイデアに基づいて,Altogetherの原理的アプローチについて検討する。トレーニングデータを生成するために、アノテータは既存のalt-textから始まり、それを複数のラウンドで画像コンテンツにアライメントすることで、リッチな視覚概念でキャプションを構築する。これは、画像とアノテータの知識のみに基づいて、一度に記述するタスクとして人間のアノテーションを実行する以前の作業とは異なる。我々は、このデータに基づいて、大規模にアルトテキストを再調整するプロセスを一般化するキャプタを訓練する。我々のAltogetherアプローチはよりリッチな画像キャプションを実現し、テキスト・ツー・イメージ生成やゼロショット画像分類タスクを改善した。

関連論文リスト

Unleashing Text-to-Image Diffusion Prior for Zero-Shot Image Captioning [70.98890307376548]
そこで本研究では,学習中に不信なコンテンツを適応的に緩和する,新しいPatch-wise Cross-modal Feature Mix-up(PCM)機構を提案する。私たちのPCM-Netは、ドメイン内およびクロスドメインのゼロショット画像キャプションの両方で第1位です。
論文参考訳（メタデータ） (2024-12-31T13:39:08Z)
Learning text-to-video retrieval from image captioning [59.81537951811595]
本稿では,未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。 i) ビデオのラベルにアクセスできず、(ii) テキスト形式でラベル付き画像にアクセスすると仮定する。画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。
論文参考訳（メタデータ） (2024-04-26T15:56:08Z)
ASPIRE: Language-Guided Data Augmentation for Improving Robustness Against Spurious Correlations [43.323791505213634]
ASPIRE (Language-guided Data Augmentation for SPurious correlation Removal) は、スプリアスな特徴のない画像でトレーニングデータセットを補完するソリューションである。トレーニングセットにグループラベルや既存の非スパースイメージを必要とせずに、非スパース画像を生成することができる。先行手法の最悪のグループ分類精度を1%から38%向上させる。
論文参考訳（メタデータ） (2023-08-19T20:18:15Z)
Visually-Aware Context Modeling for News Image Captioning [54.31708859631821]
News Image Captioningは、ニュース記事や画像からキャプションを作成することを目的としている。より優れた名前埋め込みを学習するための顔命名モジュールを提案する。私たちはCLIPを使用して、画像にセマンティックに近い文を検索します。
論文参考訳（メタデータ） (2023-08-16T12:39:39Z)
PLIP: Language-Image Pre-training for Person Representation Learning [51.348303233290025]
個人表現学習のための新しい言語画像事前学習フレームワークPLIPを提案する。このフレームワークを実装するために,SynTH-PEDESという画像テキストペアを用いた大規模人物データセットを構築した。 PLIPはこれらのタスクの既存のメソッドを大幅に改善するだけでなく、ゼロショットやドメインの一般化設定でも優れた機能を示している。
論文参考訳（メタデータ） (2023-05-15T06:49:00Z)
Cross-Domain Image Captioning with Discriminative Finetuning [20.585138136033905]
自己監督的な識別的コミュニケーションの目的を持ったアウト・オブ・ザ・ボックスのニューラルキャプタを微調整することは、プレーンで視覚的に記述された言語を回復するのに役立ちます。画像識別タスクを担っているヒトのアノテータに対して,Vanilla ClipCapのキャプションや接地木キャプションよりも,識別的に微調整されたキャプションの方が有用であることを示す。
論文参考訳（メタデータ） (2023-04-04T09:33:16Z)
Large-Scale Bidirectional Training for Zero-Shot Image Captioning [44.17587735943739]
本稿では、画像キャプションをゼロショットにするための効率的なトレーニングと推論のフレームワークであるBITTERSについて紹介する。大規模なトレーニングセットとモデルアーキテクチャを慎重に選択することが,ゼロショット画像キャプションの実現の鍵であることを示す。
論文参考訳（メタデータ） (2022-11-13T00:09:36Z)
Generating image captions with external encyclopedic knowledge [1.452875650827562]
我々は、画像固有の百科事典データを広範囲に活用するエンドツーエンドのキャプション生成システムを構築した。われわれのアプローチは、画像位置を用いて、外部知識ベースで関連するオープンドメインの事実を識別する新しい方法を含む。我々のシステムは、自然に生成された知識に富んだキャプションを持つ新しいデータセットで訓練され、テストされている。
論文参考訳（メタデータ） (2022-10-10T16:09:21Z)
Zero-Shot Video Captioning with Evolving Pseudo-Tokens [79.16706829968673]
本稿では,GPT-2言語モデルとCLIP画像テキストマッチングモデルという,凍結した2つのネットワークを利用するゼロショットビデオキャプション手法を提案する。マッチングスコアは、ビデオフレームのサブセットに高い平均マッチングスコアを持つ文を生成するために、言語モデルを決定するために使用される。実験の結果, 生成したキャプションはコヒーレントであり, 現実世界の知識を広範囲に表すことができた。
論文参考訳（メタデータ） (2022-07-22T14:19:31Z)
CapOnImage: Context-driven Dense-Captioning on Image [13.604173177437536]
画像上のキャプション(CapOnImage)と呼ばれる新しいタスクを導入し、コンテキスト情報に基づいて画像の異なる場所で高密度キャプションを生成する。テキストと画像位置の対応を段階的に学習するマルチレベル事前学習タスクを備えたマルチモーダル事前学習モデルを提案する。他の画像キャプションモデルと比較すると、キャプション精度と多様性の両面で最良の結果が得られる。
論文参考訳（メタデータ） (2022-04-27T14:40:31Z)
DAE-GAN: Dynamic Aspect-aware GAN for Text-to-Image Synthesis [55.788772366325105]
本研究では,文レベル,単語レベル,アスペクトレベルを含む複数の粒度からテキスト情報を包括的に表現する動的アスペクト・アワーン(DAE-GAN)を提案する。人間の学習行動にインスパイアされた画像改善のためのADR(Aspect-aware Dynamic Re-drawer)を開発し,AGR(Attended Global Refinement)モジュールとALR(Aspect-aware Local Refinement)モジュールを交互に使用する。
論文参考訳（メタデータ） (2021-08-27T07:20:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。