論文の概要: Multi-Image Summarization: Textual Summary from a Set of Cohesive Images
- arxiv url: http://arxiv.org/abs/2006.08686v1
- Date: Mon, 15 Jun 2020 18:45:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 03:44:01.257234
- Title: Multi-Image Summarization: Textual Summary from a Set of Cohesive Images
- Title(参考訳): 複数画像の要約:結束画像の集合からのテキスト概要
- Authors: Nicholas Trieu, Sebastian Goodman, Pradyumna Narayana, Kazoo Sone,
Radu Soricut
- Abstract要約: 本稿では,マルチイメージ要約の新しい課題を提案する。
入力画像のコヒーレントな集合から簡潔で記述的なテキスト要約を生成することを目的としている。
密度の高い平均画像特徴集約ネットワークにより、モデルは属性のコヒーレントなサブセットに集中することができる。
- 参考スコア(独自算出の注目度): 17.688344968462275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-sentence summarization is a well studied problem in NLP, while
generating image descriptions for a single image is a well studied problem in
Computer Vision. However, for applications such as image cluster labeling or
web page summarization, summarizing a set of images is also a useful and
challenging task. This paper proposes the new task of multi-image
summarization, which aims to generate a concise and descriptive textual summary
given a coherent set of input images. We propose a model that extends the
image-captioning Transformer-based architecture for single image to
multi-image. A dense average image feature aggregation network allows the model
to focus on a coherent subset of attributes across the input images. We explore
various input representations to the Transformer network and empirically show
that aggregated image features are superior to individual image embeddings. We
additionally show that the performance of the model is further improved by
pretraining the model parameters on a single-image captioning task, which
appears to be particularly effective in eliminating hallucinations in the
output.
- Abstract(参考訳): マルチ文要約はNLPにおいてよく研究されている問題であり、一方、単一画像の画像記述を生成することはコンピュータビジョンにおいてよく研究されている問題である。
しかし,画像クラスタラベリングやWebページ要約などのアプリケーションでは,画像集合の要約も有用かつ困難な作業である。
本稿では,入力画像のコヒーレントな集合から簡潔で記述的な要約を生成することを目的とした,マルチイメージ要約の新しいタスクを提案する。
本稿では,イメージキャプション型トランスフォーマーアーキテクチャをマルチイメージに拡張するモデルを提案する。
濃密な平均画像特徴集約ネットワークにより、入力画像全体にわたる属性のコヒーレントなサブセットに集中することができる。
トランスフォーマーネットワークへの様々な入力表現を探索し、集約された画像特徴が個々の画像埋め込みよりも優れていることを示す。
さらに,単一画像のキャプションタスクにおいて,モデルパラメータを事前学習することにより,モデルの性能がさらに向上することを示す。
関連論文リスト
- Leopard: A Vision Language Model For Text-Rich Multi-Image Tasks [62.758680527838436]
Leopardは、複数のテキストリッチイメージを含む視覚言語タスクを扱うビジョン言語モデルである。
まず、テキストリッチでマルチイメージのシナリオに合わせて、約100万の高品質なマルチモーダル命令チューニングデータをキュレートした。
第2に,視覚列長の割り当てを動的に最適化する適応型高解像度マルチイメージ符号化モジュールを開発した。
論文 参考訳(メタデータ) (2024-10-02T16:55:01Z) - Many-to-many Image Generation with Auto-regressive Diffusion Models [59.5041405824704]
本稿では,与えられた画像集合から関連画像系列を生成可能な多対多画像生成のためのドメイン汎用フレームワークを提案する。
我々は,25個の相互接続された画像を含む12Mの合成マルチイメージサンプルを含む,新しい大規模マルチイメージデータセットMISを提案する。
我々はM2Mを学習し、M2Mは多対多生成のための自己回帰モデルであり、各画像は拡散フレームワーク内でモデル化される。
論文 参考訳(メタデータ) (2024-04-03T23:20:40Z) - Towards Better Multi-modal Keyphrase Generation via Visual Entity
Enhancement and Multi-granularity Image Noise Filtering [79.44443231700201]
マルチモーダルなキーフレーズ生成は、入力されたテキストイメージペアのコアポイントを表すキーフレーズのセットを作成することを目的としている。
入力されたテキストと画像はしばしば完全に一致しないので、画像はモデルにノイズをもたらす可能性がある。
本稿では,モデル入力を外部知識で豊かにするだけでなく,画像ノイズを効果的にフィルタする,新しいマルチモーダル・キーフレーズ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-09-09T09:41:36Z) - MAGIC: Multimodal relAtional Graph adversarIal inferenCe for Diverse and
Unpaired Text-based Image Captioning [46.4308182215488]
テキストベースの画像は、豊富で複雑なマルチモーダルリレーショナルコンテンツを直感的に含む。
マルチモーダル relAtional Graph adversarIal inferenCe framework for various and unpaired TextCap。
画像の異なる関係情報項目から多種多様なキャプションを生成するためのMAGICの有効性を検証する。
論文 参考訳(メタデータ) (2021-12-13T11:00:49Z) - Meta Internal Learning [88.68276505511922]
単一画像生成のための内部学習は、単一の画像に基づいて新しい画像を生成するようにジェネレータを訓練するフレームワークである。
本稿では,サンプル画像の内部統計をより効果的にモデル化するために,画像集合のトレーニングを可能にするメタラーニング手法を提案する。
以上の結果から, 得られたモデルは, 多数の共通画像アプリケーションにおいて, シングルイメージのGANと同程度に適していることがわかった。
論文 参考訳(メタデータ) (2021-10-06T16:27:38Z) - UniMS: A Unified Framework for Multimodal Summarization with Knowledge
Distillation [43.15662489492694]
本稿では,BART,UniMSに基づくマルチモーダル要約のための統一フレームワークを提案する。
我々は、画像選択を改善するために、視覚言語事前学習モデルから知識蒸留を採用する。
我々の最良のモデルは、大規模ベンチマークデータセットで新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2021-09-13T09:36:04Z) - Matching Visual Features to Hierarchical Semantic Topics for Image
Paragraph Captioning [50.08729005865331]
本稿では,階層的トピック誘導画像段落生成フレームワークを開発した。
複数の抽象レベルでの画像とテキストの相関をキャプチャするために、変分推論ネットワークを設計します。
段落生成を導くために、学習した階層的トピックと視覚的特徴を言語モデルに統合する。
論文 参考訳(メタデータ) (2021-05-10T06:55:39Z) - Fine-grained Semantic Constraint in Image Synthesis [8.22379888383833]
本稿では,細粒度属性とマスクを入力とした画像合成のための多段高分解能モデルを提案する。
従来のマスクでは、生成した画像が視覚に適合するように、本論文のモデルが制約される。
また,画像の全体像とサブ領域を同時に識別することで,生成的敵ネットワークの識別能力を向上させる手法を提案する。
論文 参考訳(メタデータ) (2021-01-12T15:51:49Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。