論文の概要: CFSum: A Coarse-to-Fine Contribution Network for Multimodal
Summarization
- arxiv url: http://arxiv.org/abs/2307.02716v1
- Date: Thu, 6 Jul 2023 01:46:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-07 15:32:42.142372
- Title: CFSum: A Coarse-to-Fine Contribution Network for Multimodal
Summarization
- Title(参考訳): cfsum:マルチモーダル要約のための細かな貢献ネットワーク
- Authors: Min Xiao, Junnan Zhu, Haitao Lin, Yu Zhou, Chengqing Zong
- Abstract要約: マルチモーダル要約は通常、視覚的モダリティの寄与が不明な問題に悩まされる。
既存のマルチモーダル要約手法は、視覚的モダリティが有用である適応条件を無視しながら、異なるモダリティの融合方法の設計に重点を置いている。
要約のための画像の異なるコントリビューションを検討するために,マルチモーダル要約(CFSum)のための新しい粗結合コントリビューションネットワークを提案する。
- 参考スコア(独自算出の注目度): 32.72039057724118
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal summarization usually suffers from the problem that the
contribution of the visual modality is unclear. Existing multimodal
summarization approaches focus on designing the fusion methods of different
modalities, while ignoring the adaptive conditions under which visual
modalities are useful. Therefore, we propose a novel Coarse-to-Fine
contribution network for multimodal Summarization (CFSum) to consider different
contributions of images for summarization. First, to eliminate the interference
of useless images, we propose a pre-filter module to abandon useless images.
Second, to make accurate use of useful images, we propose two levels of visual
complement modules, word level and phrase level. Specifically, image
contributions are calculated and are adopted to guide the attention of both
textual and visual modalities. Experimental results have shown that CFSum
significantly outperforms multiple strong baselines on the standard benchmark.
Furthermore, the analysis verifies that useful images can even help generate
non-visual words which are implicitly represented in the image.
- Abstract(参考訳): マルチモーダル要約は通常、視覚モダリティの寄与が不明確であるという問題に苦しむ。
既存のマルチモーダル要約手法は、視覚的モダリティが有用である適応条件を無視しながら、異なるモダリティの融合方法の設計に重点を置いている。
そこで本研究では,多変量和数化 (cfsum) のための,画像の異なる和数化への寄与を考えるための新しい粗度対細貢献ネットワークを提案する。
まず,無駄な画像の干渉をなくすため,無駄な画像を見捨てるプリフィルタモジュールを提案する。
次に,有用な画像を正確に利用するために,単語レベルと句レベルという2つの視覚補完モジュールを提案する。
具体的には、画像のコントリビューションを計算し、テキストと視覚の両方に注意を向ける。
実験の結果、CFSumは標準ベンチマークで複数の強いベースラインを著しく上回っていることがわかった。
さらに,画像中に暗黙的に表現される非視覚的単語を生成するのに有用であることを示す。
関連論文リスト
- Towards Better Multi-modal Keyphrase Generation via Visual Entity
Enhancement and Multi-granularity Image Noise Filtering [79.44443231700201]
マルチモーダルなキーフレーズ生成は、入力されたテキストイメージペアのコアポイントを表すキーフレーズのセットを作成することを目的としている。
入力されたテキストと画像はしばしば完全に一致しないので、画像はモデルにノイズをもたらす可能性がある。
本稿では,モデル入力を外部知識で豊かにするだけでなく,画像ノイズを効果的にフィルタする,新しいマルチモーダル・キーフレーズ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-09-09T09:41:36Z) - Collaborative Group: Composed Image Retrieval via Consensus Learning from Noisy Annotations [67.92679668612858]
我々は,集団が個人より優れているという心理的概念に触発されたコンセンサスネットワーク(Css-Net)を提案する。
Css-Netは,(1)コンセンサスモジュールと4つのコンセンサスモジュール,(2)コンセンサス間の相互作用の学習を促進するKulback-Leibler分散損失の2つのコアコンポーネントから構成される。
ベンチマークデータセット、特にFashionIQでは、Css-Netが大幅に改善されている。特に、R@10が2.77%、R@50が6.67%増加し、リコールが大幅に向上している。
論文 参考訳(メタデータ) (2023-06-03T11:50:44Z) - Multi-modal reward for visual relationships-based image captioning [4.354364351426983]
本稿では、画像のシーングラフから抽出した視覚的関係情報を画像の空間的特徴マップに融合させることにより、画像キャプションのためのディープニューラルネットワークアーキテクチャを提案する。
次に、共通埋め込み空間における言語と視覚の類似性の組み合わせを用いて、提案するネットワークの深層強化学習のためにマルチモーダル報酬関数を導入する。
論文 参考訳(メタデータ) (2023-03-19T20:52:44Z) - A Clustering-guided Contrastive Fusion for Multi-view Representation
Learning [7.630965478083513]
本稿では、ビュー固有表現をビュー共通表現に融合する深層融合ネットワークを提案する。
また、ビュー共通表現とビュー固有表現を一致させる非対称なコントラスト戦略を設計する。
不完全な視点では,提案手法は競合相手よりもノイズ干渉に抵抗する。
論文 参考訳(メタデータ) (2022-12-28T07:21:05Z) - On Analyzing the Role of Image for Visual-enhanced Relation Extraction [36.84650189600189]
本稿では,視覚的シーングラフにおける不正確な情報が,モーダルアライメントの重みを低下させることを示す,詳細な実験分析を行う。
マルチモーダル関係抽出のためのTransformerに基づく暗黙的な微細なマルチモーダルアライメントを持つ強いベースラインを提案する。
論文 参考訳(メタデータ) (2022-11-14T16:39:24Z) - Cross-Modal Fusion Distillation for Fine-Grained Sketch-Based Image
Retrieval [55.21569389894215]
本稿では,視覚変換器(XModalViT)のクロスアテンションフレームワークを提案する。
我々のフレームワークはまず、個々の写真からペア化されたデータポイントをマッピングし、両方のモダリティから情報を統一する融合表現にスケッチする。
次に、上記のモダリティ融合ネットワークの入力空間を、コントラストおよびリレーショナルなクロスモーダル知識蒸留により個々のモダリティの独立エンコーダに分離する。
論文 参考訳(メタデータ) (2022-10-19T11:50:14Z) - Unbiased Multi-Modality Guidance for Image Inpainting [27.286351511243502]
画像インペイントのためのエンド・ツー・エンドマルチモダリティ誘導型トランスフォーマネットワークを開発した。
各トランスブロック内において,提案した空間認識型アテンションモジュールは,マルチモーダルな構造特徴を効率的に学習することができる。
本手法は,複数のモーダルからの識別情報に基づいて,画像中の意味的一貫した文脈を豊かにする。
論文 参考訳(メタデータ) (2022-08-25T03:13:43Z) - Single Stage Virtual Try-on via Deformable Attention Flows [51.70606454288168]
仮想試行は、ショップ内服と基準人物画像が与えられた写真リアルなフィッティング結果を生成することを目的としている。
マルチフロー推定に変形性アテンションスキームを適用した,変形性アテンションフロー(DAFlow)を新たに開発した。
提案手法は,定性的かつ定量的に最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-07-19T10:01:31Z) - MAF: Multimodal Alignment Framework for Weakly-Supervised Phrase
Grounding [74.33171794972688]
本稿では,詳細な視覚表現と視覚認識言語表現を活用することで,句オブジェクトの関連性をモデル化するアルゴリズムを提案する。
広く採用されているFlickr30kデータセットで実施された実験は、既存の弱教師付き手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-10-12T00:43:52Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z) - Multi-Image Summarization: Textual Summary from a Set of Cohesive Images [17.688344968462275]
本稿では,マルチイメージ要約の新しい課題を提案する。
入力画像のコヒーレントな集合から簡潔で記述的なテキスト要約を生成することを目的としている。
密度の高い平均画像特徴集約ネットワークにより、モデルは属性のコヒーレントなサブセットに集中することができる。
論文 参考訳(メタデータ) (2020-06-15T18:45:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。