論文の概要: Dual-Stream Collaborative Transformer for Image Captioning
- arxiv url: http://arxiv.org/abs/2601.12926v1
- Date: Mon, 19 Jan 2026 10:28:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.861866
- Title: Dual-Stream Collaborative Transformer for Image Captioning
- Title(参考訳): イメージキャプション用デュアルストリーム協調変換器
- Authors: Jun Wan, Jun Liu, Zhihui lai, Jie Zhou,
- Abstract要約: セグメント化機能を導入してこの問題に対処するDual-Stream Collaborative Transformer (DSCT)を提案する。
提案するDSCTは,その領域とセグメンテーションの特徴を融合して文の生成を誘導する。
一般的なベンチマークデータセットによる実験結果から,DSCTは文献の最先端画像キャプションモデルよりも優れていることが示された。
- 参考スコア(独自算出の注目度): 25.901654895839613
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current region feature-based image captioning methods have progressed rapidly and achieved remarkable performance. However, they are still prone to generating irrelevant descriptions due to the lack of contextual information and the over-reliance on generated partial descriptions for predicting the remaining words. In this paper, we propose a Dual-Stream Collaborative Transformer (DSCT) to address this issue by introducing the segmentation feature. The proposed DSCT consolidates and then fuses the region and segmentation features to guide the generation of caption sentences. It contains multiple Pattern-Specific Mutual Attention Encoders (PSMAEs) and Dynamic Nomination Decoders (DNDs). The PSMAE effectively highlights and consolidates the private information of two representations by querying each other. The DND dynamically searches for the most relevant learning blocks to the input textual representations and exploits the homogeneous features between the consolidated region and segmentation features to generate more accurate and descriptive caption sentences. To the best of our knowledge, this is the first study to explore how to fuse different pattern-specific features in a dynamic way to bypass their semantic inconsistencies and spatial misalignment issues for image captioning. The experimental results from popular benchmark datasets demonstrate that our DSCT outperforms the state-of-the-art image captioning models in the literature.
- Abstract(参考訳): 現在の領域の特徴に基づく画像キャプション手法は急速に進歩し,優れた性能を実現している。
しかし、文脈情報の欠如や、残りの単語を予測するために生成された部分的記述への過度な依存のため、いまだに無関係な記述を生成する傾向にある。
本稿では,Dual-Stream Collaborative Transformer (DSCT)を提案する。
提案するDSCTは,その領域とセグメンテーションの特徴を融合して文の生成を誘導する。
複数のPattern-Specific Mutual Attention Encoders (PSMAE)とDynamic Nomination Decoders (DND)を含んでいる。
PSMAEは、互いにクエリすることで、2つの表現のプライベート情報を効果的に強調し、統合する。
DNDは、入力テキスト表現に最も関連性の高い学習ブロックを動的に検索し、統合された領域とセグメンテーション特徴との間の同質な特徴を利用して、より正確で記述的な文を生成する。
我々の知る限りでは、画像キャプションにおける意味的不整合や空間的不整合を回避すべく、パターン固有の特徴を動的に融合する方法を初めて検討する。
一般的なベンチマークデータセットによる実験結果から,DSCTは文献の最先端画像キャプションモデルよりも優れていることが示された。
関連論文リスト
- Seg4Diff: Unveiling Open-Vocabulary Segmentation in Text-to-Image Diffusion Transformers [56.76198904599581]
テキストと画像の拡散モデルは、言語翻訳において優れているため、モーダル間の注意機構を通じて暗黙的に概念を基礎づける。
近年のマルチモーダル拡散トランスフォーマーでは, 共用画像とテキストトークンを導入し, よりリッチでスケーラブルなクロスモーダルアライメントを実現している。
MM-DiTの注意構造を分析するための体系的フレームワークであるSeg4Diffを導入し,テキストから画像への意味情報の伝達方法に着目した。
論文 参考訳(メタデータ) (2025-09-22T17:59:54Z) - Captioning for Text-Video Retrieval via Dual-Group Direct Preference Optimization [30.445325065182868]
補助キャプションは、しばしばビデオ理解を強化するために使われ、モダリティ間のギャップを埋める。
本稿では,検索関連スコアを用いた字幕生成を直接最適化する検索フレームワークである$textbfCaRe-DPOを提案する。
本研究では,CaRe-DPOが補助知識を効果的に活用して検索のためのきめ細かいキャプションを生成することにより,検索性能を著しく向上することを示す。
論文 参考訳(メタデータ) (2025-09-20T07:36:53Z) - Beyond One-to-One: Rethinking the Referring Image Segmentation [117.53010476628029]
イメージセグメンテーションの参照は、自然言語表現によって参照される対象オブジェクトをセグメンテーションすることを目的としている。
2つのデコーダ分岐を含むDMMI(Dual Multi-Modal Interaction)ネットワークを提案する。
テキスト・ツー・イメージ・デコーダでは、テキストの埋め込みを利用して視覚的特徴を検索し、対応するターゲットをローカライズする。
一方、画像からテキストへのデコーダは、視覚的特徴に条件付けられた消去されたエンティティ・フレーズを再構成するために実装される。
論文 参考訳(メタデータ) (2023-08-26T11:39:22Z) - Top-Down Framework for Weakly-supervised Grounded Image Captioning [19.00510117145054]
弱教師付き接地画像キャプションは、バウンディングボックスの監督を使わずに、入力画像中のキャプションとグラウンド(局所化)予測対象語を生成することを目的としている。
本稿では,RGB画像を直接入力として,トップダウン画像レベルでのキャプションとグラウンド実行を行う一段弱教師付き接地キャプタを提案する。
論文 参考訳(メタデータ) (2023-06-13T01:42:18Z) - Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection
to Image-Text Pre-Training [70.83385449872495]
映像モーメント検索(VMR)における視覚とテキストの相関
既存の方法は、視覚的およびテキスト的理解のために、個別の事前学習機能抽出器に依存している。
本稿では,映像モーメントの理解を促進するために,ビジュアルダイナミックインジェクション(Visual-Dynamic Injection, VDI)と呼ばれる汎用手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T19:29:05Z) - Stacked Cross-modal Feature Consolidation Attention Networks for Image
Captioning [1.4337588659482516]
本稿では,高レベルなセマンティック概念と視覚情報を統合するための特徴合成手法を利用する。
画像キャプションのための重畳型クロスモーダル特徴統合(SCFC)アテンションネットワークを提案し,同時にクロスモーダル特徴を集約する。
提案したSCFCは、MSCOCOとFlickr30Kデータセットの一般的な指標から、様々な最先端の画像キャプションベンチマークを上回ります。
論文 参考訳(メタデータ) (2023-02-08T09:15:09Z) - Transform, Contrast and Tell: Coherent Entity-Aware Multi-Image
Captioning [0.65268245109828]
コヒーレントエンティティを意識したマルチイメージキャプションは、ニュース文書に隣接する画像のコヒーレントキャプションを生成することを目的としている。
本稿では,コヒーレンス関係を利用して,コヒーレントな実体認識型マルチイメージキャプションモデルを提案する。
論文 参考訳(メタデータ) (2023-02-04T07:50:31Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。