Fugu-MT 論文翻訳(概要): DIR: Retrieval-Augmented Image Captioning with Comprehensive Understanding

論文の概要: DIR: Retrieval-Augmented Image Captioning with Comprehensive Understanding

arxiv url: http://arxiv.org/abs/2412.01115v1
Date: Mon, 02 Dec 2024 04:39:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 21:11:22.393474
Title: DIR: Retrieval-Augmented Image Captioning with Comprehensive Understanding
Title（参考訳）: DIR: 包括的理解による検索機能強化画像キャプション
Authors: Hao Wu, Zhihang Zhong, Xiao Sun,
Abstract要約: Dive Into Retrieval (DIR) は、画像からテキストへの検索プロセスと、検索したテキストの利用の両方を強化するように設計されている。 DIRはドメイン内性能の競争力を維持するだけでなく、ドメイン外の一般化も大幅に改善する。
参考スコア（独自算出の注目度）: 10.347788969721844
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Image captioning models often suffer from performance degradation when applied to novel datasets, as they are typically trained on domain-specific data. To enhance generalization in out-of-domain scenarios, retrieval-augmented approaches have garnered increasing attention. However, current methods face two key challenges: (1) image features used for retrieval are often optimized based on ground-truth (GT) captions, which represent the image from a specific perspective and are influenced by annotator biases, and (2) they underutilize the full potential of retrieved text, typically relying on raw captions or parsed objects, which fail to capture the full semantic richness of the data. In this paper, we propose Dive Into Retrieval (DIR), a method designed to enhance both the image-to-text retrieval process and the utilization of retrieved text to achieve a more comprehensive understanding of the visual content. Our approach introduces two key innovations: (1) diffusion-guided retrieval enhancement, where a pretrained diffusion model guides image feature learning by reconstructing noisy images, allowing the model to capture more comprehensive and fine-grained visual information beyond standard annotated captions; and (2) a high-quality retrieval database, which provides comprehensive semantic information to enhance caption generation, especially in out-of-domain scenarios. Extensive experiments demonstrate that DIR not only maintains competitive in-domain performance but also significantly improves out-of-domain generalization, all without increasing inference costs.
Abstract（参考訳）: 画像キャプションモデルは、通常ドメイン固有のデータに基づいてトレーニングされるため、新しいデータセットに適用された場合、パフォーマンス劣化に悩まされることが多い。ドメイン外シナリオの一般化を強化するため、検索強化アプローチが注目度を高めている。しかし, 検索に使用される画像の特徴は, 特定の視点からイメージを表現し, アノテーションバイアスの影響を受けやすいグラウンド・トゥルース(GT)キャプションに基づいて最適化されることが多かった。本稿では,Dive Into Retrievalを提案する。Dive Into Retrieval(DIR)は,画像からテキストへの検索プロセスと検索したテキストの活用を両立させ,視覚内容のより包括的な理解を実現するための手法である。提案手法では,(1)拡散誘導検索の強化,(1)ノイズの多い画像の再構成による画像特徴学習の指導,(2)キャプション生成,特にドメイン外シナリオにおいて,包括的な意味情報を提供する高品質な検索データベースを提案する。大規模な実験により、DIRはドメイン内の競争性能を維持するだけでなく、ドメイン外の一般化を大幅に改善する。

関連論文リスト

Text-Driven Causal Representation Learning for Source-Free Domain Generalization [82.75041792888274]
我々は、ソースフリー領域一般化設定に因果推論を統合する最初の方法であるTDCRLを提案する。我々のアプローチは、堅牢でドメイン不変な特徴を達成するための明確で効果的なメカニズムを提供し、堅牢な一般化を保証する。
論文参考訳（メタデータ） (2025-07-14T06:20:42Z)
OFFSET: Segmentation-based Focus Shift Revision for Composed Image Retrieval [59.377821673653436]
Composed Image Retrieval (CIR)は、ユーザの複雑な検索要求を柔軟に表現することができる。 1) 視覚データにおける支配的部分とノイズ的部分の不均一性は無視され、クエリー特徴が劣化する。本研究は、主部分分割と二重焦点写像という2つのモジュールからなる集中写像に基づく特徴抽出器を提案する。
論文参考訳（メタデータ） (2025-07-08T03:27:46Z)
CILP-FGDI: Exploiting Vision-Language Model for Generalizable Person Re-Identification [42.429118831928214]
CLIP(Contrastive Language- Image Pretraining)は,大規模画像テキストペア上で事前訓練された視覚言語モデルである。 CLIPのタスクへの適応は、識別能力を高めるためによりきめ細かい機能を学ぶことと、モデルの一般化能力を改善するためによりドメイン不変の機能を学ぶ、という2つの大きな課題を示す。
論文参考訳（メタデータ） (2025-01-27T14:08:25Z)
Beyond Pixels: Text Enhances Generalization in Real-World Image Restoration [47.942948541067544]
拡散に基づく復元モデルの生成能力を再活性化するために,テキストを補助的不変表現として用いることを提案する。 Res-Captionerは、画像の内容や劣化レベルに合わせて拡張されたテキスト記述を生成するモジュールである。様々な現実世界のシナリオを捉えるために設計された新しいベンチマークであるRealIRを提示する。
論文参考訳（メタデータ） (2024-12-01T16:36:22Z)
Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文参考訳（メタデータ） (2024-05-21T18:02:07Z)
You'll Never Walk Alone: A Sketch and Text Duet for Fine-Grained Image Retrieval [120.49126407479717]
事前学習したCLIPモデルを用いて,スケッチとテキストを効果的に組み合わせた新しい構成性フレームワークを提案する。我々のシステムは、合成画像検索、ドメイン転送、きめ細かい生成における新しい応用にまで拡張する。
論文参考訳（メタデータ） (2024-03-12T00:27:18Z)
Visual Analytics for Efficient Image Exploration and User-Guided Image Captioning [35.47078178526536]
事前訓練された大規模言語画像モデルの最近の進歩は、視覚的理解の新しい時代を後押ししている。本稿では,視覚分析の領域でよく知られた2つの問題に取り組み,(1)大規模画像データセットの効率的な探索と潜在的なデータバイアスの同定,(2)画像キャプションの評価と生成過程のステアリングを行う。
論文参考訳（メタデータ） (2023-11-02T06:21:35Z)
FuseCap: Leveraging Large Language Models for Enriched Fused Image Captions [11.274127953112574]
本稿では,「凍った」視覚専門家を用いて,既存のキャプションを視覚的詳細で拡張するための自動アプローチを提案する。提案手法であるFuseCapは,そのような視覚専門家の出力を,大規模言語モデルを用いて原文のキャプションと融合する。私たちはこの大規模な画像キャプチャーペアのデータセットをコミュニティ向けにリリースします。
論文参考訳（メタデータ） (2023-05-28T13:16:03Z)
Semantic-Preserving Augmentation for Robust Image-Text Retrieval [27.2916415148638]
RVSEは、画像のセマンティック保存強化(SPAugI)とテキスト(SPAugT)という、新しい画像ベースおよびテキストベースの拡張技術からなる。 SPAugIとSPAugTは、その意味情報が保存されるように元のデータを変更するため、特徴抽出器を強制して意味を意識した埋め込みベクトルを生成する。ベンチマークデータセットを用いた広範囲な実験から、RVSEは画像テキスト検索性能において従来の検索手法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-03-10T03:50:44Z)
Re-Imagen: Retrieval-Augmented Text-to-Image Generator [58.60472701831404]
検索用テキスト・ツー・イメージ・ジェネレータ(再画像) 検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
論文参考訳（メタデータ） (2022-09-29T00:57:28Z)
DAE-GAN: Dynamic Aspect-aware GAN for Text-to-Image Synthesis [55.788772366325105]
本研究では,文レベル,単語レベル,アスペクトレベルを含む複数の粒度からテキスト情報を包括的に表現する動的アスペクト・アワーン(DAE-GAN)を提案する。人間の学習行動にインスパイアされた画像改善のためのADR(Aspect-aware Dynamic Re-drawer)を開発し,AGR(Attended Global Refinement)モジュールとALR(Aspect-aware Local Refinement)モジュールを交互に使用する。
論文参考訳（メタデータ） (2021-08-27T07:20:34Z)
Understanding Guided Image Captioning Performance across Domains [22.283016988026926]
本稿では,画像キャプションが重視すべき概念を,ガイドテキストと呼ばれる追加入力を用いて制御する手法を提案する。人的評価の結果から,画像キャプションを組み込むには,大規模で制限のない領域トレーニングデータセットへのアクセスが必要であることが示唆された。
論文参考訳（メタデータ） (2020-12-04T00:05:02Z)
Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文参考訳（メタデータ） (2020-06-21T14:10:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。