論文の概要: Beyond a Pre-Trained Object Detector: Cross-Modal Textual and Visual
Context for Image Captioning
- arxiv url: http://arxiv.org/abs/2205.04363v1
- Date: Mon, 9 May 2022 15:05:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-10 14:34:20.225111
- Title: Beyond a Pre-Trained Object Detector: Cross-Modal Textual and Visual
Context for Image Captioning
- Title(参考訳): 事前訓練対象検出器を超えて:画像キャプションのためのクロスモーダルテキストと視覚コンテキスト
- Authors: Chia-Wen Kuo, Zsolt Kira
- Abstract要約: 現在の方法の鍵となる制限は、モデルの出力が対象検出器の出力にのみ条件付けられることである。
オブジェクト関係などの欠落情報を表す補助的な入力を追加することを提案する。
我々は,画像キャプションにおける手法の有効性を検証し,各コンポーネントの徹底的な分析と,事前学習したマルチモーダルモデルの重要性を検証し,現状よりも大幅に改善されていることを示す。
- 参考スコア(独自算出の注目度): 25.728621355173626
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Significant progress has been made on visual captioning, largely relying on
pre-trained features and later fixed object detectors that serve as rich inputs
to auto-regressive models. A key limitation of such methods, however, is that
the output of the model is conditioned only on the object detector's outputs.
The assumption that such outputs can represent all necessary information is
unrealistic, especially when the detector is transferred across datasets. In
this work, we reason about the graphical model induced by this assumption, and
propose to add an auxiliary input to represent missing information such as
object relationships. We specifically propose to mine attributes and
relationships from the Visual Genome dataset and condition the captioning model
on them. Crucially, we propose (and show to be important) the use of a
multi-modal pre-trained model (CLIP) to retrieve such contextual descriptions.
Further, object detector models are frozen and do not have sufficient richness
to allow the captioning model to properly ground them. As a result, we propose
to condition both the detector and description outputs on the image, and show
qualitatively and quantitatively that this can improve grounding. We validate
our method on image captioning, perform thorough analyses of each component and
importance of the pre-trained multi-modal model, and demonstrate significant
improvements over the current state of the art, specifically +7.5% in CIDEr and
+1.3% in BLEU-4 metrics.
- Abstract(参考訳): 視覚キャプションの大幅な進歩は、主に事前訓練された機能と、自動回帰モデルへの豊富な入力として機能する固定されたオブジェクト検出器に依存している。
しかし、そのような方法の鍵となる制限は、モデルの出力が対象検出器の出力にのみ条件付けられることである。
そのような出力がすべての必要な情報を表現できるという仮定は非現実的であり、特に検出器がデータセット間で転送される場合である。
本稿では,この仮定によって引き起こされるグラフィカルモデルについて考察し,オブジェクト関係などの欠落情報を表す補助入力を追加することを提案する。
特に,視覚ゲノムデータセットから属性と関係を抽出し,キャプションモデルに条件を付けることを提案する。
重要なことは、このような文脈記述を検索するために、マルチモーダル事前学習モデル(CLIP)の使用を提案することである。
さらに、対象検出器モデルが凍結され、キャプションモデルが適切に接地できるように十分なリッチ性が持たない。
その結果,検出器と記述出力の両方を画像上に条件付けし,定性的かつ定量的にグラウンド化を改善することができることを示す。
画像キャプションの手法を検証し,事前学習したマルチモーダルモデルの重要性と各コンポーネントの徹底的な解析を行い,現在の技術,特にサイダーの+7.5%,bleu-4メトリクスの+1.3%に対して著しい改善を示した。
関連論文リスト
- Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - Learning Embeddings with Centroid Triplet Loss for Object Identification in Robotic Grasping [14.958823096408175]
基礎モデルはディープラーニングとコンピュータビジョンの強力なトレンドだ。
本稿では,そのような物体識別モデルの訓練に焦点をあてる。
このようなモデルをトレーニングするための主要な解決策は、遠心三重項損失(CTL)である。
論文 参考訳(メタデータ) (2024-04-09T13:01:26Z) - Learning from Models and Data for Visual Grounding [55.21937116752679]
データ駆動学習と様々な大規模事前学習モデルからの知識伝達を組み合わせたフレームワークであるSynGroundを紹介する。
マスク注意目的を最適化することにより、トレーニング済みの視覚・言語モデルをこのデータセット上に微調整する。
得られたモデルは、既成のビジョン・アンド・ランゲージモデルの接地能力を向上する。
論文 参考訳(メタデータ) (2024-03-20T17:59:43Z) - With a Little Help from your own Past: Prototypical Memory Networks for
Image Captioning [47.96387857237473]
我々は、他のトレーニングサンプルを処理しながら得られたアクティベーションに注意を向けるネットワークを考案した。
私たちのメモリは、プロトタイプベクトルの定義を通じて過去のキーと値の分布をモデル化します。
本研究では,エンコーダ・デコーダ変換器の性能を3.7 CIDErポイント向上できることを示す。
論文 参考訳(メタデータ) (2023-08-23T18:53:00Z) - Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。
このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文 参考訳(メタデータ) (2023-08-15T17:58:11Z) - FuseCap: Leveraging Large Language Models for Enriched Fused Image
Captions [11.274127953112574]
本稿では,「凍った」視覚専門家を用いて,既存のキャプションを視覚的詳細で拡張するための自動アプローチを提案する。
提案手法であるFuseCapは,そのような視覚専門家の出力を,大規模言語モデルを用いて原文のキャプションと融合する。
私たちはこの大規模な画像キャプチャーペアのデータセットをコミュニティ向けにリリースします。
論文 参考訳(メタデータ) (2023-05-28T13:16:03Z) - Few-shot Domain-Adaptive Visually-fused Event Detection from Text [13.189886554546929]
本稿では、いくつかのラベル付き画像テキストペアデータポイントでトレーニング可能な、ドメイン適応型視覚融合イベント検出手法を提案する。
具体的には,視覚的文脈がない場合にテキストから画像を生成する視覚的イマジネータ手法を提案する。
我々のモデルは、事前学習された視覚言語モデルの能力を活用でき、数ショットで訓練することができる。
論文 参考訳(メタデータ) (2023-05-04T00:10:57Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - A Comprehensive Study of Image Classification Model Sensitivity to
Foregrounds, Backgrounds, and Visual Attributes [58.633364000258645]
このデータセットをRIVAL10と呼びます。
本研究では,前景,背景,属性の騒音劣化に対する幅広いモデルの感度を評価する。
本稿では,多種多様な最先端アーキテクチャ (ResNets, Transformers) とトレーニング手順 (CLIP, SimCLR, DeiT, Adversarial Training) について考察する。
論文 参考訳(メタデータ) (2022-01-26T06:31:28Z) - MDETR -- Modulated Detection for End-to-End Multi-Modal Understanding [40.24656027709833]
生のテキストクエリで条件付き画像中のオブジェクトを検出するエンドツーエンド変調検出器 MDETR を提案する。
モデルの初期段階で2つのモダリティを融合することにより,テキストと画像上で共同で推論を行うトランスフォーマティブアーキテクチャを用いる。
GQAおよびCLEVR上での競合性能を達成することで,視覚的質問応答を容易に拡張することができる。
論文 参考訳(メタデータ) (2021-04-26T17:55:33Z) - Unsupervised Vision-and-Language Pre-training Without Parallel Images
and Captions [92.47566804182338]
画像キャプションコーパスを使わずに教師なし事前学習により、強力なV&L表現モデルを学習できるかどうかを検討する。
特に,テキストのみのコーパスと画像のみのコーパスで,マスク・アンド・予測の事前学習を行うことを提案する。
4つの英語のV&Lベンチマークで、アライメントされたデータで事前訓練されたモデルに近いこのような単純なアプローチの性能が得られた。
論文 参考訳(メタデータ) (2020-10-24T08:17:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。