論文の概要: Cycle-Consistency Learning for Captioning and Grounding
- arxiv url: http://arxiv.org/abs/2312.15162v1
- Date: Sat, 23 Dec 2023 04:35:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 19:23:52.072397
- Title: Cycle-Consistency Learning for Captioning and Grounding
- Title(参考訳): キャプションと接地のためのサイクルコンシスタンス学習
- Authors: Ning Wang, Jiajun Deng, Mingbo Jia
- Abstract要約: CyCoは、視覚的な接地とイメージキャプションの独立したトレーニングパイプラインを改善するための、循環一貫性のある学習フレームワークである。
我々の完全教師付き接地モデルは最先端の性能を実現し、半弱教師付き接地モデルも競争性能を示す。
画像キャプションモデルには,画像領域を自由に記述する機能があり,また,一般的なキャプションベンチマークでは印象的な性能を示す。
- 参考スコア(独自算出の注目度): 26.449390775611803
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present that visual grounding and image captioning, which perform as two
mutually inverse processes, can be bridged together for collaborative training
by careful designs. By consolidating this idea, we introduce CyCo, a
cyclic-consistent learning framework to ameliorate the independent training
pipelines of visual grounding and image captioning. The proposed framework (1)
allows the semi-weakly supervised training of visual grounding; (2) improves
the performance of fully supervised visual grounding; (3) yields a general
captioning model that can describe arbitrary image regions. Extensive
experiments show that our fully supervised grounding model achieves
state-of-the-art performance, and the semi-weakly supervised one also exhibits
competitive performance compared to the fully supervised counterparts. Our
image captioning model has the capability to freely describe image regions and
meanwhile shows impressive performance on prevalent captioning benchmarks.
- Abstract(参考訳): 本稿では,2つの逆過程として作用する視覚接地と画像キャプションを組み合わせることで,注意深い設計による協調学習を実現する。
このアイデアを集約することで、視覚の接地と画像キャプションの独立したトレーニングパイプラインを改善するための、循環一貫性のある学習フレームワークcycoを紹介する。
提案フレームワークは,視覚的接地に関する半弱教師付きトレーニングを可能にする。(2)完全に教師付き視覚的接地の性能を向上させる;(3)任意の画像領域を記述可能な一般的なキャプションモデルを生成する。
広範囲にわたる実験により,完全教師付接地モデルが最先端性能を達成し,半教師付モデルが完全教師付接地モデルと比較し,競合性能を示すことが示された。
画像キャプションモデルは、画像領域を自由に記述できると同時に、一般的なキャプションベンチマークで印象的なパフォーマンスを示す。
関連論文リスト
- Compositional Entailment Learning for Hyperbolic Vision-Language Models [54.41927525264365]
画像とテキストのペアを超えて、双曲的埋め込みの自然的階層性を完全に活用する方法を示す。
双曲型視覚言語モデルのための構成的包摂学習を提案する。
数百万の画像テキストペアで訓練された双曲型視覚言語モデルに対する経験的評価は、提案手法が従来のユークリッドCLIP学習より優れていることを示している。
論文 参考訳(メタデータ) (2024-10-09T14:12:50Z) - Zero-Shot Image Harmonization with Generative Model Prior [22.984119094424056]
画像調和のためのゼロショットアプローチを提案し, 大量の合成合成画像への依存を克服することを目的とした。
人間の振る舞いにインスパイアされた、完全にモジュール化されたフレームワークを導入します。
さまざまなシーンやオブジェクトにまたがる説得力のある視覚的結果と、アプローチを検証するユーザスタディを提示します。
論文 参考訳(メタデータ) (2023-07-17T00:56:21Z) - Vita-CLIP: Video and text adaptive CLIP via Multimodal Prompting [111.49781716597984]
本稿では,教師付きおよびゼロショット性能のバランスをとるためのマルチモーダル・プロンプト学習手法を提案する。
Kinetics-600, HMDB51, UCF101では, 教師付き環境での競争力を維持しながら, 最先端のゼロショット性能を実現することができる。
論文 参考訳(メタデータ) (2023-04-06T18:00:04Z) - Paraphrasing Is All You Need for Novel Object Captioning [126.66301869607656]
新たな物体キャプション (NOC) は, 訓練中に真実のキャプションを観察することなく, 対象を含む画像を記述することを目的としている。
本稿では,NOC の2段階学習フレームワークである Paraphrasing-to-Captioning (P2C) について述べる。
論文 参考訳(メタデータ) (2022-09-25T22:56:04Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - Look at What I'm Doing: Self-Supervised Spatial Grounding of Narrations
in Instructional Videos [78.34818195786846]
ビデオにおけるナレーション相互作用を空間的局所化するタスクについて紹介する。
提案手法の鍵となるのは,映像の大規模コーパスにおける自己スーパービジョンとの相互作用の空間的ローカライズを学習する能力である。
学習中のコントラスト損失を効果的に最適化できる多層マルチモーダルアテンションネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T14:45:13Z) - Connecting What to Say With Where to Look by Modeling Human Attention
Traces [30.8226861256742]
画像,テキスト,人間の注意跡を共同でモデル化する統合フレームワークを提案する。
本研究では,(1)画像とキャプション(視覚的接地)に与えられたトレースを予測し,(2)画像のみに与えられるキャプションとトレースを予測する2つの新しいタスクを提案する。
論文 参考訳(メタデータ) (2021-05-12T20:53:30Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。