Fugu-MT 論文翻訳(概要): CycleCap: Improving VLMs Captioning Performance via Self-Supervised Cycle Consistency Fine-Tuning

論文の概要: CycleCap: Improving VLMs Captioning Performance via Self-Supervised Cycle Consistency Fine-Tuning

arxiv url: http://arxiv.org/abs/2603.18282v1
Date: Wed, 18 Mar 2026 20:57:31 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-20 17:19:05.847729
Title: CycleCap: Improving VLMs Captioning Performance via Self-Supervised Cycle Consistency Fine-Tuning
Title（参考訳）: CycleCap: 自己監督型サイクル一貫性ファインチューニングによるVLMキャプション性能の向上
Authors: Marios Krestenitis, Christos Tzelepis, Konstantinos Ioannidis, Steafanos Vrochidis, Ioannis Kompatsiaris, Georgios Tzimiropoulos, Shaogang Gong, Ioannis Patras,
Abstract要約: 視覚言語モデル(VLM)は画像キャプション、視覚的質問応答、視覚的推論において顕著な進歩を遂げている。ヴィジュアル言語を誤用する傾向があり、しばしば過度に汎用的あるいは幻覚的な記述を生み出している。既存のアプローチでは、コストがかかる大規模アノテートデータセットのインストラクションチューニングと、キャプションリファインメントのための複雑なテストタイムフレームワークによって、この問題に対処している。本研究では,サイクル一貫性のレンズを用いて,画像テキストのアライメントを再考する。
参考スコア（独自算出の注目度）: 64.57279292110874
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Visual-Language Models (VLMs) have achieved remarkable progress in image captioning, visual question answering, and visual reasoning. Yet they remain prone to vision-language misalignment, often producing overly generic or hallucinated descriptions. Existing approaches address this via instruction tuning-requiring costly, large-scale annotated datasets or via complex test-time frameworks for caption refinement. In this work, we revisit image-text alignment through the lens of cycle consistency: given an image and a caption generated by an image-to-text model, the backward mapping through a text-to-image model should reconstruct an image that closely matches the original. In our setup, a VLM serves as the image-to-text component, while a pre-trained text-to-image model closes the loop by reconstructing the image from the generated caption. Building on this, we introduce CycleCap, a fine-tuning scheme to improve image captioning using Group Relative Policy Optimization (GRPO) with a reward based on the similarity between the original and reconstructed images, computed on-the-fly. Unlike previous work that uses cycle consistency loss for preference dataset construction, our method leverages cycle consistency directly as a self-supervised training signal. This enables the use of raw images alone, eliminating the need for curated image-text datasets, while steering the VLM to produce more accurate and grounded text descriptions. Applied to four VLMs ranging from 1B to 7B parameters, CycleCap yields consistent improvements across captioning and hallucination benchmarks, surpassing state-of-the-art methods that rely on supervised cycle consistency training.
Abstract（参考訳）: 視覚言語モデル(VLM)は画像キャプション、視覚的質問応答、視覚的推論において顕著な進歩を遂げている。しかし、それらは視覚言語的な誤りを伴いがちであり、しばしば過度に汎用的あるいは幻覚的な記述を生み出している。既存のアプローチでは、コストがかかる大規模アノテートデータセットのインストラクションチューニングと、キャプションリファインメントのための複雑なテストタイムフレームワークによって、この問題に対処している。本研究では,画像とキャプションを画像からテキストへの変換モデルで生成した画像とキャプションをサイクル整合性のレンズで再検討する。我々の設定では、VLMが画像からテキストへのコンポーネントとして機能し、事前訓練されたテキストから画像へのモデルが生成されたキャプションからイメージを再構成することでループを閉じる。そこで我々は,グループ相対政策最適化(GRPO)を用いた画像キャプションの微調整手法であるCycleCapを導入し,オリジナルの画像と再構成画像との類似性に基づく報酬をオンザフライで計算した。好みデータセット構築にサイクル整合性損失を用いた従来の作業とは異なり、本手法は自己教師あり学習信号としてサイクル整合性を直接活用する。これにより、生画像のみの使用が可能になり、キュレートされた画像テキストデータセットは不要になり、VLMはより正確で基礎的なテキスト記述を生成することができる。 1Bから7Bパラメータの4つのVLMに適用すると、CycleCapはキャプションと幻覚ベンチマークの間で一貫した改善をもたらし、教師付きサイクル一貫性トレーニングに依存する最先端の手法を超越する。

関連論文リスト

Cycle Consistency as Reward: Learning Image-Text Alignment without Human Preferences [23.022496443851235]
画像と生成されたテキストが与えられた場合、テキスト・ツー・イメージ・モデルを用いてテキストを画像空間にマッピングし、元の画像と再構成との類似性を計算する。サイクル一貫性スコアを用いて候補をランク付けし、866K比較ペアの選好データセットを構築する。データセットであるCycleRewardでトレーニングされた報酬モデルは、詳細なキャプションに関する最先端のアライメント指標よりも優れています。
論文参考訳（メタデータ） (2025-06-02T17:42:58Z)
RICO: Improving Accuracy and Completeness in Image Recaptioning via Visual Reconstruction [22.72702783743817]
RICOは視覚的再構成によってキャプションを洗練させる新しいフレームワークである。 DPOを用いてRICOのようなキャプションを生成するRICO-Flashを導入する。提案手法はキャプション精度と完全性を大幅に向上させ,CapsBenchとCompreCapでは,ほとんどのベースラインを約10%上回った。
論文参考訳（メタデータ） (2025-05-28T17:29:34Z)
Unleashing Text-to-Image Diffusion Prior for Zero-Shot Image Captioning [70.98890307376548]
そこで本研究では,学習中に不信なコンテンツを適応的に緩和する,新しいPatch-wise Cross-modal Feature Mix-up(PCM)機構を提案する。私たちのPCM-Netは、ドメイン内およびクロスドメインのゼロショット画像キャプションの両方で第1位です。
論文参考訳（メタデータ） (2024-12-31T13:39:08Z)
CLIP-SCGI: Synthesized Caption-Guided Inversion for Person Re-Identification [9.996589403019675]
person re-identification (ReID) は Contrastive Language-Image Pre-Training (CLIP) のような大規模な事前訓練された視覚言語モデルの恩恵を受けている。本稿では、既存の画像キャプションモデルを利用して人物画像の擬似キャプションを生成する方法を提案する。 CLIP-SCGI(CLIP-SCGI)は、合成キャプションを利用して、差別的・堅牢な表現の学習をガイドするフレームワークである。
論文参考訳（メタデータ） (2024-10-12T06:24:33Z)
Spherical Linear Interpolation and Text-Anchoring for Zero-shot Composed Image Retrieval [43.47770490199544]
Composed Image Retrieval (CIR)は、画像とキャプションで構成されたクエリを使って画像を取得する複雑なタスクである。 Slerp(Spherical Linear Interpolation)を用いて画像とテキストを直接マージする新しいZS-CIR手法を提案する。また,テキストエンコーダを固定しながら画像エンコーダを微調整するText-Anchored-Tuning (TAT)を導入する。
論文参考訳（メタデータ） (2024-05-01T15:19:54Z)
COSA: Concatenated Sample Pretrained Vision-Language Foundation Model [78.32081709802873]
ほとんどの視覚言語基盤モデルは、事前トレーニングに画像テキストデータセットを使用している。我々は,COncatenated SAmple pretrained vision- language foundation modelであるCOSAを提案する。複数の画像テキストペアを事前学習用入力として逐次結合することで、これを実現する。この変換により、既存の画像テキストコーパスを擬似長文ビデオパラグラフコーパスに変換する。
論文参考訳（メタデータ） (2023-06-15T12:29:42Z)
Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文参考訳（メタデータ） (2022-05-26T03:13:43Z)
Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文参考訳（メタデータ） (2021-02-23T07:20:12Z)
XGPT: Cross-modal Generative Pre-Training for Image Captioning [80.26456233277435]
XGPTは画像キャプチャのためのクロスモーダル生成前訓練法である。テキスト・ツー・イメージ・キャプション・ジェネレータを3つの新しい生成タスクで事前訓練するように設計されている。 XGPTはタスク固有のアーキテクチャ変更なしに微調整できる。
論文参考訳（メタデータ） (2020-03-03T12:13:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。