論文の概要: MetaCaptioner: Towards Generalist Visual Captioning with Open-source Suites
- arxiv url: http://arxiv.org/abs/2510.12126v3
- Date: Thu, 16 Oct 2025 14:57:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 14:17:28.090459
- Title: MetaCaptioner: Towards Generalist Visual Captioning with Open-source Suites
- Title(参考訳): MetaCaptioner: オープンソーススイートによる汎用的なビジュアルキャプションを目指す
- Authors: Zhenxin Lei, Zhangwei Gao, Changyao Tian, Erfei Cui, Guanzhou Chen, Danni Yang, Yuchen Duan, Zhaokai Wang, Wenhao Li, Weiyun Wang, Xiangyu Zhao, Jiayi Ji, Yu Qiao, Wenhai Wang, Gen Luo,
- Abstract要約: 一般的なビジュアルキャプションは、一連のビジュアルキューをキャプションに統合し、様々なビジュアルドメインを扱う必要がある。
本稿では,新しいマルチエージェントコラボレーションワークフローであるCapFlowを提案する。
オープンソースモデルを利用することで、様々なドメインでGPT-4.1と同等のキャプション品質を89.5%のコストで達成することができる。
- 参考スコア(独自算出の注目度): 84.44760503711196
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generalist visual captioning goes beyond a simple appearance description task, but requires integrating a series of visual cues into a caption and handling various visual domains. In this task, current open-source models present a large performance gap with commercial ones, which limits various applications such as data synthesis. To bridge the gap, this paper proposes CapFlow, a novel multi-agent collaboration workflow. CapFlow demonstrates for the first time that, by capitalizing on open-source models, it is possible to achieve caption quality on par with GPT-4.1 in various domains with an 89.5% reduction in costs. By leveraging CapFlow as the data synthesizer, we produce high-quality visual captions from image and video domains at scale, and obtain a generalist visual captioner via fine-tuning, namely MetaCaptioner. Through extensive experiments, we show that MetaCaptioner not only achieves comparable captioning capabilities with commercial models but also reaches top-tier multimodal performance in the open-source community. We hope CapFlow and MetaCaptioner can benefit future multimodal research by providing a strong and cost-effective visual captioning solution.
- Abstract(参考訳): 一般の視覚的キャプションは、単純な外観記述タスクを越えているが、一連の視覚的キューをキャプションに統合し、様々な視覚的ドメインを扱う必要がある。
このタスクでは、現在のオープンソースモデルは商用モデルと大きなパフォーマンスギャップを示し、データ合成のような様々なアプリケーションを制限する。
本稿では,このギャップを埋めるために,新しいマルチエージェントコラボレーションワークフローであるCapFlowを提案する。
CapFlowは、オープンソースモデルを活用することで、様々なドメインでGPT-4.1と同等のキャプション品質を89.5%のコストで達成できることを初めて示した。
CapFlowをデータシンセサイザーとして活用することにより、画像ドメインやビデオドメインから高品質な視覚キャプションを生成し、微調整、すなわちMetaCaptionerを通じて一般の視覚キャプタを得る。
大規模な実験を通じて,MetaCaptionerは商用モデルで同等のキャプション機能を実現するだけでなく,オープンソースコミュニティにおいて最上位のマルチモーダルパフォーマンスに達することを示す。
CapFlowとMetaCaptionerが、強力で費用対効果の高いビジュアルキャプションソリューションを提供することで、将来のマルチモーダル研究の恩恵を享受できることを願っています。
関連論文リスト
- Panoptic Captioning: Seeking An Equivalency Bridge for Image and Text [15.64048708183143]
この研究は、画像の最小テキスト等価性を求める新しいタスクである、パノプティクスキャプションを導入している。
高品質なデータを生成するためにPancapEngineという効果的なデータエンジンを提案し,また,パンコプトキャプションを改善するためにPancapChainという新しい手法を提案する。
当社のPancapChain-13Bモデルは、InternVL-2.5-78Bのような最先端のオープンソースMLLMを破り、GPT-4oやGemini-2.0-Proといったプロプライエタリなモデルを超えています。
論文 参考訳(メタデータ) (2025-05-22T07:44:10Z) - OmniCaptioner: One Captioner to Rule Them All [33.98387155732322]
細かなテキスト記述を生成するための多目的視覚キャプションフレームワークを提案する。
低レベルのピクセル情報を意味的にリッチなテキスト表現に変換することで、われわれのフレームワークは視覚とテキストのモダリティのギャップを埋める。
OmniCaptionerの汎用性と適応性は、言語と視覚的モダリティのギャップを埋めるための新たな視点を提供することができると信じています。
論文 参考訳(メタデータ) (2025-04-09T17:58:58Z) - AuroraCap: Efficient, Performant Video Detailed Captioning and a New Benchmark [89.73538448786405]
大規模なマルチモーダルモデルに基づくビデオキャプタであるAuroraCapを提案する。
トークンマージ戦略を実装し、入力されたビジュアルトークンの数を減らす。
AuroraCapは、様々なビデオおよび画像キャプションベンチマークで優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-10-04T00:13:54Z) - Few-shot Action Recognition with Captioning Foundation Models [61.40271046233581]
CapFSARは、テキストを手動でアノテートすることなく、マルチモーダルモデルの知識を利用するフレームワークである。
Transformerをベースとしたビジュアルテキストアグリゲーションモジュールはさらに、モーダル時間間の補完情報を組み込むように設計されている。
複数の標準的な数ショットベンチマークの実験では、提案したCapFSARが既存の手法に対して好適に動作することを示した。
論文 参考訳(メタデータ) (2023-10-16T07:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。