論文の概要: AnyCap Project: A Unified Framework, Dataset, and Benchmark for Controllable Omni-modal Captioning
- arxiv url: http://arxiv.org/abs/2507.12841v1
- Date: Thu, 17 Jul 2025 07:04:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.37706
- Title: AnyCap Project: A Unified Framework, Dataset, and Benchmark for Controllable Omni-modal Captioning
- Title(参考訳): AnyCap Project: コントロール可能なOmni-Modalキャプションのための統一フレームワーク、データセット、ベンチマーク
- Authors: Yiming Ren, Zhiqiang Lin, Yu Li, Gao Meng, Weiyun Wang, Junjie Wang, Zicheng Lin, Jifeng Dai, Yujiu Yang, Wenhai Wang, Ruihang Chu,
- Abstract要約: 我々は、モデル、データセット、評価にまたがる統合ソリューションであるAnyCapプロジェクトを紹介します。
ACMはオリジナルのキャプションをベースモデルから再利用し、ユーザ命令とモダリティ機能を取り入れて改良されたキャプションを生成する。
ACMはAnyCapEvalの様々なベースモデルのキャプション品質を著しく改善する。
- 参考スコア(独自算出の注目度): 79.67661446549039
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Controllable captioning is essential for precise multimodal alignment and instruction following, yet existing models often lack fine-grained control and reliable evaluation protocols. To address this gap, we present the AnyCap Project, an integrated solution spanning model, dataset, and evaluation. We introduce AnyCapModel (ACM), a lightweight plug-and-play framework that enhances the controllability of existing foundation models for omni-modal captioning without retraining the base model. ACM reuses the original captions from base models while incorporating user instructions and modality features to generate improved captions. To remedy the data scarcity in controllable multimodal captioning, we build AnyCapDataset (ACD), covering three modalities, 28 user-instruction types, and 300\,k high-quality data entries. We further propose AnyCapEval, a new benchmark that provides more reliable evaluation metrics for controllable captioning by decoupling content accuracy and stylistic fidelity. ACM markedly improves caption quality across a diverse set of base models on AnyCapEval. Notably, ACM-8B raises GPT-4o\'s content scores by 45\% and style scores by 12\%, and it also achieves substantial gains on widely used benchmarks such as MIA-Bench and VidCapBench.
- Abstract(参考訳): 制御可能なキャプションは、正確なマルチモーダルアライメントとインストラクションに不可欠であるが、既存のモデルでは細かい制御と信頼性のある評価プロトコルが欠如していることが多い。
このギャップに対処するため、モデル、データセット、評価にまたがる統合ソリューションであるAnyCapプロジェクトを紹介します。
我々は,Omni-modalキャプションのための既存の基盤モデルの制御性を向上させる軽量なプラグイン・アンド・プレイフレームワークであるAnyCapModel(ACM)を紹介した。
ACMはオリジナルのキャプションをベースモデルから再利用し、ユーザ命令とモダリティ機能を取り入れて改良されたキャプションを生成する。
制御可能なマルチモーダルキャプションにおけるデータの不足を軽減するために,AnyCapDataset(ACD)を構築し,3つのモダリティ,28のユーザ命令型,300\,kの高品質なデータエントリをカバーする。
さらに,AnyCapEvalを提案する。AnyCapEvalは,コンテンツ精度とスタイリスティックな忠実度を分離することで,制御可能なキャプションの評価基準をより信頼性の高いものにするベンチマークである。
ACMはAnyCapEvalの様々なベースモデルのキャプション品質を著しく改善する。
特に、ACM-8B は GPT-4o\ のコンテンツスコアを 45 % 、スタイルスコアを 12 % 引き上げ、MIA-Bench や VidCapBench といった広く使われているベンチマークでも大幅に向上している。
関連論文リスト
- Any2Caption:Interpreting Any Condition to Caption for Controllable Video Generation [118.5096631571738]
我々は任意の条件下で制御可能なビデオ生成のための新しいフレームワークであるAny2Captionを提示する。
現代のマルチモーダルな大言語モデル(MLLM)を活用することで、Any2Captionはテキスト、画像、ビデオ、地域、動き、カメラのポーズなど、多種多様な入力を解釈する。
包括的評価は,既存の映像生成モデルの様々な側面において,制御性と映像品質の大幅な向上を示す。
論文 参考訳(メタデータ) (2025-03-31T17:59:01Z) - Painting with Words: Elevating Detailed Image Captioning with Benchmark and Alignment Learning [56.31096024472269]
我々はDeCapBenchと、詳細なキャプションタスク用に特別に設計された新しいメトリックであるDCScoreを紹介する。
DCScoreは、反応を最小の自己充足単位に分解することで、幻覚ときめ細かい包括性を評価する。
DeCapBenchは、視覚言語モデルの既存のベンチマークを上回り、記述タスクにおけるVLMアリーナの結果と高い相関を示す。
論文 参考訳(メタデータ) (2025-03-10T22:53:56Z) - Revisit Large-Scale Image-Caption Data in Pre-training Multimodal Foundation Models [63.01630478059315]
マルチモーダルモデルの最近の進歩は、性能向上のための書き直しキャプションの価値を強調している。
プレトレーニングにおける合成キャプションとオリジナルのWebcrawled AltTextsとの相互作用が、まだよく理解されていないかどうかは不明だ。
様々なマルチモーダルモデルに適した多様なキャプションフォーマットを生成するために,新しい,制御可能な,スケーラブルなキャプションパイプラインを提案する。
論文 参考訳(メタデータ) (2024-10-03T17:54:52Z) - Benchmarking and Improving Detail Image Caption [12.078715675876674]
視覚言語モデル (LVLM) は視覚理解の基本的な課題とされてきた。
本稿では,人間専門家が注釈付けした高品質な評価データセットをキュレートすることで,詳細な画像キャプションタスクのベンチマークを行う。
また、CAPTUREと呼ばれるより信頼性の高いキャプション評価指標も設計する。
論文 参考訳(メタデータ) (2024-05-29T13:54:12Z) - ControlCap: Controllable Region-level Captioning [57.57406480228619]
地域レベルのキャプションは、キャプション・デジェネレーションの問題によって挑戦される。
事前訓練されたマルチモーダルモデルは、最も頻繁なキャプションを予測する傾向にあるが、あまり頻繁でないキャプションを見逃す。
制御可能な領域レベルのキャプション手法を提案し,マルチモーダルモデルに制御語を導入する。
論文 参考訳(メタデータ) (2024-01-31T15:15:41Z) - Few-shot Action Recognition with Captioning Foundation Models [61.40271046233581]
CapFSARは、テキストを手動でアノテートすることなく、マルチモーダルモデルの知識を利用するフレームワークである。
Transformerをベースとしたビジュアルテキストアグリゲーションモジュールはさらに、モーダル時間間の補完情報を組み込むように設計されている。
複数の標準的な数ショットベンチマークの実験では、提案したCapFSARが既存の手法に対して好適に動作することを示した。
論文 参考訳(メタデータ) (2023-10-16T07:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。