論文の概要: LaMP-Cap: Personalized Figure Caption Generation With Multimodal Figure Profiles
- arxiv url: http://arxiv.org/abs/2506.06561v1
- Date: Fri, 06 Jun 2025 22:16:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.330205
- Title: LaMP-Cap: Personalized Figure Caption Generation With Multimodal Figure Profiles
- Title(参考訳): LaMP-Cap:マルチモーダルフィギュアプロファイルを用いたパーソナライズされたフィギュアキャプション生成
- Authors: Ho Yin 'Sam' Ng, Ting-Yao Hsu, Aashish Anantha Ramakrishnan, Branislav Kveton, Nedim Lipka, Franck Dernoncourt, Dongwon Lee, Tong Yu, Sungchul Kim, Ryan A. Rossi, Ting-Hao 'Kenneth' Huang,
- Abstract要約: 本稿では,マルチモーダルな人物キャプション生成のためのデータセットであるLaMP-Capを紹介する。
実験では、プロファイル情報を使用することで、オリジナルの著者が書いたものに近いキャプションを生成することができる。
- 参考スコア(独自算出の注目度): 77.58985200003079
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Figure captions are crucial for helping readers understand and remember a figure's key message. Many models have been developed to generate these captions, helping authors compose better quality captions more easily. Yet, authors almost always need to revise generic AI-generated captions to match their writing style and the domain's style, highlighting the need for personalization. Despite language models' personalization (LaMP) advances, these technologies often focus on text-only settings and rarely address scenarios where both inputs and profiles are multimodal. This paper introduces LaMP-Cap, a dataset for personalized figure caption generation with multimodal figure profiles. For each target figure, LaMP-Cap provides not only the needed inputs, such as figure images, but also up to three other figures from the same document--each with its image, caption, and figure-mentioning paragraphs--as a profile to characterize the context. Experiments with four LLMs show that using profile information consistently helps generate captions closer to the original author-written ones. Ablation studies reveal that images in the profile are more helpful than figure-mentioning paragraphs, highlighting the advantage of using multimodal profiles over text-only ones.
- Abstract(参考訳): フィギュアキャプションは、読者がフィギュアのキーメッセージを理解し、記憶するのを助けるために不可欠である。
これらのキャプションを生成するために多くのモデルが開発され、著者がより良いキャプションをより容易に作成するのに役立つ。
しかし、著者は書き方とドメインのスタイルに合わせて汎用的なAI生成キャプションを変更する必要があり、パーソナライズの必要性を強調している。
言語モデルのパーソナライズ(LaMP)の進歩にもかかわらず、これらの技術はテキストのみの設定に重点を置いており、入力とプロファイルの両方がマルチモーダルなシナリオにほとんど対処しない。
本稿では,マルチモーダルな人物プロファイルを持つ人物キャプション生成のためのデータセットであるLaMP-Capを紹介する。
それぞれのターゲットフィギュアに対して、LaMP-Capは、図形イメージのような必要な入力だけでなく、同じドキュメントから、その画像、キャプション、図形化の段落を含む3つの他の図形も、コンテキストを特徴付けるプロファイルとして提供する。
4つのLCMを用いた実験では、プロファイル情報を使用することで、オリジナルの著者が書いたものに近いキャプションを生成することができる。
アブレーション研究では、プロファイル内の画像は図式化段落よりも有用であることが示され、テキストのみよりもマルチモーダルプロファイルを使用することの利点が浮き彫りになっている。
関連論文リスト
- Multi-LLM Collaborative Caption Generation in Scientific Documents [30.856381292477177]
MLBCAP(Multi-LLM Collaborative Figure Caption Generation)というフレームワークを導入する。
私たちのアプローチは3つの重要なモジュールに展開します。
人間の評価から,我々のアプローチによる情報キャプションは人書きキャプションよりも格段に高いことが示された。
論文 参考訳(メタデータ) (2025-01-05T14:09:12Z) - Revisit Large-Scale Image-Caption Data in Pre-training Multimodal Foundation Models [63.01630478059315]
マルチモーダルモデルの最近の進歩は、性能向上のための書き直しキャプションの価値を強調している。
プレトレーニングにおける合成キャプションとオリジナルのWebcrawled AltTextsとの相互作用が、まだよく理解されていないかどうかは不明だ。
様々なマルチモーダルモデルに適した多様なキャプションフォーマットを生成するために,新しい,制御可能な,スケーラブルなキャプションパイプラインを提案する。
論文 参考訳(メタデータ) (2024-10-03T17:54:52Z) - Improving Multimodal Datasets with Image Captioning [65.74736570293622]
生成したキャプションが非記述テキストによるWebスクラッピングデータポイントの有用性を高める方法について検討する。
DataComp の大規模字幕 (1.28B 画像テキストペア) を用いた実験により,合成テキストの限界について考察した。
論文 参考訳(メタデータ) (2023-07-19T17:47:12Z) - FuseCap: Leveraging Large Language Models for Enriched Fused Image
Captions [11.274127953112574]
本稿では,「凍った」視覚専門家を用いて,既存のキャプションを視覚的詳細で拡張するための自動アプローチを提案する。
提案手法であるFuseCapは,そのような視覚専門家の出力を,大規模言語モデルを用いて原文のキャプションと融合する。
私たちはこの大規模な画像キャプチャーペアのデータセットをコミュニティ向けにリリースします。
論文 参考訳(メタデータ) (2023-05-28T13:16:03Z) - NewsStories: Illustrating articles with visual summaries [49.924916589209374]
我々は,3300万記事,2200万画像,100万ビデオを含む大規模マルチモーダルデータセットを提案する。
現状の画像テキストアライメント手法は、複数の画像を持つ長い物語に対して堅牢ではないことを示す。
本稿では,GoodNewsデータセット上で,ゼロショット画像セット検索において,これらの手法を10%向上させる直感的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-07-26T17:34:11Z) - Towards Multimodal Vision-Language Models Generating Non-Generic Text [2.102846336724103]
視覚言語モデルは、画像内の視覚的コンテキストを評価し、記述的なテキストを生成することができる。
近年の研究では、画像から抽出したテキストで視覚情報を補うために光学文字認識が用いられている。
本研究では、画像から抽出できるが、現在のモデルでは使用されない付加的な情報から、視覚言語モデルが恩恵を受けることができると論じる。
論文 参考訳(メタデータ) (2022-07-09T01:56:35Z) - Fine-grained Image Captioning with CLIP Reward [104.71533106301598]
ウェブから大量の画像テキストペアをトレーニングしたマルチモーダルエンコーダであるCLIPを用いて、マルチモーダル類似性を計算し、報酬関数として利用する。
また、追加のテキストアノテーションを必要としない文法を改善するために、CLIPテキストエンコーダの簡単な微調整戦略を提案する。
テキスト・ツー・イメージ検索とFineCapEvalの実験において、提案したCLIP誘導モデルは、CIDEr最適化モデルよりも顕著なキャプションを生成する。
論文 参考訳(メタデータ) (2022-05-26T02:46:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。