論文の概要: Multi-LLM Collaborative Caption Generation in Scientific Documents
- arxiv url: http://arxiv.org/abs/2501.02552v1
- Date: Sun, 05 Jan 2025 14:09:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:09:16.853648
- Title: Multi-LLM Collaborative Caption Generation in Scientific Documents
- Title(参考訳): 科学文書における複数LLM協調キャプション生成
- Authors: Jaeyoung Kim, Jongho Lee, Hong-Jun Choi, Ting-Yao Hsu, Chieh-Yang Huang, Sungchul Kim, Ryan Rossi, Tong Yu, Clyde Lee Giles, Ting-Hao 'Kenneth' Huang, Sungchul Choi,
- Abstract要約: MLBCAP(Multi-LLM Collaborative Figure Caption Generation)というフレームワークを導入する。
私たちのアプローチは3つの重要なモジュールに展開します。
人間の評価から,我々のアプローチによる情報キャプションは人書きキャプションよりも格段に高いことが示された。
- 参考スコア(独自算出の注目度): 30.856381292477177
- License:
- Abstract: Scientific figure captioning is a complex task that requires generating contextually appropriate descriptions of visual content. However, existing methods often fall short by utilizing incomplete information, treating the task solely as either an image-to-text or text summarization problem. This limitation hinders the generation of high-quality captions that fully capture the necessary details. Moreover, existing data sourced from arXiv papers contain low-quality captions, posing significant challenges for training large language models (LLMs). In this paper, we introduce a framework called Multi-LLM Collaborative Figure Caption Generation (MLBCAP) to address these challenges by leveraging specialized LLMs for distinct sub-tasks. Our approach unfolds in three key modules: (Quality Assessment) We utilize multimodal LLMs to assess the quality of training data, enabling the filtration of low-quality captions. (Diverse Caption Generation) We then employ a strategy of fine-tuning/prompting multiple LLMs on the captioning task to generate candidate captions. (Judgment) Lastly, we prompt a prominent LLM to select the highest quality caption from the candidates, followed by refining any remaining inaccuracies. Human evaluations demonstrate that informative captions produced by our approach rank better than human-written captions, highlighting its effectiveness. Our code is available at https://github.com/teamreboott/MLBCAP
- Abstract(参考訳): 科学的フィギュアキャプションは、視覚内容の文脈的に適切な記述を生成する必要がある複雑なタスクである。
しかし、既存の手法は不完全な情報を利用することでしばしば不足し、タスクを画像からテキストへの要約問題またはテキスト要約問題としてのみ扱う。
この制限は、必要な詳細を完全に把握する高品質なキャプションの生成を妨げる。
さらに、arXiv論文から得られた既存のデータには、低品質なキャプションが含まれており、大きな言語モデル(LLM)をトレーニングする上で重要な課題となっている。
本稿では,MLBCAP(Multi-LLM Collaborative Figure Caption Generation)と呼ばれるフレームワークを導入し,これらの課題に対処する。
品質評価) トレーニングデータの品質を評価するためにマルチモーダルLCMを使用し、低品質キャプションのフィルタリングを可能にします。
(逆キャプション世代)
次に,複数のLDMをキャプションタスク上で微調整・プロンプトし,候補キャプションを生成する手法を提案する。
(判決)
最後に,各候補から最も高品質なキャプションを選定し,残った不正確さを精査する。
人文評価では,提案手法による情報キャプションは人文のキャプションよりも格段に優れており,その有効性を強調している。
私たちのコードはhttps://github.com/teamreboott/MLBCAPで利用可能です。
関連論文リスト
- Toward Robust Hyper-Detailed Image Captioning: A Multiagent Approach and Dual Evaluation Metrics for Factuality and Coverage [50.84150600032693]
MLLM(Multimodal large language model)は、非常に詳細なキャプションを生成するのに優れるが、幻覚を引き起こすことが多い。
我々は,LLM-MLLM協調を利用して与えられたキャプションを補正するマルチエージェント手法を提案する。
提案手法は, キャプションの精度を向上し, GPT-4Vによるキャプションの精度を向上する。
論文 参考訳(メタデータ) (2024-12-20T01:37:22Z) - Personalizing Multimodal Large Language Models for Image Captioning: An Experimental Analysis [44.008094698200026]
本稿では,様々な画像記述ベンチマークにおいて,従来の画像キャプションネットワークに代えて,マルチモーダルLLMが性能を評価できるかどうかを検討する。
これらのモデルのゼロショット機能と、細調整による異なるセマンティックドメインへの適応性の両方について検討する。
以上の結果から,マルチモーダル LLM はゼロショット性能に優れる一方で,特定の領域を微調整し,その一般化能力を保ち続けることは依然として困難であることが示唆された。
論文 参考訳(メタデータ) (2024-12-04T19:01:06Z) - FTII-Bench: A Comprehensive Multimodal Benchmark for Flow Text with Image Insertion [7.322448493179106]
Flow Text with Image Insertion Taskでは、LVLMは画像理解、命令理解、長文解釈において優れた能力を持つ必要がある。
318の高品質な中国語画像テキストニュース記事と307の高品質な英語画像テキストニュース記事を含む、画像挿入ベンチマーク付きフローテキスト(FTII-Bench)を導入し、10の異なるニュースドメインをカバーする。
9つのオープンソースと2つのクローズドソースのLVLMと2つのCLIPベースのモデルを評価した。
論文 参考訳(メタデータ) (2024-10-16T13:38:31Z) - Learning text-to-video retrieval from image captioning [59.81537951811595]
本稿では,未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。
i) ビデオのラベルにアクセスできず、(ii) テキスト形式でラベル付き画像にアクセスすると仮定する。
画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。
論文 参考訳(メタデータ) (2024-04-26T15:56:08Z) - EAMA : Entity-Aware Multimodal Alignment Based Approach for News Image Captioning [55.033327333250455]
ニュース画像キャプションは、ニュース画像と関連するニュース記事とともに、エンティティに富んだ情報キャプションを生成するモデルを必要とする。
現在のMLLM(Multimodal Large Language Models)は、ニュース画像キャプションタスクのエンティティ情報を扱う場合に制限がある。
提案手法は,GoodNewsデータセット(72.33 -> 88.39)とNYTimes800kデータセット(70.83 -> 85.61)のCIDErスコアよりも優れた結果が得られる。
論文 参考訳(メタデータ) (2024-02-29T18:03:00Z) - MLLMs-Augmented Visual-Language Representation Learning [70.5293060238008]
MLLM(Multi-modal Large Language Models)が視覚言語表現学習を向上させることを実証した。
本手法は単純で,MLLMを用いて画像毎に複数のキャプションを拡張できる。
拡張キャプションの品質と可用性を維持するために,テキストシーリングを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:05:52Z) - HowToCaption: Prompting LLMs to Transform Video Annotations at Scale [72.69268311756082]
本稿では,大言語モデル(LLM)の能力を活用して,大規模ビデオに対応する高品質な映像記述を実現することを提案する。
本稿では,より長い字幕テキストを考慮に入れたプロンプト手法を提案する。
我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。
論文 参考訳(メタデータ) (2023-10-07T19:32:55Z) - Summaries as Captions: Generating Figure Captions for Scientific
Documents with Automated Text Summarization [31.619379039184263]
図文キャプション生成は、科学文書におけるテキスト要約タスクとして、より効果的に取り組むことができる。
図式参照段落を具体的に要約するために,事前学習した抽象要約モデルであるPEGを微調整した。
大規模arXiv図を用いた実験により,本手法は,自動評価と人的評価の両方において,先行視覚法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-02-23T20:39:06Z) - Fine-grained Image Captioning with CLIP Reward [104.71533106301598]
ウェブから大量の画像テキストペアをトレーニングしたマルチモーダルエンコーダであるCLIPを用いて、マルチモーダル類似性を計算し、報酬関数として利用する。
また、追加のテキストアノテーションを必要としない文法を改善するために、CLIPテキストエンコーダの簡単な微調整戦略を提案する。
テキスト・ツー・イメージ検索とFineCapEvalの実験において、提案したCLIP誘導モデルは、CIDEr最適化モデルよりも顕著なキャプションを生成する。
論文 参考訳(メタデータ) (2022-05-26T02:46:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。