論文の概要: MoColl: Agent-Based Specific and General Model Collaboration for Image Captioning
- arxiv url: http://arxiv.org/abs/2501.01834v2
- Date: Fri, 10 Jan 2025 10:08:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-13 15:25:23.154395
- Title: MoColl: Agent-Based Specific and General Model Collaboration for Image Captioning
- Title(参考訳): MoColl:イメージキャプションのためのエージェントベース特化モデルと一般モデルコラボレーション
- Authors: Pu Yang, Bin Dong,
- Abstract要約: 本稿では,MoCollと呼ばれる新しいエージェント強化モデルコラボレーションフレームワークを提案する。
MoCollは複雑なイメージキャプションタスクを一連の相互接続された質問応答サブタスクに分解する。
放射線学レポート生成実験の結果,提案手法の有効性が検証された。
- 参考スコア(独自算出の注目度): 4.955697042432618
- License:
- Abstract: Image captioning is a critical task at the intersection of computer vision and natural language processing, with wide-ranging applications across various domains. For complex tasks such as diagnostic report generation, deep learning models require not only domain-specific image-caption datasets but also the incorporation of relevant general knowledge to provide contextual accuracy. Existing approaches exhibit inherent limitations: specialized models excel in capturing domain-specific details but lack generalization, while vision-language models (VLMs) built on large language models (LLMs) leverage general knowledge but struggle with domain-specific adaptation. To address these limitations, this paper proposes a novel agent-enhanced model collaboration framework, which we call MoColl, designed to effectively integrate domain-specific and general knowledge. Specifically, our approach is to decompose complex image captioning tasks into a series of interconnected question-answer subtasks. A trainable visual question answering (VQA) model is employed as a specialized tool to focus on domain-specific visual analysis, answering task-specific questions based on image content. Concurrently, an LLM-based agent with general knowledge formulates these questions and synthesizes the resulting question-answer pairs into coherent captions. Beyond its role in leveraging the VQA model, the agent further guides its training to enhance its domain-specific capabilities. Experimental results on radiology report generation validate the effectiveness of the proposed framework, demonstrating significant improvements in the quality of generated reports.
- Abstract(参考訳): 画像キャプションはコンピュータビジョンと自然言語処理の交差において重要な課題であり、様々な領域にまたがる幅広い応用がある。
診断レポート生成などの複雑なタスクでは、ディープラーニングモデルは、ドメイン固有の画像キャプチャデータセットだけでなく、コンテキスト精度を提供するための関連する一般知識の取り込みも必要である。
ドメイン固有の詳細を捉えるのに優れているが、一般化が欠如しているのに対して、大きな言語モデル(LLM)上に構築された視覚言語モデル(VLM)は一般的な知識を活用するが、ドメイン固有の適応に苦労する。
このような制約に対処するために,ドメイン固有知識と一般知識を効果的に統合した,新しいエージェント強化モデルコラボレーションフレームワークMoCollを提案する。
具体的には,複雑な画像キャプションタスクを相互接続した質問応答サブタスクに分解する。
訓練可能な視覚的質問応答(VQA)モデルは、画像の内容に基づいてタスク固有の質問に答え、ドメイン固有の視覚的分析に焦点を当てる特殊なツールとして使用される。
同時に、一般知識を持つLCMベースのエージェントがこれらの質問を定式化し、結果の質問応答ペアをコヒーレントなキャプションに合成する。
VQAモデルを活用する上での役割に加えて、エージェントはドメイン固有の能力を高めるためのトレーニングをさらにガイドする。
放射線学報告生成実験の結果,提案手法の有効性が検証され,報告の質が著しく向上した。
関連論文リスト
- Prompting Video-Language Foundation Models with Domain-specific Fine-grained Heuristics for Video Question Answering [71.62961521518731]
HeurVidQAは、ドメイン固有のエンティティアクションを利用して、事前訓練されたビデオ言語基盤モデルを洗練するフレームワークである。
我々のアプローチでは、これらのモデルを暗黙の知識エンジンとして扱い、ドメイン固有のエンティティアクションプロンサを使用して、推論を強化する正確な手がかりにモデルを焦点を向けます。
論文 参考訳(メタデータ) (2024-10-12T06:22:23Z) - Domain-Specific Retrieval-Augmented Generation Using Vector Stores, Knowledge Graphs, and Tensor Factorization [7.522493227357079]
大規模言語モデル(LLM)は大規模コーパスで事前訓練されている。
LLMは幻覚、知識の遮断、知識の帰属の欠如に悩まされる。
SMART-SLICはドメイン固有のLLMフレームワークである。
論文 参考訳(メタデータ) (2024-10-03T17:40:55Z) - Unified Language-driven Zero-shot Domain Adaptation [55.64088594551629]
Unified Language-driven Zero-shot Domain Adaptation (ULDA)は、新しいタスクセットである。
これにより、ドメインIDの知識を明示することなく、単一のモデルを多様なターゲットドメインに適応させることができる。
論文 参考訳(メタデータ) (2024-04-10T16:44:11Z) - Language Guided Domain Generalized Medical Image Segmentation [68.93124785575739]
単一ソースドメインの一般化は、より信頼性が高く一貫性のあるイメージセグメンテーションを現実の臨床環境にわたって約束する。
本稿では,テキストエンコーダ機能によって案内されるコントラスト学習機構を組み込むことで,テキスト情報を明確に活用する手法を提案する。
文献における既存手法に対して,本手法は良好な性能を発揮する。
論文 参考訳(メタデータ) (2024-04-01T17:48:15Z) - Unifying Image Processing as Visual Prompting Question Answering [62.84955983910612]
画像処理はコンピュータビジョンの基本的な課題であり、画像の品質を高め、その後の視覚アプリケーションに不可欠な特徴を抽出することを目的としている。
伝統的に、タスク固有のモデルは個々のタスクのために開発され、そのようなモデルの設計には異なる専門知識が必要である。
本稿では,画像復元,画像強調,画像特徴抽出タスクを網羅する汎用画像処理モデルを提案する。
論文 参考訳(メタデータ) (2023-10-16T15:32:57Z) - InstructCV: Instruction-Tuned Text-to-Image Diffusion Models as Vision Generalists [66.85125112199898]
我々は,タスク固有の設計選択を抽象化する,コンピュータビジョンタスクのための統一言語インタフェースを開発する。
InstructCVと呼ばれる我々のモデルは、他のジェネラリストやタスク固有の視覚モデルと比較して競合的に機能する。
論文 参考訳(メタデータ) (2023-09-30T14:26:43Z) - Domain-Controlled Prompt Learning [49.45309818782329]
既存の素早い学習方法はドメイン認識やドメイン転送機構を欠いていることが多い。
特定のドメインに対するtextbfDomain-Controlled Prompt Learningを提案する。
本手法は,特定の領域画像認識データセットにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-09-30T02:59:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。