Fugu-MT 論文翻訳(概要): MoColl: Agent-Based Specific and General Model Collaboration for Image Captioning

論文の概要: MoColl: Agent-Based Specific and General Model Collaboration for Image Captioning

arxiv url: http://arxiv.org/abs/2501.01834v1
Date: Fri, 03 Jan 2025 14:38:01 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-06 16:38:31.617333
Title: MoColl: Agent-Based Specific and General Model Collaboration for Image Captioning
Title（参考訳）: MoColl:イメージキャプションのためのエージェントベース特化モデルと一般モデルコラボレーション
Authors: Pu Yang, Bin Dong,
Abstract要約: 画像キャプションはコンピュータビジョンと自然言語処理の交差において重要な課題である。本稿では,ドメイン固有知識と一般知識を統合する新しいエージェント強化モデル協調フレームワークを提案する。放射線学レポート生成実験の結果,提案手法の有効性が検証された。
参考スコア（独自算出の注目度）: 4.955697042432618
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Image captioning is a critical task at the intersection of computer vision and natural language processing, with wide-ranging applications across various domains. For complex tasks such as diagnostic report generation, deep learning models require not only domain-specific image-caption datasets but also the incorporation of relevant general knowledge to provide contextual accuracy. Existing approaches exhibit inherent limitations: specialized models excel in capturing domain-specific details but lack generalization, while vision-language models (VLMs) built on large language models (LLMs) leverage general knowledge but struggle with domain-specific adaptation. To address these limitations, this paper proposes a novel agent-enhanced model collaboration framework, which we called \textbf{MoColl}, designed to effectively integrate domain-specific and general knowledge. Specifically, our approach is to decompose complex image captioning tasks into a series of interconnected question-answer subtasks. A trainable visual question answering (VQA) model is employed as a specialized tool to focus on domain-specific visual analysis, answering task-specific questions based on image content. Concurrently, an LLM-based agent with general knowledge formulates these questions and synthesizes the resulting question-answer pairs into coherent captions. Beyond its role in leveraging the VQA model, the agent further guides its training to enhance its domain-specific capabilities. Experimental results on radiology report generation validate the effectiveness of the proposed framework, demonstrating significant improvements in the quality of generated reports.
Abstract（参考訳）: 画像キャプションはコンピュータビジョンと自然言語処理の交差において重要な課題であり、様々な領域にまたがる幅広い応用がある。診断レポート生成などの複雑なタスクでは、ディープラーニングモデルは、ドメイン固有の画像キャプチャデータセットだけでなく、コンテキスト精度を提供するための関連する一般知識の取り込みも必要である。ドメイン固有の詳細を捉えるのに優れているが、一般化が欠如しているのに対して、大きな言語モデル(LLM)上に構築された視覚言語モデル(VLM)は一般的な知識を活用するが、ドメイン固有の適応に苦労する。このような制約に対処するために,ドメイン固有知識と一般知識を効果的に統合するために設計された,新しいエージェント強化モデル協調フレームワークである「textbf{MoColl}」を提案する。具体的には,複雑な画像キャプションタスクを相互接続した質問応答サブタスクに分解する。訓練可能な視覚的質問応答(VQA)モデルは、画像の内容に基づいてタスク固有の質問に答え、ドメイン固有の視覚的分析に焦点を当てる特殊なツールとして使用される。同時に、一般知識を持つLCMベースのエージェントがこれらの質問を定式化し、結果の質問応答ペアをコヒーレントなキャプションに合成する。 VQAモデルを活用する上での役割に加えて、エージェントはドメイン固有の能力を高めるためのトレーニングをさらにガイドする。放射線学報告生成実験の結果,提案手法の有効性が検証され,報告の質が著しく向上した。

関連論文リスト

S-DAG: A Subject-Based Directed Acyclic Graph for Multi-Agent Heterogeneous Reasoning [22.610518752034043]
大規模言語モデル(LLM)は複雑な推論問題において顕著な性能を達成した。本研究では,指定されたマルチエージェント協調戦略を備えた対象レベルできめ細かい分析を行う新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-11-10T05:40:02Z)
IAD-GPT: Advancing Visual Knowledge in Multimodal Large Language Model for Industrial Anomaly Detection [70.02774285130238]
本稿では,リッチテキストセマンティクスと画像レベルの情報と画素レベルの情報の組み合わせについて検討する。産業異常検出のためのMLLMに基づく新しいパラダイムであるIAD-GPTを提案する。 MVTec-ADとVisAデータセットの実験は、私たちの最先端のパフォーマンスを示しています。
論文参考訳（メタデータ） (2025-10-16T02:48:05Z)
DSRAG: A Domain-Specific Retrieval Framework Based on Document-derived Multimodal Knowledge Graph [4.951890767337337]
この研究は、生成プロセスにおける知識グラフ品質の重要な役割を強調したグラフベースのRAGフレームワークに焦点を当てている。ドメイン固有アプリケーション向けに設計されたマルチモーダルな知識グラフ駆動検索拡張生成フレームワークであるDSRAGを提案する。
論文参考訳（メタデータ） (2025-08-22T14:24:48Z)
Analyze-Prompt-Reason: A Collaborative Agent-Based Framework for Multi-Image Vision-Language Reasoning [3.588567067449924]
マルチイメージ推論のための協調エージェントベースフレームワークを提案する。提案手法は,多様なデータセットやタスク形式にまたがるマルチモーダル推論のインターリーブ化という課題に対処する。我々は2025年のMIRAGE Challengeから18種類の多様なデータセットについて評価を行った。
論文参考訳（メタデータ） (2025-08-01T06:39:15Z)
Describe Anything Model for Visual Question Answering on Text-rich Images [7.618388911738171]
DAMの領域認識機能を利用するフレームワークであるDAM-QAを,テキストリッチな視覚質問応答問題に適用する。我々のアプローチは、DocVQAで注目すべき7以上のポイントゲインで、ベースラインDAMを一貫して上回ります。その結果、効率的な使用法と統合戦略を組み合わせれば、テキストリッチで広範なVQAタスクのためのDAMライクなモデルの可能性が浮き彫りになる。
論文参考訳（メタデータ） (2025-07-16T17:28:19Z)
VisualCloze: A Universal Image Generation Framework via Visual In-Context Learning [68.98988753763666]
ユニバーサル画像生成フレームワークであるVisualClozeを提案する。 VisualClozeは、幅広いドメイン内タスク、見えないタスクへの一般化、複数のタスクの見えない統一、リバースジェネレーションをサポートする。グラフ構造化データセットであるGraph200Kを導入し,タスク密度と伝達可能な知識を向上する。
論文参考訳（メタデータ） (2025-04-10T17:59:42Z)
Enhanced Multimodal RAG-LLM for Accurate Visual Question Answering [10.505845766495128]
MLLM(Multimodal large language model)は、視覚とテキストのモダリティの統合において大きな進歩を遂げた。マルチモーダル検索拡張生成(RAG)に基づく新しいフレームワークを提案する。 RAGは、画像内のオブジェクト認識、関係識別、空間的理解を強化するために構造化されたシーングラフを導入している。
論文参考訳（メタデータ） (2024-12-30T13:16:08Z)
X-Prompt: Towards Universal In-Context Image Generation in Auto-Regressive Vision Language Foundation Models [77.98981338798383]
インコンテキスト生成は、大規模言語モデル(LLM)のオープンタスク一般化機能の重要なコンポーネントである。 X-Promptは純粋に自動回帰型の大規模言語モデルであり、画像生成タスクと見えないタスクの両方で、幅広いパフォーマンスを提供するように設計されている。テキストと画像の予測を統一したトレーニングタスクにより、X-Promptは、テキスト内の例からタスク認識を強化して、一般的な画像生成を処理できる。
論文参考訳（メタデータ） (2024-12-02T18:59:26Z)
Prompting Video-Language Foundation Models with Domain-specific Fine-grained Heuristics for Video Question Answering [71.62961521518731]
HeurVidQAは、ドメイン固有のエンティティアクションを利用して、事前訓練されたビデオ言語基盤モデルを洗練するフレームワークである。我々のアプローチでは、これらのモデルを暗黙の知識エンジンとして扱い、ドメイン固有のエンティティアクションプロンサを使用して、推論を強化する正確な手がかりにモデルを焦点を向けます。
論文参考訳（メタデータ） (2024-10-12T06:22:23Z)
Domain-Specific Retrieval-Augmented Generation Using Vector Stores, Knowledge Graphs, and Tensor Factorization [7.522493227357079]
大規模言語モデル(LLM)は大規模コーパスで事前訓練されている。 LLMは幻覚、知識の遮断、知識の帰属の欠如に悩まされる。 SMART-SLICはドメイン固有のLLMフレームワークである。
論文参考訳（メタデータ） (2024-10-03T17:40:55Z)
Towards Top-Down Reasoning: An Explainable Multi-Agent Approach for Visual Question Answering [45.88079503965459]
本稿では,視覚言語モデル(VLM)の能力を高めるために,LLM(Large Language Models)の拡張的知識を活用することで,新しいマルチエージェントコラボレーションフレームワークを導入する。
論文参考訳（メタデータ） (2023-11-29T03:10:42Z)
Unifying Image Processing as Visual Prompting Question Answering [62.84955983910612]
画像処理はコンピュータビジョンの基本的な課題であり、画像の品質を高め、その後の視覚アプリケーションに不可欠な特徴を抽出することを目的としている。伝統的に、タスク固有のモデルは個々のタスクのために開発され、そのようなモデルの設計には異なる専門知識が必要である。本稿では,画像復元,画像強調,画像特徴抽出タスクを網羅する汎用画像処理モデルを提案する。
論文参考訳（メタデータ） (2023-10-16T15:32:57Z)
InstructCV: Instruction-Tuned Text-to-Image Diffusion Models as Vision Generalists [66.85125112199898]
我々は,タスク固有の設計選択を抽象化する,コンピュータビジョンタスクのための統一言語インタフェースを開発する。 InstructCVと呼ばれる我々のモデルは、他のジェネラリストやタスク固有の視覚モデルと比較して競合的に機能する。
論文参考訳（メタデータ） (2023-09-30T14:26:43Z)
Domain-Controlled Prompt Learning [49.45309818782329]
既存の素早い学習方法はドメイン認識やドメイン転送機構を欠いていることが多い。特定のドメインに対するtextbfDomain-Controlled Prompt Learningを提案する。本手法は,特定の領域画像認識データセットにおける最先端性能を実現する。
論文参考訳（メタデータ） (2023-09-30T02:59:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。