論文の概要: From Simple to Professional: A Combinatorial Controllable Image Captioning Agent
- arxiv url: http://arxiv.org/abs/2412.11025v1
- Date: Sun, 15 Dec 2024 02:37:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 14:00:52.053404
- Title: From Simple to Professional: A Combinatorial Controllable Image Captioning Agent
- Title(参考訳): SimpleからProfessionalへ:A Combinatorial Controllable Image Captioning Agent
- Authors: Xinran Wang, Muxi Diao, Baoteng Li, Haiwen Zhang, Kongming Liang, Zhanyu Ma,
- Abstract要約: CapAgentは、画像キャプションタスクにおけるユーザの単純さとプロレベルのアウトプットのギャップを埋めるために設計された革新的なシステムである。
CapAgentはユーザが提供する単純な命令を、詳細で専門的な命令に自動的に変換し、正確でコンテキスト対応のキャプション生成を可能にする。
- 参考スコア(独自算出の注目度): 19.3947610694422
- License:
- Abstract: The Controllable Image Captioning Agent (CapAgent) is an innovative system designed to bridge the gap between user simplicity and professional-level outputs in image captioning tasks. CapAgent automatically transforms user-provided simple instructions into detailed, professional instructions, enabling precise and context-aware caption generation. By leveraging multimodal large language models (MLLMs) and external tools such as object detection tool and search engines, the system ensures that captions adhere to specified guidelines, including sentiment, keywords, focus, and formatting. CapAgent transparently controls each step of the captioning process, and showcases its reasoning and tool usage at every step, fostering user trust and engagement. The project code is available at https://github.com/xin-ran-w/CapAgent.
- Abstract(参考訳): Controllable Image Captioning Agent (CapAgent)は、画像キャプションタスクにおけるユーザの単純さとプロレベルのアウトプットのギャップを埋めるために設計された革新的なシステムである。
CapAgentはユーザが提供する単純な命令を、詳細で専門的な命令に自動的に変換し、正確でコンテキスト対応のキャプション生成を可能にする。
マルチモーダルな大言語モデル(MLLM)とオブジェクト検出ツールや検索エンジンなどの外部ツールを活用することにより、感情、キーワード、フォーカス、フォーマッティングなどの特定のガイドラインに準拠したキャプションを保証する。
CapAgentはキャプションプロセスの各ステップを透過的に制御し、各ステップで推論とツールの使用方法を示し、ユーザの信頼とエンゲージメントを促進する。
プロジェクトのコードはhttps://github.com/xin-ran-w/CapAgent.comで公開されている。
関連論文リスト
- ForgeryGPT: Multimodal Large Language Model For Explainable Image Forgery Detection and Localization [49.992614129625274]
ForgeryGPTはImage Forgery DetectionとLocalizationタスクを進化させる新しいフレームワークである。
多様な言語的特徴空間からの偽画像の高次相関をキャプチャする。
新たにカスタマイズされたLarge Language Model (LLM)アーキテクチャを通じて、説明可能な生成と対話を可能にする。
論文 参考訳(メタデータ) (2024-10-14T07:56:51Z) - OmniBooth: Learning Latent Control for Image Synthesis with Multi-modal Instruction [32.08995899903304]
我々は,インスタンスレベルのマルチモーダルカスタマイズによる空間制御を実現する画像生成フレームワークOmniBoothを提案する。
提案手法は,テキスト・画像生成の範囲を大きく拡大し,より汎用的で実用的な制御性に拡張する。
論文 参考訳(メタデータ) (2024-10-07T11:26:13Z) - CoCo-Agent: A Comprehensive Cognitive MLLM Agent for Smartphone GUI Automation [61.68049335444254]
MLLM(Multimodal large language model)は、人間のような自律型言語エージェントが現実世界の環境と相互作用する可能性を示している。
包括的環境認識(CEP)と条件付き行動予測(CAP)の2つの新しいアプローチを備えた包括的認知型LLMエージェントCoCo-Agentを提案する。
AITW と META-GUI ベンチマークにおいて,我々のエージェントは実シナリオで有望な性能を示す新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-19T08:29:03Z) - ScreenAgent: A Vision Language Model-driven Computer Control Agent [17.11085071288194]
視覚言語モデル(VLM)エージェントが実際のコンピュータ画面と対話する環境を構築する。
この環境では、エージェントは、マウスとキーボードのアクションを出力することで、スクリーンショットを観察し、GUI(Graphics User Interface)を操作することができる。
そこで,ScreenAgentデータセットを構築し,様々なコンピュータタスクの完了時にスクリーンショットとアクションシーケンスを収集する。
論文 参考訳(メタデータ) (2024-02-09T02:33:45Z) - Divide and Conquer: Language Models can Plan and Self-Correct for
Compositional Text-to-Image Generation [72.6168579583414]
CompAgentは、大規模な言語モデル(LLM)エージェントをコアとして、コンポジションテキスト・画像生成のためのトレーニング不要のアプローチである。
提案手法は,オープンワールド合成T2I生成のための総合的なベンチマークであるT2I-CompBenchに対して10%以上の改善を達成している。
論文 参考訳(メタデータ) (2024-01-28T16:18:39Z) - CogAgent: A Visual Language Model for GUI Agents [61.26491779502794]
GUI理解とナビゲーションに特化した視覚言語モデル(VLM)であるCogAgentを紹介する。
低解像度画像エンコーダと高解像度画像エンコーダの両方を利用することで、CogAgentは1120*1120の解像度で入力をサポートする。
CogAgentは、VQAv2、OK-VQA、Text-VQA、ST-VQA、ChartQA、 infoVQA、DocVQA、MM-Vet、POPEを含む5つの一般的なVQAベンチマークで、技術の現状を達成している。
論文 参考訳(メタデータ) (2023-12-14T13:20:57Z) - InstructSeq: Unifying Vision Tasks with Instruction-conditioned
Multi-modal Sequence Generation [59.24938416319019]
InstructSeqは命令条件付きマルチモーダルモデリングフレームワークである。
柔軟な自然言語制御と視覚データとテキストデータの扱いにより、多様な視覚タスクを統一する。
論文 参考訳(メタデータ) (2023-11-30T18:59:51Z) - Agents: An Open-source Framework for Autonomous Language Agents [98.91085725608917]
我々は、言語エージェントを人工知能への有望な方向と見なしている。
Agentsはオープンソースライブラリで、これらの進歩を広く非専門的な聴衆に開放することを目的としています。
論文 参考訳(メタデータ) (2023-09-14T17:18:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。