論文の概要: MM-CamObj: A Comprehensive Multimodal Dataset for Camouflaged Object Scenarios
- arxiv url: http://arxiv.org/abs/2409.16084v1
- Date: Tue, 24 Sep 2024 13:34:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 05:46:35.932292
- Title: MM-CamObj: A Comprehensive Multimodal Dataset for Camouflaged Object Scenarios
- Title(参考訳): MM-CamObj:カモフラージュオブジェクトシナリオのための総合マルチモーダルデータセット
- Authors: Jiacheng Ruan, Wenzhen Yuan, Zehao Lin, Ning Liao, Zhiyu Li, Feiyu Xiong, Ting Liu, Yuzhuo Fu,
- Abstract要約: MM-Camデータセットを初めて構築し、Cam-AlignとCam-Instructの2つのサブセットからなる。
MM-Camデータセットに基づいて,カモフラージュシーンのタスク処理に特化したLVLMであるCam-Llavaを提案する。
GPT-4oに比べて7タスク中4タスクで25.84%改善した。
- 参考スコア(独自算出の注目度): 22.727615636567183
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large visual-language models (LVLMs) have achieved great success in multiple applications. However, they still encounter challenges in complex scenes, especially those involving camouflaged objects. This is primarily due to the lack of samples related to camouflaged scenes in the training dataset. To mitigate this issue, we construct the MM-CamObj dataset for the first time, comprising two subsets: CamObj-Align and CamObj-Instruct. Specifically, CamObj-Align contains 11,363 image-text pairs, and it is designed for VL alignment and injecting rich knowledge of camouflaged scenes into LVLMs. CamObj-Instruct is collected for fine-tuning the LVLMs with improved instruction-following capabilities, and it includes 11,363 images and 68,849 conversations with diverse instructions. Based on the MM-CamObj dataset, we propose the CamObj-Llava, an LVLM specifically designed for addressing tasks in camouflaged scenes. To facilitate our model's effective acquisition of knowledge about camouflaged objects and scenes, we introduce a curriculum learning strategy with six distinct modes. Additionally, we construct the CamObj-Bench to evaluate the existing LVLMs' capabilities of understanding, recognition, localization and count in camouflage scenes. This benchmark includes 600 images and 7 tasks, with a total of 9,449 questions. Extensive experiments are conducted on the CamObj-Bench with CamObj-Llava, 8 existing open-source and 3 closed-source LVLMs. Surprisingly, the results indicate that our model achieves a 25.84% improvement in 4 out of 7 tasks compared to GPT-4o. Code and datasets will be available at https://github.com/JCruan519/MM-CamObj.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)は、複数のアプリケーションで大きな成功を収めている。
しかし、複雑なシーン、特にカモフラージュされた物体を含むシーンでは、依然として課題に直面している。
これは主に、トレーニングデータセットのカモフラージュされたシーンに関するサンプルが不足しているためである。
この問題を緩和するため、MM-CamObjデータセットを初めて構築し、CamObj-AlignとCamObj-Instructの2つのサブセットからなる。
具体的には、CamObj-Alignには11,363のイメージテキストペアがあり、VLアライメントとカモフラージュされたシーンの豊富な知識をLVLMに注入するように設計されている。
CamObj-Instructは、命令フォロー機能が改善されたLVLMを微調整するために収集され、11,363イメージと68,849の多様な命令による会話を含む。
MM-CamObjデータセットに基づいて,カモフラージュシーンでのタスク処理に特化したLVLMであるCamObj-Llavaを提案する。
カモフラージュされたオブジェクトやシーンに関する効果的な知識の獲得を容易にするため、我々は6つの異なるモードのカリキュラム学習戦略を導入する。
さらに,カモフラージュシーンにおける既存のLVLMの理解,認識,局所化,カウント能力を評価するために,CamObj-Benchを構築した。
このベンチマークには600の画像と7つのタスクが含まれており、合計9,449の質問がある。
CamObj-BenchとCamObj-Llava、既存の8つのオープンソースと3つのクローズドソースLVLMで大規模な実験が行われた。
その結果,GPT-4oと比較して,7タスク中4タスクで25.84%の改善が得られた。
コードとデータセットはhttps://github.com/JCruan519/MM-CamObj.comで入手できる。
関連論文リスト
- DivScene: Benchmarking LVLMs for Object Navigation with Diverse Scenes and Objects [84.73092715537364]
本稿では,多数のシーンタイプにおいて,多様な対象物にナビゲートする新たな課題について検討する。
我々は、模倣学習によりLVLM(Large Vision Language Model)を微調整することにより、エンドツーエンドのエンボディエージェントであるNatVLMを構築した。
我々のエージェントは、GPT-4oを超える成功率を20%以上達成する。
論文 参考訳(メタデータ) (2024-10-03T17:49:28Z) - DLM-VMTL:A Double Layer Mapper for heterogeneous data video Multi-task prompt learning [2.4121373594852846]
マルチタスク学習は、視覚的なタスクが、共同トレーニング中に他のタスクから豊富な共有可能な知識を取得するようにする。
上記の問題に対処するために, Heterogenous data video multi-task prompt learning (VMTL) 法を提案する。
Double-Layers Mapper(DLM)は、共有可能な知識を視覚的プロンプトSに抽出し、プライマリタスクの表現と整合させる。
論文 参考訳(メタデータ) (2024-08-29T01:25:36Z) - SearchLVLMs: A Plug-and-Play Framework for Augmenting Large Vision-Language Models by Searching Up-to-Date Internet Knowledge [56.772051051558215]
大規模視覚言語モデル(LVLM)は、LLaVAシリーズのような最新の知識を知らない。
本稿では,サーチLVLMと呼ばれる最新の知識に関する視覚的質問応答(VQA)を扱うために,既存のLVLMを増補するプラグイン・アンド・プレイフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-23T13:32:07Z) - Elysium: Exploring Object-level Perception in Videos via MLLM [11.02937968639935]
本稿では,ビデオにおけるオブジェクトレベルのタスクを,追加のプラグインやエキスパートモデルを必要としないエンドツーエンドのトレーニング可能なMLLMを提案する。
Elysium: MLLMを通じてビデオのオブジェクトレベルの知覚を探索する MLLMは、追加のプラグインやエキスパートモデルを必要としない、ビデオ内でオブジェクトレベルのタスクを実行しようとするエンドツーエンドのトレーニング可能なMLLMです。
論文 参考訳(メタデータ) (2024-03-25T09:17:15Z) - Video-LLaVA: Learning United Visual Representation by Alignment Before Projection [27.04277811443469]
Video-LLaVAは、画像とビデオの混合データセットから学習し、相互に強化する。
Video-LLaVAは5つの画像問合せデータセットと4つの画像ベンチマークツールキットにまたがる9つの画像ベンチマークで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-11-16T10:59:44Z) - LMSYS-Chat-1M: A Large-Scale Real-World LLM Conversation Dataset [75.9621305227523]
LMSYS-Chat-1M(LMSYS-Chat-1M)について紹介する。
このデータセットは、VicunaのデモとArenaのWebサイトで、210KのIPアドレスから収集されています。
GPT-4と同様の動作を行うコンテンツモデレーションモデルの開発、安全性ベンチマークの構築、Vicunaと同様の動作を行う命令追従モデルのトレーニング、挑戦的なベンチマーク問題の作成、という4つのユースケースを通じて、その汎用性を実証する。
論文 参考訳(メタデータ) (2023-09-21T12:13:55Z) - Referring Camouflaged Object Detection [97.90911862979355]
Ref-COD は、特定のカモフラージュされたオブジェクトを、サルエントターゲットオブジェクトによる参照画像の小さなセットに基づいて分割することを目的としている。
R2C7Kと呼ばれる大規模なデータセットは、実世界のシナリオで64のオブジェクトカテゴリをカバーする7Kイメージで構成されています。
論文 参考訳(メタデータ) (2023-06-13T04:15:37Z) - MOSE: A New Dataset for Video Object Segmentation in Complex Scenes [106.64327718262764]
ビデオオブジェクトセグメンテーション(VOS)は、ビデオクリップシーケンス全体を通して特定のオブジェクトをセグメンテーションすることを目的としている。
最先端のVOSメソッドは、既存のデータセット上で優れたパフォーマンス(例えば、90%以上のJ&F)を達成した。
我々は、複雑な環境でのトラッキングとセグメンテーションを研究するために、coMplex video Object SEgmentation (MOSE)と呼ばれる新しいVOSデータセットを収集する。
論文 参考訳(メタデータ) (2023-02-03T17:20:03Z) - LAVENDER: Unifying Video-Language Understanding as Masked Language
Modeling [102.42424022921243]
Masked Language Modeling (MLM) は、すべての事前学習および下流タスクの共通インターフェースとして使用される。
実験により、この統合フレームワークは14のVidLベンチマークで競合性能を達成することが示された。
論文 参考訳(メタデータ) (2022-06-14T20:43:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。