論文の概要: OCC-MLLM-CoT-Alpha: Towards Multi-stage Occlusion Recognition Based on Large Language Models via 3D-Aware Supervision and Chain-of-Thoughts Guidance
- arxiv url: http://arxiv.org/abs/2504.04781v1
- Date: Mon, 07 Apr 2025 07:15:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:11:13.226014
- Title: OCC-MLLM-CoT-Alpha: Towards Multi-stage Occlusion Recognition Based on Large Language Models via 3D-Aware Supervision and Chain-of-Thoughts Guidance
- Title(参考訳): OCC-MLLM-CoT-Alpha:3D-Aware SupervisionとChain-of-Thoughts Guidanceによる大規模言語モデルに基づく多段階オクルージョン認識に向けて
- Authors: Chaoyi Wang, Baoqing Li, Xinhan Di,
- Abstract要約: OCC-MLLM-CoT-Alphaは3D認識とChain-of-Thoughtsガイダンスを統合したマルチモーダルな大規模視覚言語フレームワークである。
提案手法は, 各種最先端モデルの2つの設定に対して, 15.75%, 15.30%, 16.98%, 14.62%, 4.42%, 3.63%, 6.94%, 10.70% の判定スコア向上を示した。
- 参考スコア(独自算出の注目度): 3.832135091367811
- License:
- Abstract: Comprehending occluded objects are not well studied in existing large-scale visual-language multi-modal models. Current state-of-the-art multi-modal large models struggles to provide satisfactory results in understanding occluded objects through universal visual encoders and supervised learning strategies. Therefore, we propose OCC-MLLM-CoT-Alpha, a multi-modal large vision language framework that integrates 3D-aware supervision and Chain-of-Thoughts guidance. Particularly, (1) we build a multi-modal large vision-language model framework which is consisted of a large multi-modal vision-language model and a 3D reconstruction expert model. (2) the corresponding multi-modal Chain-of-Thoughts is learned through a combination of supervised and reinforcement training strategies, allowing the multi-modal vision-language model to enhance the recognition ability with learned multi-modal chain-of-thoughts guidance. (3) A large-scale multi-modal chain-of-thoughts reasoning dataset, consisting of $110k$ samples of occluded objects held in hand, is built. In the evaluation, the proposed methods demonstrate decision score improvement of 15.75%,15.30%,16.98%,14.62%, and 4.42%,3.63%,6.94%,10.70% for two settings of a variety of state-of-the-art models.
- Abstract(参考訳): 既存の大規模視覚言語マルチモーダルモデルでは、補完対象は十分に研究されていない。
現在の最先端のマルチモーダルな大規模モデルは、普遍的なビジュアルエンコーダや教師付き学習戦略を通じて、隠蔽対象を理解するのに十分な結果を提供するのに苦労している。
そこで我々は,OCC-MLLM-CoT-Alphaを提案する。
特に,1)大規模な多モーダル視覚言語モデルと3次元再構成エキスパートモデルからなる多モーダル大規模視覚言語モデルを構築した。
2)マルチモーダル・チェーン・オブ・ソートは,教師付き学習と強化訓練の組み合わせによって学習され,学習されたマルチモーダル・チェーン・オブ・ソート・ガイダンスを用いて,マルチモーダル・ビジョン言語モデルにより認識能力を高めることができる。
(3) 大規模マルチモーダル・チェーン・オブ・シンセサイティング・データセットを構築した。
提案手法は, 各種最先端モデルの2つの設定に対して, 15.75%, 15.30%, 16.98%, 14.62%, 4.42%, 3.63%, 6.94%, 10.70% の判定スコア向上を示した。
関連論文リスト
- CoMT: A Novel Benchmark for Chain of Multi-modal Thought on Large Vision-Language Models [60.08485416687596]
Chain of Multi-modal Thought (CoMT)ベンチマークは、視覚操作を本質的に統合する人間のような推論を模倣することを目的としている。
我々は様々なLVLMと戦略をCoMT上で評価し、現在のアプローチの能力と限界に関する重要な洞察を明らかにした。
論文 参考訳(メタデータ) (2024-12-17T14:10:16Z) - Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling [128.24325909395188]
InternVL 2.5は、InternVL 2.0上に構築された高度マルチモーダル大規模言語モデル(MLLM)シリーズである。
InternVL 2.5は、GPT-4oやClaude-3.5-Sonnetといった主要な商用モデルと競合する競争力を持つ。
このモデルが、マルチモーダルAIシステムの開発と適用のための新しい標準を設定することで、オープンソースコミュニティに貢献できることを願っています。
論文 参考訳(メタデータ) (2024-12-06T18:57:08Z) - Multimodal Large Language Models and Tunings: Vision, Language, Sensors, Audio, and Beyond [51.141270065306514]
このチュートリアルは、マルチモーダルAIを活用するための知識とスキルを研究者、実践者、新参者に提供することを目的としている。
最新のマルチモーダルデータセットと事前訓練されたモデル、例えばビジョンや言語以外のものについても取り上げる。
ハンズオン実験室は、最先端のマルチモーダルモデルで実践的な経験を提供する。
論文 参考訳(メタデータ) (2024-10-08T01:41:56Z) - OCC-MLLM-Alpha:Empowering Multi-modal Large Language Model for the Understanding of Occluded Objects with Self-Supervised Test-Time Learning [3.544352024775253]
マルチモーダルな大規模言語フレームワークと3次元生成をサポートする自己教師型学習戦略を導入する。
最初の結果は、最先端のVLMモデルと比較して16.92%改善したことを示している。
論文 参考訳(メタデータ) (2024-10-02T06:52:39Z) - Harnessing Frozen Unimodal Encoders for Flexible Multimodal Alignment [16.733970553781887]
最近の知見は、よく訓練された単調エンコーダのセマンティックな類似性が高いことを示唆している。
凍結したユニモーダルエンコーダを用いて視覚と言語を協調する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-28T17:57:32Z) - Multi-modal Relation Distillation for Unified 3D Representation Learning [30.942281325891226]
マルチモーダルリレーショナル蒸留(Multi-modal Relation Distillation、MRD)は、3次元バックボーンに再生可能な大型ビジョンランゲージモデル(VLM)を蒸留するために設計された3次元事前学習フレームワークである。
MRDは、各モダリティ内の関係と異なるモダリティ間の相互関係をキャプチャし、より差別的な3D形状表現を作り出すことを目的としている。
論文 参考訳(メタデータ) (2024-07-19T03:43:48Z) - S3: A Simple Strong Sample-effective Multimodal Dialog System [61.31055673156622]
本稿では,多モーダルダイアログタスクであるS3モデルに対して,概念的にシンプルだが強力なベースラインを提案する。
このシステムは、訓練済みの大規模言語モデル、画像とオーディオのための訓練済みのモダリティエンコーダ、および訓練可能なモダリティプロジェクタに基づいている。
論文 参考訳(メタデータ) (2024-06-26T12:45:43Z) - Noise-powered Multi-modal Knowledge Graph Representation Framework [52.95468915728721]
マルチモーダル・プレトレーニングの台頭は、統合されたマルチモーダル知識グラフ表現学習フレームワークの必要性を強調している。
モードレベルのノイズマスキングを備えたトランスフォーマーアーキテクチャを用いた新しいSNAG手法を提案する。
提案手法は10個のデータセットにまたがってSOTA性能を実現し,その汎用性を実証する。
論文 参考訳(メタデータ) (2024-03-11T15:48:43Z) - On Robustness in Multimodal Learning [75.03719000820388]
マルチモーダル学習は、ビデオ、オーディオ、テキストなどの複数の入力モダリティの学習として定義される。
本稿では,一般的なマルチモーダル表現学習手法の体系的解析を行うためのマルチモーダルロバストネスフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-10T05:02:07Z) - 3M: Multi-loss, Multi-path and Multi-level Neural Networks for speech
recognition [31.992543274210835]
我々は、ASRタスクのさらなる改善を実現するために、いくつかのアプローチを特定し、統合する。
特に、マルチロスは共同CTC/AED損失を指し、マルチパスはMixture-of-Experts(MoE)アーキテクチャを表す。
WenetSpeechデータセットを用いて提案手法の評価を行い,提案手法がCERの相対的改善を12.2%-17.6%に与えることを示す。
論文 参考訳(メタデータ) (2022-04-07T03:10:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。