論文の概要: CogCoM: Train Large Vision-Language Models Diving into Details through Chain of Manipulations
- arxiv url: http://arxiv.org/abs/2402.04236v2
- Date: Wed, 22 May 2024 17:10:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-25 06:59:47.150174
- Title: CogCoM: Train Large Vision-Language Models Diving into Details through Chain of Manipulations
- Title(参考訳): CogCoM: 操作の連鎖を通して細部を分割した大型ビジョンランゲージモデルの訓練
- Authors: Ji Qi, Ming Ding, Weihan Wang, Yushi Bai, Qingsong Lv, Wenyi Hong, Bin Xu, Lei Hou, Juanzi Li, Yuxiao Dong, Jie Tang,
- Abstract要約: カオス・オブ・マニピュレーション(Chain of Manipulations)は、視覚言語モデル(Vision-Language Models)が、エビデンスを段階的に解決するメカニズムである。
トレーニング後、モデルは外部ツールを介さずに、本質的な操作(グラウンド、ズームインなど)を積極的に行うことで、様々な視覚的問題を解決することができる。
トレーニングされたモデルである textbfCogCoM は、4つのカテゴリの9つのベンチマークで最先端のパフォーマンスを実現しています。
- 参考スコア(独自算出の注目度): 61.21923643289266
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) have demonstrated their broad effectiveness thanks to extensive training in aligning visual instructions to responses. However, such training of conclusive alignment leads models to ignore essential visual reasoning, further resulting in failures in meticulous visual problems and unfaithful responses. Drawing inspiration from human cognition in solving visual problems (e.g., marking, zoom in), this paper introduces Chain of Manipulations, a mechanism that enables VLMs to solve problems step-by-step with evidence. After training, models can solve various visual problems by eliciting intrinsic manipulations (e.g., grounding, zoom in) with results (e.g., boxes, image) actively without involving external tools, while also allowing users to trace error causes. We study the roadmap to implement this mechanism, including (1) a flexible design of manipulations upon extensive analysis, (2) an efficient automated data generation pipeline, (3) a compatible VLM architecture capable of multi-turn multi-image, and (4) a model training process for versatile capabilities. With the design, we also manually annotate 6K high-quality samples for the challenging graphical mathematical problems. Our trained model, \textbf{CogCoM}, equipped with this mechanism with 17B parameters achieves state-of-the-art performance across 9 benchmarks from 4 categories, demonstrating the effectiveness while preserving the interpretability. Our code, model weights, and collected data are publicly available at https://github.com/THUDM/CogCoM.
- Abstract(参考訳): VLM(Vision-Language Models)は、視覚的な指示を応答に合わせるための広範囲なトレーニングによって、その幅広い効果を実証している。
しかし、このような決定的なアライメントのトレーニングは、モデルに必須の視覚的推論を無視させ、さらに微妙な視覚的問題や不信な反応の失敗をもたらす。
本稿では,視覚的問題(例えば,マーキング,ズームイン)の解決において,人間の認知からインスピレーションを得た上で,VLMを段階的に解決する機構であるマニピュレーションの連鎖を導入する。
トレーニング後、モデルは、外部ツールを介さずに、結果(例えば、ボックス、画像)と本質的な操作(例えば、接地、ズームイン)を積極的に行うことで、さまざまな視覚的問題を解決することができる。
本研究では,(1)広範分析に基づく操作の柔軟な設計,(2)効率的な自動データ生成パイプライン,(3)マルチターンマルチイメージが可能な互換性のあるVLMアーキテクチャ,(4)汎用機能のためのモデルトレーニングプロセスなど,このメカニズムを実現するためのロードマップについて検討する。
この設計では,問題となる数学的な問題に対して,手動で6Kの高品質なサンプルをアノテートする。
トレーニングされたモデルである \textbf{CogCoM} は、17Bパラメーターを備えたこの機構を備え、4つのカテゴリから9つのベンチマークの最先端性能を達成し、解釈可能性を維持しながらの有効性を実証する。
私たちのコード、モデルウェイト、収集されたデータはhttps://github.com/THUDM/CogCoM.comで公開されています。
関連論文リスト
- Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - Machine Vision Therapy: Multimodal Large Language Models Can Enhance Visual Robustness via Denoising In-Context Learning [67.0609518552321]
本稿では,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。
復調ラベルを微調整することにより、教師なしの方法で学習モデルの性能を高めることができる。
論文 参考訳(メタデータ) (2023-12-05T07:29:14Z) - HAT-GAE: Self-Supervised Graph Auto-encoders with Hierarchical Adaptive
Masking and Trainable Corruption [0.76146285961466]
グラフ表現学習のための新しいオートエンコーダモデルを提案する。
このモデルには階層型適応マスキング機構が組み込まれ,トレーニングの難易度を漸進的に向上させる。
提案手法が最先端のグラフ表現学習モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-28T02:43:54Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z) - Scanflow: A multi-graph framework for Machine Learning workflow
management, supervision, and debugging [0.0]
本稿では,エンドツーエンドの機械学習ワークフロー管理を支援するコンテナ化指向グラフフレームワークを提案する。
このフレームワークは、コンテナ内でMLを定義してデプロイし、メタデータを追跡し、本番環境での振る舞いを確認し、学習された知識と人為的な知識を使用してモデルを改善する。
論文 参考訳(メタデータ) (2021-11-04T17:01:12Z) - Visual Adversarial Imitation Learning using Variational Models [60.69745540036375]
逆関数仕様は、深い強化学習を通しての学習行動にとって大きな障害であり続けている。
望ましい行動の視覚的なデモンストレーションは、エージェントを教えるためのより簡単で自然な方法を示すことが多い。
変動モデルに基づく対向的模倣学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-07-16T00:15:18Z) - Decoupling the Role of Data, Attention, and Losses in Multimodal
Transformers [20.343814813409537]
学習表現の質に影響を与える重要な要因として,事前学習データ,注意機構,損失関数の3つについて検討する。
6つのデータセット上でモデルを事前学習することにより、下流タスクとデータセットのノイズと言語類似性が、モデルパフォーマンスの重要な指標であることを観察する。
自己教師型学習文献では,マルチモーダル変圧器でも同様の性能向上が得られない。
論文 参考訳(メタデータ) (2021-01-31T20:36:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。