論文の概要: CogCoM: Train Large Vision-Language Models Diving into Details through
Chain of Manipulations
- arxiv url: http://arxiv.org/abs/2402.04236v1
- Date: Tue, 6 Feb 2024 18:43:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 13:28:31.885281
- Title: CogCoM: Train Large Vision-Language Models Diving into Details through
Chain of Manipulations
- Title(参考訳): cogcom: 操作の連鎖を通じて詳細に飛び込むビジョン言語モデルのトレーニング
- Authors: Ji Qi, Ming Ding, Weihan Wang, Yushi Bai, Qingsong Lv, Wenyi Hong, Bin
Xu, Lei Hou, Juanzi Li, Yuxiao Dong, Jie Tang
- Abstract要約: チェーン・オブ・マニピュレーション(Chain of Manipulations)は、ビジョンランゲージモデル(Vision-Language Models)が一連の操作で問題を解決するメカニズムである。
我々は、メモリベース互換アーキテクチャを備えた一般的な17B VLMであるCogCoMをトレーニングする。
実験により,本モデルが3つのカテゴリから8つのベンチマークにまたがって,最先端のパフォーマンスを実現することが示された。
- 参考スコア(独自算出の注目度): 63.04131413124456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) have demonstrated their widespread viability
thanks to extensive training in aligning visual instructions to answers.
However, this conclusive alignment leads models to ignore critical visual
reasoning, and further result in failures on meticulous visual problems and
unfaithful responses. In this paper, we propose Chain of Manipulations, a
mechanism that enables VLMs to solve problems with a series of manipulations,
where each manipulation refers to an operation on the visual input, either from
intrinsic abilities (e.g., grounding) acquired through prior training or from
imitating human-like behaviors (e.g., zoom in). This mechanism encourages VLMs
to generate faithful responses with evidential visual reasoning, and permits
users to trace error causes in the interpretable paths. We thus train CogCoM, a
general 17B VLM with a memory-based compatible architecture endowed this
reasoning mechanism. Experiments show that our model achieves the
state-of-the-art performance across 8 benchmarks from 3 categories, and a
limited number of training steps with the data swiftly gains a competitive
performance. The code and data are publicly available at
https://github.com/THUDM/CogCoM.
- Abstract(参考訳): VLM(Vision-Language Models)は、視覚的な指示を回答に合わせるための広範囲なトレーニングによって、その幅広い生存性を示した。
しかし、この決定的なアライメントにより、モデルは批判的な視覚的推論を無視し、さらに細心の注意深い視覚問題や不適切な反応に失敗してしまう。
本稿では,vlmが一連の操作で問題を解くためのメカニズムであるチェーン・オブ・マニピュレーション(chain of manipulations)を提案する。各マニピュレーションは,事前のトレーニングによって獲得した内在的能力(例えば接地)や,人間のような行動(例えばズームイン)の模倣から,視覚入力の操作を指す。
このメカニズムは、VLMが明白な視覚的推論で忠実な応答を生成することを奨励し、解釈可能な経路におけるエラー原因をユーザーが追跡できるようにする。
これにより、メモリベース互換アーキテクチャを備えた一般的な17B VLMであるCogCoMをトレーニングする。
実験の結果,3つのカテゴリから8つのベンチマークにまたがる最先端のパフォーマンスが得られた。
コードとデータはhttps://github.com/thudm/cogcomで公開されている。
関連論文リスト
- Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - Machine Vision Therapy: Multimodal Large Language Models Can Enhance Visual Robustness via Denoising In-Context Learning [67.0609518552321]
本稿では,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。
復調ラベルを微調整することにより、教師なしの方法で学習モデルの性能を高めることができる。
論文 参考訳(メタデータ) (2023-12-05T07:29:14Z) - HAT-GAE: Self-Supervised Graph Auto-encoders with Hierarchical Adaptive
Masking and Trainable Corruption [0.76146285961466]
グラフ表現学習のための新しいオートエンコーダモデルを提案する。
このモデルには階層型適応マスキング機構が組み込まれ,トレーニングの難易度を漸進的に向上させる。
提案手法が最先端のグラフ表現学習モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-28T02:43:54Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z) - Scanflow: A multi-graph framework for Machine Learning workflow
management, supervision, and debugging [0.0]
本稿では,エンドツーエンドの機械学習ワークフロー管理を支援するコンテナ化指向グラフフレームワークを提案する。
このフレームワークは、コンテナ内でMLを定義してデプロイし、メタデータを追跡し、本番環境での振る舞いを確認し、学習された知識と人為的な知識を使用してモデルを改善する。
論文 参考訳(メタデータ) (2021-11-04T17:01:12Z) - Visual Adversarial Imitation Learning using Variational Models [60.69745540036375]
逆関数仕様は、深い強化学習を通しての学習行動にとって大きな障害であり続けている。
望ましい行動の視覚的なデモンストレーションは、エージェントを教えるためのより簡単で自然な方法を示すことが多い。
変動モデルに基づく対向的模倣学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-07-16T00:15:18Z) - Decoupling the Role of Data, Attention, and Losses in Multimodal
Transformers [20.343814813409537]
学習表現の質に影響を与える重要な要因として,事前学習データ,注意機構,損失関数の3つについて検討する。
6つのデータセット上でモデルを事前学習することにより、下流タスクとデータセットのノイズと言語類似性が、モデルパフォーマンスの重要な指標であることを観察する。
自己教師型学習文献では,マルチモーダル変圧器でも同様の性能向上が得られない。
論文 参考訳(メタデータ) (2021-01-31T20:36:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。