論文の概要: CogCoM: Train Large Vision-Language Models Diving into Details through
Chain of Manipulations
- arxiv url: http://arxiv.org/abs/2402.04236v1
- Date: Tue, 6 Feb 2024 18:43:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 13:28:31.885281
- Title: CogCoM: Train Large Vision-Language Models Diving into Details through
Chain of Manipulations
- Title(参考訳): cogcom: 操作の連鎖を通じて詳細に飛び込むビジョン言語モデルのトレーニング
- Authors: Ji Qi, Ming Ding, Weihan Wang, Yushi Bai, Qingsong Lv, Wenyi Hong, Bin
Xu, Lei Hou, Juanzi Li, Yuxiao Dong, Jie Tang
- Abstract要約: チェーン・オブ・マニピュレーション(Chain of Manipulations)は、ビジョンランゲージモデル(Vision-Language Models)が一連の操作で問題を解決するメカニズムである。
我々は、メモリベース互換アーキテクチャを備えた一般的な17B VLMであるCogCoMをトレーニングする。
実験により,本モデルが3つのカテゴリから8つのベンチマークにまたがって,最先端のパフォーマンスを実現することが示された。
- 参考スコア(独自算出の注目度): 63.04131413124456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) have demonstrated their widespread viability
thanks to extensive training in aligning visual instructions to answers.
However, this conclusive alignment leads models to ignore critical visual
reasoning, and further result in failures on meticulous visual problems and
unfaithful responses. In this paper, we propose Chain of Manipulations, a
mechanism that enables VLMs to solve problems with a series of manipulations,
where each manipulation refers to an operation on the visual input, either from
intrinsic abilities (e.g., grounding) acquired through prior training or from
imitating human-like behaviors (e.g., zoom in). This mechanism encourages VLMs
to generate faithful responses with evidential visual reasoning, and permits
users to trace error causes in the interpretable paths. We thus train CogCoM, a
general 17B VLM with a memory-based compatible architecture endowed this
reasoning mechanism. Experiments show that our model achieves the
state-of-the-art performance across 8 benchmarks from 3 categories, and a
limited number of training steps with the data swiftly gains a competitive
performance. The code and data are publicly available at
https://github.com/THUDM/CogCoM.
- Abstract(参考訳): VLM(Vision-Language Models)は、視覚的な指示を回答に合わせるための広範囲なトレーニングによって、その幅広い生存性を示した。
しかし、この決定的なアライメントにより、モデルは批判的な視覚的推論を無視し、さらに細心の注意深い視覚問題や不適切な反応に失敗してしまう。
本稿では,vlmが一連の操作で問題を解くためのメカニズムであるチェーン・オブ・マニピュレーション(chain of manipulations)を提案する。各マニピュレーションは,事前のトレーニングによって獲得した内在的能力(例えば接地)や,人間のような行動(例えばズームイン)の模倣から,視覚入力の操作を指す。
このメカニズムは、VLMが明白な視覚的推論で忠実な応答を生成することを奨励し、解釈可能な経路におけるエラー原因をユーザーが追跡できるようにする。
これにより、メモリベース互換アーキテクチャを備えた一般的な17B VLMであるCogCoMをトレーニングする。
実験の結果,3つのカテゴリから8つのベンチマークにまたがる最先端のパフォーマンスが得られた。
コードとデータはhttps://github.com/thudm/cogcomで公開されている。
関連論文リスト
- Aligning Modalities in Vision Large Language Models via Preference
Fine-tuning [67.62925151837675]
本研究では,幻覚の問題をアライメント問題とみなし,好みのチューニングで対処する。
具体的には,AIモデルを用いたフィードバックデータを生成するPOVIDを提案する。
提案手法は,好ましくないデータを生成するための2段階のアプローチである。
広範ベンチマークを用いた実験では、幻覚を減らすだけでなく、標準ベンチマークでのモデル性能を向上させることができ、従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-02-18T00:56:16Z) - Machine Vision Therapy: Multimodal Large Language Models Can Enhance
Visual Robustness via Denoising In-Context Learning [71.0588455785955]
本稿では,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。
復調ラベルを微調整することにより、教師なしの方法で学習モデルの性能を高めることができる。
論文 参考訳(メタデータ) (2023-12-05T07:29:14Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - What Makes for Good Visual Tokenizers for Large Language Models? [26.488269091290597]
優れた視覚的トークン化を実現するための適切な事前学習手法について検討し,LLM(Large Language Models)とMLLM(Multimodal Large Language Models)について検討した。
支配的手法(DeiT, CLIP, MAE, DINO)で事前訓練した視覚トークン化剤について検討する。
GVT(Good Visual Tokenizer)を備えたMLLMは,複数スケールで強力な視覚理解能力を示す。
論文 参考訳(メタデータ) (2023-05-20T16:11:26Z) - CleanCLIP: Mitigating Data Poisoning Attacks in Multimodal Contrastive
Learning [63.72975421109622]
CleanCLIPは、バックドア攻撃によって引き起こされる学習された刺激的関連を弱める微調整フレームワークである。
CleanCLIPは、マルチモーダル・コントラッシブ・ラーニングに対するバックドア・アタックを根絶しながら、良質な例によるモデル性能を維持している。
論文 参考訳(メタデータ) (2023-03-06T17:48:32Z) - Efficient Vision-Language Pretraining with Visual Concepts and
Hierarchical Alignment [40.677139679304936]
a)新しい階層的相互アライメント損失、(b)マスク画像モデリングに基づく新たな自己教師型スキーム、(c)画像レベルのアノテーションを活用することにより、入力データを効率的に活用して学習を促進する新しいフレームワーク、ViCHAを提案する。
事前トレーニングは4倍少ないが、私たちのViCHA戦略は、Image-Text Retrieval、VQA、Visual Reasoning、Visual Entailment、Visual Groundingなど、いくつかの下流タスクにおいて、他のアプローチよりも優れています。
論文 参考訳(メタデータ) (2022-08-29T14:24:08Z) - ILLUME: Rationalizing Vision-Language Models through Human Interactions [18.701950647429]
本稿では,機械生成データとのヒューマンインタラクションに基づくチューニングパラダイムを提案する。
我々の ILLUME は以下のループを実行する: 画像検索のプロンプトが与えられたら、VLM は複数の候補論理をサンプリングし、人間の批評家は選好選択を通じてフィードバックを提供する。
このループはトレーニングデータを増やし、人間の意図に合わせたVLMの合理化能力を徐々に削ります。
論文 参考訳(メタデータ) (2022-08-17T11:41:43Z) - Self-supervised Video Object Segmentation [76.83567326586162]
本研究の目的は、半教師付きビデオオブジェクトセグメンテーション(高密度トラッキング)の解決を目的とした自己教師付き表現学習である。
i) 従来の自己教師型アプローチを改善すること、(ii) オンライン適応モジュールによる自己教師型アプローチの強化により、空間的時間的不連続性によるトラッカーのドリフトを緩和すること、(iv) DAVIS-2017とYouTubeの自己教師型アプローチで最先端の結果を示すこと、などが提案されている。
論文 参考訳(メタデータ) (2020-06-22T17:55:59Z) - Action Localization through Continual Predictive Learning [14.582013761620738]
本稿では,自己監督のための特徴レベルの予測を用いた連続学習に基づく新しいアプローチを提案する。
我々は、CNNエンコーダと組み合わされたLSTMのスタックと、新しいアテンション機構を用いて、ビデオ内のイベントをモデル化し、このモデルを使用して将来のフレームの高レベル機能を予測する。
この自己教師型フレームワークは他のアプローチほど複雑ではないが、ラベリングとローカライゼーションの両方で堅牢な視覚表現を学ぶのに非常に効果的である。
論文 参考訳(メタデータ) (2020-03-26T23:32:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。