Fugu-MT 論文翻訳(概要): CogCoM: Train Large Vision-Language Models Diving into Details through Chain of Manipulations

論文の概要: CogCoM: Train Large Vision-Language Models Diving into Details through Chain of Manipulations

arxiv url: http://arxiv.org/abs/2402.04236v1
Date: Tue, 6 Feb 2024 18:43:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-07 13:28:31.885281
Title: CogCoM: Train Large Vision-Language Models Diving into Details through Chain of Manipulations
Title（参考訳）: cogcom: 操作の連鎖を通じて詳細に飛び込むビジョン言語モデルのトレーニング
Authors: Ji Qi, Ming Ding, Weihan Wang, Yushi Bai, Qingsong Lv, Wenyi Hong, Bin Xu, Lei Hou, Juanzi Li, Yuxiao Dong, Jie Tang
Abstract要約: チェーン・オブ・マニピュレーション(Chain of Manipulations)は、ビジョンランゲージモデル(Vision-Language Models)が一連の操作で問題を解決するメカニズムである。我々は、メモリベース互換アーキテクチャを備えた一般的な17B VLMであるCogCoMをトレーニングする。実験により,本モデルが3つのカテゴリから8つのベンチマークにまたがって,最先端のパフォーマンスを実現することが示された。
参考スコア（独自算出の注目度）: 63.04131413124456
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-Language Models (VLMs) have demonstrated their widespread viability thanks to extensive training in aligning visual instructions to answers. However, this conclusive alignment leads models to ignore critical visual reasoning, and further result in failures on meticulous visual problems and unfaithful responses. In this paper, we propose Chain of Manipulations, a mechanism that enables VLMs to solve problems with a series of manipulations, where each manipulation refers to an operation on the visual input, either from intrinsic abilities (e.g., grounding) acquired through prior training or from imitating human-like behaviors (e.g., zoom in). This mechanism encourages VLMs to generate faithful responses with evidential visual reasoning, and permits users to trace error causes in the interpretable paths. We thus train CogCoM, a general 17B VLM with a memory-based compatible architecture endowed this reasoning mechanism. Experiments show that our model achieves the state-of-the-art performance across 8 benchmarks from 3 categories, and a limited number of training steps with the data swiftly gains a competitive performance. The code and data are publicly available at https://github.com/THUDM/CogCoM.
Abstract（参考訳）: VLM(Vision-Language Models)は、視覚的な指示を回答に合わせるための広範囲なトレーニングによって、その幅広い生存性を示した。しかし、この決定的なアライメントにより、モデルは批判的な視覚的推論を無視し、さらに細心の注意深い視覚問題や不適切な反応に失敗してしまう。本稿では,vlmが一連の操作で問題を解くためのメカニズムであるチェーン・オブ・マニピュレーション(chain of manipulations)を提案する。各マニピュレーションは,事前のトレーニングによって獲得した内在的能力(例えば接地)や,人間のような行動(例えばズームイン)の模倣から,視覚入力の操作を指す。このメカニズムは、VLMが明白な視覚的推論で忠実な応答を生成することを奨励し、解釈可能な経路におけるエラー原因をユーザーが追跡できるようにする。これにより、メモリベース互換アーキテクチャを備えた一般的な17B VLMであるCogCoMをトレーニングする。実験の結果,3つのカテゴリから8つのベンチマークにまたがる最先端のパフォーマンスが得られた。コードとデータはhttps://github.com/thudm/cogcomで公開されている。

関連論文リスト

Zebra-CoT: A Dataset for Interleaved Vision Language Reasoning [105.25503508433758]
我々は182,384サンプルの多種多様な大規模データセットであるtextbfZebra-CoT$を紹介した。スケッチや視覚的推論が特に自然なタスクの4つのカテゴリに注目します。微調整されたベーゲル7Bは高品質な視覚的推論連鎖を生成するモデルを生成する。
論文参考訳（メタデータ） (2025-07-22T16:35:36Z)
Vision Matters: Simple Visual Perturbations Can Boost Multimodal Math Reasoning [20.632248864242968]
言語のみのモデルでは、生の視覚入力を消費するMLLMと同等またはそれ以上の性能が得られることを示す。そこで我々は,アルゴリズムの修正を必要とせず,知覚の堅牢性を高めるシンプルな視覚摂動フレームワークを提案する。本研究は,マルチモーダル数学的推論における視覚摂動の重要性を明らかにするものである。
論文参考訳（メタデータ） (2025-06-11T13:39:46Z)
Open Eyes, Then Reason: Fine-grained Visual Mathematical Understanding in MLLMs [62.875934732547435]
現在の大言語モデル(MLLM)は、細かな視覚的理解を必要とする数学的問題解決のタスクでは性能が劣ることが多い。本稿では,最先端MLLMの視覚的接地能力を評価し,視覚的接地精度と問題解決性能との間に有意な負の相関関係を示す。本稿では,幾何学的地上視覚エンコーダと,階層型視覚特徴マップの寄与度を動的に調整する機能ルータを備えた新しいアプローチであるSVE-Mathを提案する。
論文参考訳（メタデータ） (2025-01-11T04:08:44Z)
Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文参考訳（メタデータ） (2024-05-30T05:53:49Z)
Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文参考訳（メタデータ） (2024-03-12T14:58:52Z)
Machine Vision Therapy: Multimodal Large Language Models Can Enhance Visual Robustness via Denoising In-Context Learning [67.0609518552321]
本稿では,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。復調ラベルを微調整することにより、教師なしの方法で学習モデルの性能を高めることができる。
論文参考訳（メタデータ） (2023-12-05T07:29:14Z)
HAT-GAE: Self-Supervised Graph Auto-encoders with Hierarchical Adaptive Masking and Trainable Corruption [0.76146285961466]
グラフ表現学習のための新しいオートエンコーダモデルを提案する。このモデルには階層型適応マスキング機構が組み込まれ,トレーニングの難易度を漸進的に向上させる。提案手法が最先端のグラフ表現学習モデルよりも優れていることを示す。
論文参考訳（メタデータ） (2023-01-28T02:43:54Z)
mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文参考訳（メタデータ） (2022-05-24T11:52:06Z)
Scanflow: A multi-graph framework for Machine Learning workflow management, supervision, and debugging [0.0]
本稿では,エンドツーエンドの機械学習ワークフロー管理を支援するコンテナ化指向グラフフレームワークを提案する。このフレームワークは、コンテナ内でMLを定義してデプロイし、メタデータを追跡し、本番環境での振る舞いを確認し、学習された知識と人為的な知識を使用してモデルを改善する。
論文参考訳（メタデータ） (2021-11-04T17:01:12Z)
Visual Adversarial Imitation Learning using Variational Models [60.69745540036375]
逆関数仕様は、深い強化学習を通しての学習行動にとって大きな障害であり続けている。望ましい行動の視覚的なデモンストレーションは、エージェントを教えるためのより簡単で自然な方法を示すことが多い。変動モデルに基づく対向的模倣学習アルゴリズムを開発した。
論文参考訳（メタデータ） (2021-07-16T00:15:18Z)
Decoupling the Role of Data, Attention, and Losses in Multimodal Transformers [20.343814813409537]
学習表現の質に影響を与える重要な要因として,事前学習データ,注意機構,損失関数の3つについて検討する。 6つのデータセット上でモデルを事前学習することにより、下流タスクとデータセットのノイズと言語類似性が、モデルパフォーマンスの重要な指標であることを観察する。自己教師型学習文献では,マルチモーダル変圧器でも同様の性能向上が得られない。
論文参考訳（メタデータ） (2021-01-31T20:36:41Z)
AutoBayes: Automated Bayesian Graph Exploration for Nuisance-Robust Inference [21.707911452679152]
我々は、ニュアンス不変の機械学習パイプラインを最適化するために、AutoBayesと呼ばれる自動ベイズ推論フレームワークを導入する。探索されたグラフィカルモデル間でのアンサンブル学習による大幅な性能向上を示す。
論文参考訳（メタデータ） (2020-07-02T17:06:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。