論文の概要: RIV: Recursive Introspection Mask Diffusion Vision Language Model
- arxiv url: http://arxiv.org/abs/2509.23625v1
- Date: Sun, 28 Sep 2025 04:01:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.335661
- Title: RIV: Recursive Introspection Mask Diffusion Vision Language Model
- Title(参考訳): RIV: Recursive Introspection Mask Diffusion Vision Language Model
- Authors: YuQian Li, Limeng Qiao, Lin Ma,
- Abstract要約: マスク拡散に基づく視覚言語モデル(MDVLM)はマルチモーダル理解タスクにおいて顕著な進歩を遂げている。
これらのモデルでは、生成されたトークンのエラーを修正できないため、自己補正能力が欠如している。
本稿では,自己補正能力を備えた再帰検査マスク拡散視覚言語モデル(RIV)を提案する。
- 参考スコア(独自算出の注目度): 10.955541881166782
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mask Diffusion-based Vision Language Models (MDVLMs) have achieved remarkable progress in multimodal understanding tasks. However, these models are unable to correct errors in generated tokens, meaning they lack self-correction capability. In this paper, we propose Recursive Introspection Mask Diffusion Vision Language Model (RIV), which equips the model with self-correction ability through two novel mechanisms. The first is Introspection Training, where an Introspection Model is introduced to identify errors within generated sequences. Introspection Training enables the model to detect not only grammatical and spelling mistakes, but more importantly, logical errors. The second is Recursive Inference. Beginning with the standard unmasking step, the learned Introspection Model helps to identify errors in the output sequence and remask them. This alternating ($\text{unmask}\rightarrow\text{introspection}\rightarrow\text{remask}$) process is repeated recursively until reliable results are obtained. Experimental results on multiple benchmarks demonstrate that the proposed RIV achieves state-of-the-art performance, outperforming most existing MDVLMs.
- Abstract(参考訳): マスク拡散に基づく視覚言語モデル(MDVLM)はマルチモーダル理解タスクにおいて顕著な進歩を遂げている。
しかし、これらのモデルでは生成されたトークンのエラーを修正できないため、自己補正能力が欠如している。
本稿では、2つの新しいメカニズムを通じて自己補正能力を持つモデルに適合する再帰的内観マスク拡散視覚言語モデル(RIV)を提案する。
ひとつはイントロスペクショントレーニング(Introspection Training)で、生成されたシーケンス内のエラーを特定するためにイントロスペクションモデルが導入される。
イントロスペクショントレーニングにより、モデルは文法的な誤りや綴りミスだけでなく、より重要なのは論理的な誤りを検出することができる。
2つ目は再帰的推論である。
学習されたイントロスペクションモデルは、標準的なアンマスキングステップから始まり、出力シーケンス内のエラーを特定し、それらを再マスクする。
この交代(\text{unmask}\rightarrow\text{introspection}\rightarrow\text{remask}$)プロセスは、信頼できる結果が得られるまで繰り返し繰り返される。
複数のベンチマーク実験の結果、提案したRIVは最先端の性能を達成し、既存のMDVLMよりも優れていた。
関連論文リスト
- Don't Settle Too Early: Self-Reflective Remasking for Diffusion Language Models [40.902681492117786]
RemeDiはマスクベースのDLMで、トークンの分布と各ステップにおけるトークン毎の信頼スコアを予測する。
モデルに不正トークンを検出して再マスクする教師付き微調整を含む、この能力をトレーニングするために、リマスク対応パイプラインをトレーニングします。
実験により、RemeDiは複数のデータセット上のオープンソースのDLMの最先端の結果を達成することが示された。
論文 参考訳(メタデータ) (2025-09-28T05:39:49Z) - Understanding and Enhancing Mask-Based Pretraining towards Universal Representations [13.262679155411599]
マスクをベースとした事前訓練は、言語、視覚、生物学にまたがる近代的な大規模モデルの基盤となっている。
マスクによる事前学習の動作は,高次元最小ノルム(リッジレス)線形回帰におけるテストリスクによって直接的に特徴付けられることを示す。
我々はRandomly Random Mask Auto (R$2$MAE)を提案する。
論文 参考訳(メタデータ) (2025-09-25T22:08:25Z) - SUDER: Self-Improving Unified Large Multimodal Models for Understanding and Generation with Dual Self-Rewards [55.99492656542475]
textbfSDER (textbfSelf-improving textbfUnified LMMs with textbfDual stextbfElf-textbfRewards) を提案する。
論文 参考訳(メタデータ) (2025-06-09T17:38:45Z) - Beyond Image-Text Matching: Verb Understanding in Multimodal
Transformers Using Guided Masking [0.4543820534430524]
この研究はガイドマスキング(英語版)と呼ばれる代替の探索戦略を導入する。
提案手法はマスキングを用いて異なるモダリティを識別し、マスキングされた単語を高精度に予測するモデルの能力を評価する。
ViLBERT,LXMERT,UNITER,VisualBERTの誘導マスキングにより,正しい動詞を高精度に予測できることを示す。
論文 参考訳(メタデータ) (2024-01-29T21:22:23Z) - Which Syntactic Capabilities Are Statistically Learned by Masked
Language Models for Code? [51.29970742152668]
精度に基づく測定に依存することで、モデルの能力が過大評価される可能性があることを強調する。
これらの問題に対処するために,SyntaxEval in Syntactic Capabilitiesというテクニックを導入する。
論文 参考訳(メタデータ) (2024-01-03T02:44:02Z) - Masked Language Model Based Textual Adversarial Example Detection [14.734863175424797]
アドリアックは、安全クリティカルなアプリケーションにおける機械学習モデルの信頼性の高いデプロイに対する深刻な脅威である。
本稿では,MLMD(Masked Model-based Detection)という新たなテキスト対逆例検出手法を提案する。
論文 参考訳(メタデータ) (2023-04-18T06:52:14Z) - uChecker: Masked Pretrained Language Models as Unsupervised Chinese
Spelling Checkers [23.343006562849126]
そこで我々はtextbfuChecker というフレームワークを提案し,教師なしのスペル検出と修正を行う。
BERTのようなマスキーク事前訓練言語モデルをバックボーンモデルとして導入する。
各種フレキシブルなMASKの操作に特化して,マスク付き言語モデルを微調整するためのコンフュージョンセット誘導マスキング戦略を提案する。
論文 参考訳(メタデータ) (2022-09-15T05:57:12Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z) - UniLMv2: Pseudo-Masked Language Models for Unified Language Model
Pre-Training [152.63467944568094]
本稿では,自動エンコーディングと部分的自己回帰型言語モデリングタスクの両方に対して,統一言語モデルを事前学習することを提案する。
実験の結果,PMLMを用いて事前学習した統一言語モデルは,多種多様な自然言語理解・生成タスクにおいて,新たな最先端の成果が得られることがわかった。
論文 参考訳(メタデータ) (2020-02-28T15:28:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。