論文の概要: Enhancing Cognition and Explainability of Multimodal Foundation Models with Self-Synthesized Data
- arxiv url: http://arxiv.org/abs/2502.14044v2
- Date: Mon, 24 Feb 2025 20:46:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 11:59:15.916928
- Title: Enhancing Cognition and Explainability of Multimodal Foundation Models with Self-Synthesized Data
- Title(参考訳): 自己合成データを用いたマルチモーダル基礎モデルの認識と説明可能性の向上
- Authors: Yucheng Shi, Quanzheng Li, Jin Sun, Xiang Li, Ninghao Liu,
- Abstract要約: LMMの認識と説明性を改善するための新しい視覚的拒絶サンプリングフレームワークを提案する。
私たちのアプローチは、人間の検証可能な視覚的特徴を含む解釈可能な答えを合成することから始まります。
各ラウンドの微調整の後、最高品質の解答を選択するために報酬モデルのないフィルタリング機構を適用する。
- 参考スコア(独自算出の注目度): 35.229595049396245
- License:
- Abstract: Large Multimodal Models (LMMs), or Vision-Language Models (VLMs), have shown impressive capabilities in a wide range of visual tasks. However, they often struggle with fine-grained visual reasoning, failing to identify domain-specific objectives and provide justifiable explanations for their predictions. To address the above challenge, we propose a novel visual rejection sampling framework to improve the cognition and explainability of LMMs using self-synthesized data. Specifically, visual fine-tuning requires images, queries, and target answers. Our approach begins by synthesizing interpretable answers that include human-verifiable visual features. These features are based on expert-defined concepts, and carefully selected based on their alignment with the image content. After each round of fine-tuning, we apply a reward model-free filtering mechanism to select the highest-quality interpretable answers for the next round of tuning. This iterative process of synthetic data generation and fine-tuning progressively improves the model's ability to generate accurate and reasonable explanations. Experimental results demonstrate the effectiveness of our method in improving both the accuracy and explainability of specialized visual classification tasks.
- Abstract(参考訳): LMM(Large Multimodal Models)またはVLM(Vision-Language Models)は、幅広い視覚的タスクにおいて印象的な能力を示す。
しかし、彼らはしばしば細粒度の視覚的推論に苦慮し、ドメイン固有の目的を特定しず、予測に対して正当化された説明を提供しない。
この課題に対処するために,自己合成データを用いたLMMの認識と説明性を改善するための新しい視覚的拒絶サンプリングフレームワークを提案する。
具体的には、視覚的な微調整には、イメージ、クエリ、ターゲットの回答が必要である。
私たちのアプローチは、人間の検証可能な視覚的特徴を含む解釈可能な答えを合成することから始まります。
これらの機能は、専門家が定義した概念に基づいており、画像の内容との整合性に基づいて慎重に選択される。
各ラウンドの微調整の後、次ラウンドのチューニングにおける高品質な解釈可能な答えを選択するために報酬モデルなしフィルタリング機構を適用する。
この合成データ生成と微調整の反復的なプロセスにより、モデルが正確で合理的な説明を生成する能力が徐々に向上する。
実験により,特殊視覚分類タスクの精度と説明性の向上に本手法の有効性が示された。
関連論文リスト
- Modeling the Human Visual System: Comparative Insights from Response-Optimized and Task-Optimized Vision Models, Language Models, and different Readout Mechanisms [1.515687944002438]
視覚入力を用いた応答最適化モデルでは,早期・中期の視覚領域において,より優れた予測精度が得られることを示す。
言語的記述では捉えられない入力の知覚的特徴に敏感な視覚野の3つの異なる領域を同定する。
本稿では,意味的内容に基づいて受容場や特徴マップを変調し,既存のSOTAよりも3~23%精度が向上する手法を提案する。
論文 参考訳(メタデータ) (2024-10-17T21:11:13Z) - Auto Cherry-Picker: Learning from High-quality Generative Data Driven by Language [41.40908753726324]
拡散モデルは現実的で多様な画像を生成することができ、データ集約的な知覚タスクのためのデータ可用性を促進する可能性がある。
高品質なクロスモダリティトレーニングサンプルを生成する新しいフレームワークであるtextbfAuto textbfCherry-textbfPicker (ACP) を提案する。
論文 参考訳(メタデータ) (2024-06-28T17:53:18Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - Calibrated Self-Rewarding Vision Language Models [27.686545023186852]
LVLM(Large Vision-Language Models)は、訓練済みの大規模言語モデル(LLM)と視覚モデルを統合することで、指導チューニングを通じて大幅に進歩した。
LVLMは、しばしば幻覚現象を示し、生成されたテキスト応答は言語的に妥当に見えるが、入力画像に矛盾する。
本稿では,候補応答を反復的に生成し,各応答に対する報酬を評価し,微調整のための選好データをキュレートすることで,モデルの自己改善を可能にするCalibrated Self-Rewarding(CSR)アプローチを提案する。
論文 参考訳(メタデータ) (2024-05-23T14:30:33Z) - Diffexplainer: Towards Cross-modal Global Explanations with Diffusion Models [51.21351775178525]
DiffExplainerは、言語ビジョンモデルを活用することで、マルチモーダルなグローバルな説明可能性を実現する新しいフレームワークである。
最適化されたテキストプロンプトに条件付けされた拡散モデルを使用し、クラス出力を最大化する画像を合成する。
生成した視覚的記述の分析により、バイアスと突発的特徴の自動識別が可能になる。
論文 参考訳(メタデータ) (2024-04-03T10:11:22Z) - Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Perception Visualization: Seeing Through the Eyes of a DNN [5.9557391359320375]
我々は、Grad-CAMのような現在の説明方法と本質的に異なる、新しい説明形式を開発する。
知覚可視化は、DNNが入力画像で知覚するものの視覚的表現を提供する。
ユーザスタディの結果から,認識の可視化が可能になった場合,人間がシステムの判断をよりよく理解し,予測できることが示される。
論文 参考訳(メタデータ) (2022-04-21T07:18:55Z) - Generative Counterfactuals for Neural Networks via Attribute-Informed
Perturbation [51.29486247405601]
AIP(Attribute-Informed Perturbation)の提案により,生データインスタンスの反事実を生成するフレームワークを設計する。
異なる属性を条件とした生成モデルを利用することで、所望のラベルとの反事実を効果的かつ効率的に得ることができる。
実世界のテキストや画像に対する実験結果から, 設計したフレームワークの有効性, サンプル品質, および効率が示された。
論文 参考訳(メタデータ) (2021-01-18T08:37:13Z) - Interpretable Detail-Fidelity Attention Network for Single Image
Super-Resolution [89.1947690981471]
本研究では,スムースとディテールを段階的に分割・収束的に処理する,目的・解釈可能なディテール・ファイダリティ・アテンション・ネットワークを提案する。
特に,詳細推論において顕著な解釈可能な特徴表現のためのヘシアンフィルタを提案する。
実験により,提案手法は最先端手法よりも優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2020-09-28T08:31:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。