論文の概要: Reconstructive Visual Instruction Tuning
- arxiv url: http://arxiv.org/abs/2410.09575v1
- Date: Sat, 12 Oct 2024 15:54:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 13:35:29.916133
- Title: Reconstructive Visual Instruction Tuning
- Title(参考訳): 再建型視覚インストラクションチューニング
- Authors: Haochen Wang, Anlin Zheng, Yucheng Zhao, Tiancai Wang, Zheng Ge, Xiangyu Zhang, Zhaoxiang Zhang,
- Abstract要約: リコンストラクティブ・ビジュアル・インストラクション・チューニング(ROSS)は、視覚中心の監視信号を利用する大型マルチモーダル・モデル(LMM)のファミリーである。
入力画像の潜在表現を再構成し、正確なRGB値を直接回帰するのを避ける。
経験的に、ROSSは、異なるビジュアルエンコーダと言語モデルに対して、一貫して大幅に改善されている。
- 参考スコア(独自算出の注目度): 64.91373889600136
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces reconstructive visual instruction tuning (ROSS), a family of Large Multimodal Models (LMMs) that exploit vision-centric supervision signals. In contrast to conventional visual instruction tuning approaches that exclusively supervise text outputs, ROSS prompts LMMs to supervise visual outputs via reconstructing input images. By doing so, it capitalizes on the inherent richness and detail present within input images themselves, which are often lost in pure text supervision. However, producing meaningful feedback from natural images is challenging due to the heavy spatial redundancy of visual signals. To address this issue, ROSS employs a denoising objective to reconstruct latent representations of input images, avoiding directly regressing exact raw RGB values. This intrinsic activation design inherently encourages LMMs to maintain image detail, thereby enhancing their fine-grained comprehension capabilities and reducing hallucinations. Empirically, ROSS consistently brings significant improvements across different visual encoders and language models. In comparison with extrinsic assistance state-of-the-art alternatives that aggregate multiple visual experts, ROSS delivers competitive performance with a single SigLIP visual encoder, demonstrating the efficacy of our vision-centric supervision tailored for visual outputs.
- Abstract(参考訳): 本稿では、視覚中心の監視信号を利用するLarge Multimodal Models(LMM)のファミリーであるRestructive visual instruction tuning(ROSS)を紹介する。
テキスト出力を排他的に監督する従来のビジュアルインストラクションチューニングアプローチとは対照的に、ROSはLMMに対して、入力画像の再構成を通じて視覚出力を監督するように促している。
これにより、入力画像自体に存在する固有の豊かさと細部を活かし、純粋なテキスト管理においてしばしば失われる。
しかし、視覚信号の空間的冗長性が高いため、自然画像から有意義なフィードバックを生み出すことは困難である。
この問題に対処するため、ROSSは、入力画像の遅延表現を再構築するために、正確なRGB値を直接回帰するのを避けるために、妄想的目的を用いる。
この本質的なアクティベーション設計は、本質的にLMMが画像の詳細を維持することを奨励し、それによって細粒度の理解能力を高め、幻覚を減少させる。
経験的に、ROSSは、異なるビジュアルエンコーダと言語モデルに対して、一貫して大幅に改善されている。
複数のビジュアルエキスパートを集約する非本質的な支援方法と比較すると、ROSは単一のSigLIPビジュアルエンコーダで競合性能を提供し、視覚的なアウトプットに適したビジョン中心のインスペクションの有効性を実証する。
関連論文リスト
- Instruction Tuning-free Visual Token Complement for Multimodal LLMs [51.138806401996696]
マルチモーダルな大言語モデル(MLLM)は、視覚と言語の間のエレガントな橋渡しを約束している。
本稿では,MLLM が欠落した視覚機能を取り戻すのに役立つ Visual Token Complement フレームワーク (VTC) を提案する。
我々のVTCは、テキスト不関連特徴を特定するためのガイドとしてテキスト・ツー・イメージ生成を統合し、視覚的セレクタを開発し、補完的な視覚的トークンを生成する。
論文 参考訳(メタデータ) (2024-08-09T12:13:01Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - AoSRNet: All-in-One Scene Recovery Networks via Multi-knowledge
Integration [17.070755601209136]
マルチ知識統合によるオールインワンシーン復元ネットワーク(AoSRNet)を提案する。
ガンマ補正(GC)と最適化線形ストレッチ(OLS)を組み合わせてディテール拡張モジュール(DEM)とカラー復元モジュール(CRM)を作成する。
総合的な実験結果から,AoSRNetの有効性と安定性が他の最先端手法と比較された。
論文 参考訳(メタデータ) (2024-02-06T06:12:03Z) - MouSi: Poly-Visual-Expert Vision-Language Models [132.58949014605477]
本稿では,個々の視覚エンコーダの能力の相乗化にアンサンブルエキスパート技術を用いることを提案する。
この技術は、異なる視覚専門家の出力の処理を統一する融合ネットワークを導入する。
本実装では,SAMなどのモデルにおける位置占有率を,実質的な4096からより効率的で管理可能な64,さらには1。
論文 参考訳(メタデータ) (2024-01-30T18:09:11Z) - Incorporating Visual Experts to Resolve the Information Loss in
Multimodal Large Language Models [121.83413400686139]
本稿では,MLLMの視覚知覚能力を向上させるために,知識の混合強化機構を提案する。
本稿では,マルチタスクエンコーダとビジュアルツールを既存のMLLM訓練と推論パイプラインに組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T02:02:34Z) - Learning Detail-Structure Alternative Optimization for Blind
Super-Resolution [69.11604249813304]
そこで我々は,ブラインドSRに先立ってカーネルを曖昧にすることなく,再帰的な詳細構造代替最適化を実現する,有効かつカーネルフリーなネットワークDSSRを提案する。
DSSRでは、細部構造変調モジュール(DSMM)が構築され、画像の詳細と構造の相互作用と協調を利用する。
本手法は既存の手法に対して最先端の手法を実現する。
論文 参考訳(メタデータ) (2022-12-03T14:44:17Z) - A-ESRGAN: Training Real-World Blind Super-Resolution with Attention
U-Net Discriminators [0.0]
ブラインド画像超解像(SR)は、未知の複雑な歪みに苦しむ低解像度画像の復元を目的とした、CVにおける長年の課題である。
本稿では,A-ESRGANについて述べる。A-ESRGAN,A-ESRGAN,A-ESRGAN,A-ESRGAN,A-ESRGAN,A-ESRGAN,A-ESRGAN。
論文 参考訳(メタデータ) (2021-12-19T02:50:23Z) - Looking Enhances Listening: Recovering Missing Speech Using Images [40.616935661628155]
本稿では,雑音条件下での視覚的モダリティの有用性を示す一連の実験について述べる。
この結果から,マルチモーダル ASR モデルでは,入力音響信号に隠蔽された単語を,視覚的表現を用いて接地することで復元できることがわかった。
論文 参考訳(メタデータ) (2020-02-13T17:12:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。