論文の概要: Comparison Visual Instruction Tuning
- arxiv url: http://arxiv.org/abs/2406.09240v1
- Date: Thu, 13 Jun 2024 15:43:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 17:05:04.071768
- Title: Comparison Visual Instruction Tuning
- Title(参考訳): 視覚インストラクションチューニングの比較
- Authors: Wei Lin, Muhammad Jehanzeb Mirza, Sivan Doveh, Rogerio Feris, Raja Giryes, Sepp Hochreiter, Leonid Karlinsky,
- Abstract要約: 合成視覚命令を収集するための新しい2相アプローチCaD-VIを開発した。
我々のアプローチはLMMにおけるCaDスポッティング能力を著しく改善し、SOTAを最大17.5%まで改善する。
LMMのCaD理解能力を評価するために,7.5KのオープンエンドQAを用いた評価ベンチマークを提案する。
- 参考スコア(独自算出の注目度): 45.258849413050726
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Comparing two images in terms of Commonalities and Differences (CaD) is a fundamental human capability that forms the basis of advanced visual reasoning and interpretation. It is essential for the generation of detailed and contextually relevant descriptions, performing comparative analysis, novelty detection, and making informed decisions based on visual data. However, surprisingly, little attention has been given to these fundamental concepts in the best current mimic of human visual intelligence - Large Multimodal Models (LMMs). We develop and contribute a new two-phase approach CaD-VI for collecting synthetic visual instructions, together with an instruction-following dataset CaD-Inst containing 349K image pairs with CaD instructions collected using CaD-VI. Our approach significantly improves the CaD spotting capabilities in LMMs, advancing the SOTA on a diverse set of related tasks by up to 17.5%. It is also complementary to existing difference-only instruction datasets, allowing automatic targeted refinement of those resources increasing their effectiveness for CaD tuning by up to 10%. Additionally, we propose an evaluation benchmark with 7.5K open-ended QAs to assess the CaD understanding abilities of LMMs.
- Abstract(参考訳): 共通性と差異(CaD)の観点で2つの画像を比較することは、高度な視覚的推論と解釈の基礎を形成する基本的な人間の能力である。
詳細で文脈に関連のある記述の生成、比較分析、新規性検出、視覚データに基づく情報的決定に不可欠である。
しかし、驚くべきことに、人間の視覚知能の最良の模倣であるLMM(Large Multimodal Models)において、これらの基本的な概念にはほとんど注意が払われていない。
本研究では,CaD-VIを用いて収集したCaD命令と349K画像対を含む命令追従データセットCaD-Instとともに,合成視覚命令を収集するための新しい2相アプローチCaD-VIを開発し,コントリビューションする。
我々のアプローチはLMMにおけるCaDスポッティング能力を著しく改善し、SOTAを最大17.5%まで改善する。
また、既存の差分のみの命令データセットを補完し、CaDチューニングの有効性を最大10%向上させることができる。
さらに,LMMのCaD理解能力を評価するために,7.5KのオープンエンドQAを用いた評価ベンチマークを提案する。
関連論文リスト
- VLFeedback: A Large-Scale AI Feedback Dataset for Large Vision-Language Models Alignment [55.7956150385255]
本稿では,視覚言語モデルの整合性向上のためのAIフィードバックの有効性について検討する。
最初の大規模視覚言語フィードバックデータセットであるVLFeedbackを紹介する。
我々は、VLFeedback上で直接選好最適化によって微調整されたLVLMであるSilkieを訓練する。
論文 参考訳(メタデータ) (2024-10-12T07:56:47Z) - Zero-Shot Embeddings Inform Learning and Forgetting with Vision-Language Encoders [6.7181844004432385]
IMM(Inter-Intra Modal Measure)は、微調整によるパフォーマンス変化の強力な予測器として機能する。
IIMMスコアの高いタスクの微調整はドメイン内のパフォーマンス向上をもたらすが、ドメイン外のパフォーマンス低下も引き起こす。
ターゲットデータの1つのフォワードパスだけで、実践者は、この重要な洞察を利用して、モデルが微調整後の改善を期待できる程度を評価することができる。
論文 参考訳(メタデータ) (2024-07-22T15:35:09Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - Opinion-Unaware Blind Image Quality Assessment using Multi-Scale Deep Feature Statistics [54.08757792080732]
我々は,事前学習された視覚モデルからの深い特徴を統計的解析モデルと統合して,意見認識のないBIQA(OU-BIQA)を実現することを提案する。
提案モデルは,最先端のBIQAモデルと比較して,人間の視覚的知覚との整合性に優れる。
論文 参考訳(メタデータ) (2024-05-29T06:09:34Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Silkie: Preference Distillation for Large Visual Language Models [56.10697821410489]
本稿では,大型視覚言語モデル(LVLM)の嗜好蒸留について検討する。
まず,AIアノテーションを用いた視覚言語フィードバックデータセットを構築した。
我々は, GPT-4V を用いて, 有用性, 視覚的忠実性, 倫理的考察のアウトプットを評価する。
結果として得られたモデルSilkieは、認知能力と認知能力に関するMMEベンチマークで6.9%と9.5%の相対的な改善を達成している。
論文 参考訳(メタデータ) (2023-12-17T09:44:27Z) - TOV: The Original Vision Model for Optical Remote Sensing Image
Understanding via Self-supervised Learning [13.57667361338603]
リモートセンシングにおけるtextbfOriginal textbfVision Model (TOV) を提案する。
人のような自己教師付き学習経路に沿って、巨大なラベルのない光学データによって訓練されたTOVモデルは、様々なRSIUタスクに容易に適応できる。
RSIUのTOVモデル構築における2つの要因の影響を分析する。
論文 参考訳(メタデータ) (2022-04-10T16:25:05Z) - A combined full-reference image quality assessment approach based on
convolutional activation maps [0.0]
フルリファレンス画像品質評価(FR-IQA)の目標は、人間の観察者が認識する画像の品質を、そのプリスタントな基準値を用いて予測することである。
本研究では,畳み込みアクティベーションマップから特徴ベクトルをコンパイルすることにより,歪み画像の知覚的品質を予測する手法を提案する。
論文 参考訳(メタデータ) (2020-10-19T10:00:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。