論文の概要: Q-Instruct: Improving Low-level Visual Abilities for Multi-modality
Foundation Models
- arxiv url: http://arxiv.org/abs/2311.06783v1
- Date: Sun, 12 Nov 2023 09:10:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 16:54:44.908433
- Title: Q-Instruct: Improving Low-level Visual Abilities for Multi-modality
Foundation Models
- Title(参考訳): Q-Instruct: マルチモーダリティ基礎モデルのための低レベル視覚能力の改善
- Authors: Haoning Wu, Zicheng Zhang, Erli Zhang, Chaofeng Chen, Liang Liao,
Annan Wang, Kaixin Xu, Chunyi Li, Jingwen Hou, Guangtao Zhai, Geng Xue,
Wenxiu Sun, Qiong Yan, Weisi Lin
- Abstract要約: 我々は,低レベルの視覚に対する多数の人間のフィードバックを収集する大規模主観的実験を行う。
構築された**Q-Pathway**データセットには、18,973イメージに関する58万の詳細な人間のフィードバックが含まれている。
我々は、GPT参加型変換を設計し、これらのフィードバックを多種多様な200K命令応答対に処理する。
- 参考スコア(独自算出の注目度): 81.20804369985376
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multi-modality foundation models, as represented by GPT-4V, have brought a
new paradigm for low-level visual perception and understanding tasks, that can
respond to a broad range of natural human instructions in a model. While
existing foundation models have shown exciting potentials on low-level visual
tasks, their related abilities are still preliminary and need to be improved.
In order to enhance these models, we conduct a large-scale subjective
experiment collecting a vast number of real human feedbacks on low-level
vision. Each feedback follows a pathway that starts with a detailed description
on the low-level visual appearance (*e.g. clarity, color, brightness* of an
image, and ends with an overall conclusion, with an average length of 45 words.
The constructed **Q-Pathway** dataset includes 58K detailed human feedbacks on
18,973 images with diverse low-level appearance. Moreover, to enable foundation
models to robustly respond to diverse types of questions, we design a
GPT-participated conversion to process these feedbacks into diverse-format 200K
instruction-response pairs. Experimental results indicate that the
**Q-Instruct** consistently elevates low-level perception and understanding
abilities across several foundational models. We anticipate that our datasets
can pave the way for a future that general intelligence can perceive,
understand low-level visual appearance and evaluate visual quality like a
human. Our dataset, model zoo, and demo is published at:
https://q-future.github.io/Q-Instruct.
- Abstract(参考訳): GPT-4Vで表されるマルチモダリティ基礎モデルは、低レベルの視覚知覚と理解タスクのための新しいパラダイムを導入し、モデル内の幅広い人間の指示に対応することができる。
既存の基礎モデルは、低レベルの視覚タスクにエキサイティングなポテンシャルを示してきたが、関連する能力はまだ予備的であり、改善する必要がある。
これらのモデルを強化するために,我々は,低レベルの視覚において,膨大な数の実際の人間のフィードバックを収集する大規模主観実験を行う。
各フィードバックは、画像の視認性、色、明るさ*など、低レベルの視覚的外観に関する詳細な説明から始まり、平均45ワードの平均的な結論で終わる経路に従っている。
構築された**Q-Pathway**データセットには、18,973の画像に対する58万の詳細な人間のフィードバックが含まれている。
さらに,基礎モデルを多様な質問に頑健に応答させるため,これらのフィードバックを多種多様な200K命令応答対に処理するGPT参加型変換を設計する。
実験結果から、*Q-インストラクト** はいくつかの基礎モデルの低レベル知覚と理解能力を一貫して高めていることが示されている。
私たちのデータセットは、汎用知性が低レベルの視覚的外観を知覚し、理解し、人間のように視覚品質を評価する未来への道を開くことができると予測しています。
私たちのデータセット、モデル動物園、デモはhttps://q-future.github.io/q-instructで公開しています。
関連論文リスト
- Explore the Hallucination on Low-level Perception for MLLMs [83.12180878559295]
低レベルの視覚知覚と理解タスクにおけるMLLMの自己認識性を定義し,評価することを目的としている。
低レベルの視覚に対する人間の反応をシミュレートするベンチマーク設定であるQL-Benchを提案する。
いくつかのモデルでは、ロバストな低レベル視覚能力を示すが、その自己認識性は比較的未発達である。
論文 参考訳(メタデータ) (2024-09-15T14:38:29Z) - Aligning Vision Models with Human Aesthetics in Retrieval: Benchmarks and Algorithms [91.19304518033144]
検索システムにおける視覚モデルと人間の審美基準の整合を図る。
本研究では、視覚モデルと人間の美学をよりよく整合させるために、視覚モデルを微調整する嗜好に基づく強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T17:59:20Z) - Q-Bench+: A Benchmark for Multi-modal Foundation Models on Low-level Vision from Single Images to Pairs [71.07108539262721]
低レベルの視覚に関連する人間の言語応答をエミュレートするためのベンチマーク設定を設計する。
我々は,MLLMの低レベルの認識関連質問応答と記述評価を,単一画像から画像ペアへ拡張する。
複数のMLLMが単一の画像に対して十分な低レベルの視覚能力を持つことを示したが、GPT-4Vのみが人間よりも高い精度で比較できる。
論文 参考訳(メタデータ) (2024-02-11T06:44:11Z) - BloomVQA: Assessing Hierarchical Multi-modal Comprehension [18.21961616174999]
我々は、様々なレベルの理解を反映した絵物語に基づいて、複数の選択サンプルを収集する。
モデル一貫性を特徴付ける新しい尺度と自動データ拡張を可能にする新しい階層グラフ表現にマッピングする。
従来のモデルと比較して、GPT-4Vは全ての理解レベルよりも精度が向上し、特に高次タスクでは視覚入力をバイパスする傾向を示す。
論文 参考訳(メタデータ) (2023-12-20T02:22:49Z) - Learning Generalizable Perceptual Representations for Data-Efficient
No-Reference Image Quality Assessment [7.291687946822539]
最先端のNR-IQA技術の大きな欠点は、多数の人間のアノテーションに依存していることである。
低レベルな特徴の学習を、新しい品質に配慮したコントラスト損失を導入することで、歪みタイプの学習を可能にする。
両経路からゼロショット品質の予測を、完全に盲目な環境で設計する。
論文 参考訳(メタデータ) (2023-12-08T05:24:21Z) - Heuristic Vision Pre-Training with Self-Supervised and Supervised
Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。
その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-11T14:06:04Z) - Q-Bench: A Benchmark for General-Purpose Foundation Models on Low-level
Vision [85.6008224440157]
MLLM(Multi-modality Large Language Models)は、コンピュータビジョンの特殊モデルから汎用基礎モデルへのシフトを触媒している。
Q-Benchは3つの領域(低レベル視覚知覚、低レベル視覚記述、全体視品質評価)でMLLMの潜在能力を評価するための総合的なベンチマークである。
論文 参考訳(メタデータ) (2023-09-25T14:43:43Z) - Using Visual Cropping to Enhance Fine-Detail Question Answering of
BLIP-Family Models [6.063024872936599]
視覚的トリミングは,詳細な質問に対して,最先端の視覚的質問応答モデルの性能を向上させることができるかを検討する。
CLIPとBLIPビジュアルQAモデル勾配によるマルチモーダル埋め込みに基づく2つの自動収穫戦略を考案する。
原画像と勾配画像の連結を単純に入力することで,一般VQAランダムタスクの4.59%(絶対)の改善を実現した。
論文 参考訳(メタデータ) (2023-05-31T22:48:27Z) - Florence: A New Foundation Model for Computer Vision [97.26333007250142]
我々は、粗い(シーン)から細かい(オブジェクト)への表現を拡大するために、新しいコンピュータビジョン基盤モデルであるFlorenceを導入する。
Webスケールの画像テキストデータから普遍的な視覚言語表現を組み込むことで、フローレンスモデルは様々なコンピュータビジョンタスクに容易に適応できる。
Florenceは44の代表的なベンチマークの過半数において、最先端の新たな結果を達成する。
論文 参考訳(メタデータ) (2021-11-22T18:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。