論文の概要: LMM-PCQA: Assisting Point Cloud Quality Assessment with LMM
- arxiv url: http://arxiv.org/abs/2404.18203v1
- Date: Sun, 28 Apr 2024 14:47:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 15:35:41.274937
- Title: LMM-PCQA: Assisting Point Cloud Quality Assessment with LMM
- Title(参考訳): LMM-PCQA:LMMによるポイントクラウド品質評価を支援する
- Authors: Zicheng Zhang, Haoning Wu, Yingjie Zhou, Chunyi Li, Wei Sun, Chaofeng Chen, Xiongkuo Min, Xiaohong Liu, Weisi Lin, Guangtao Zhai,
- Abstract要約: 本研究は,PCQAの知識をLMMに付与する可能性について,テキスト管理を通して検討することを目的とする。
品質ラベルを微調整段階のテキスト記述に変換することにより、LMMは点雲の2次元投影から品質評価ロジットを導出することができる。
提案手法の有効性を実証し,PCQAへのLMMの新たな統合を実証した。
- 参考スコア(独自算出の注目度): 83.98966702271576
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although large multi-modality models (LMMs) have seen extensive exploration and application in various quality assessment studies, their integration into Point Cloud Quality Assessment (PCQA) remains unexplored. Given LMMs' exceptional performance and robustness in low-level vision and quality assessment tasks, this study aims to investigate the feasibility of imparting PCQA knowledge to LMMs through text supervision. To achieve this, we transform quality labels into textual descriptions during the fine-tuning phase, enabling LMMs to derive quality rating logits from 2D projections of point clouds. To compensate for the loss of perception in the 3D domain, structural features are extracted as well. These quality logits and structural features are then combined and regressed into quality scores. Our experimental results affirm the effectiveness of our approach, showcasing a novel integration of LMMs into PCQA that enhances model understanding and assessment accuracy. We hope our contributions can inspire subsequent investigations into the fusion of LMMs with PCQA, fostering advancements in 3D visual quality analysis and beyond.
- Abstract(参考訳): 大規模マルチモダリティモデル (LMM) は様々な品質アセスメント研究において広範な探索と応用が見られたが、ポイントクラウド品質アセスメント (PCQA) への統合は未だ検討されていない。
低レベルの視力と品質評価タスクにおけるLMMの異常な性能と堅牢性を考えると,本研究はテキスト管理を通じてPCQA知識をLMMに付与する可能性を検討することを目的としている。
これを実現するために、我々は品質ラベルを微調整段階のテキスト記述に変換することで、LMMが点雲の2次元投影から品質評価ロジットを導出できるようにする。
3D領域における知覚の喪失を補うために、構造的特徴も抽出する。
これらの品質ロジットと構造的特徴を結合し、品質スコアに回帰する。
提案手法の有効性を実証し,モデル理解と評価精度を高めるPCQAへのLMMの新たな統合を示す。
我々は,LMMとPCQAの融合に関するその後の調査を刺激し,3次元視覚的品質分析の進歩を促すことを願っている。
関連論文リスト
- Q-Ground: Image Quality Grounding with Large Multi-modality Models [61.72022069880346]
Q-Groundは、大規模な視覚的品質グラウンドに取り組むための最初のフレームワークである。
Q-Groundは、大規模なマルチモダリティモデルと詳細な視覚的品質分析を組み合わせる。
コントリビューションの中心は、QGround-100Kデータセットの導入です。
論文 参考訳(メタデータ) (2024-07-24T06:42:46Z) - 2AFC Prompting of Large Multimodal Models for Image Quality Assessment [38.86162365208038]
2-alternative forced choice (2AFC) は視覚的品質に関する人間の意見を集める最も信頼性の高い方法であると考えられている。
特定のLMMで推定される各画像のグローバルな品質スコアを、最大後部推定を用いて効率的に集計することができる。
論文 参考訳(メタデータ) (2024-02-02T06:05:18Z) - Q-Align: Teaching LMMs for Visual Scoring via Discrete Text-Defined
Levels [95.44077384918725]
スコアの代わりにテキスト定義のレーティングレベルを持つ大規模マルチモーダリティモデル(LMM)を提案する。
提案したQ-Alignは、画像品質評価(IQA)、画像美学評価(IAA)、映像品質評価(VQA)タスクにおける最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-28T16:10:25Z) - Q-Boost: On Visual Quality Assessment Ability of Low-level
Multi-Modality Foundation Models [80.79438689784958]
画像品質評価(IQA)および映像品質評価(VQA)タスクにおける低レベルMLLMの強化を目的とした戦略であるQ-Boostを紹介する。
Q-Boostは$neutral$プロンプトを通じてミドルグラウンドのアプローチを導入し、よりバランスよく詳細な評価を可能にする。
実験の結果,低レベルMLLMはQ-Boost戦略を備えたIQA/VQAタスクに優れたゼロショット性能を示した。
論文 参考訳(メタデータ) (2023-12-23T17:02:25Z) - METAL: Metamorphic Testing Framework for Analyzing Large-Language Model
Qualities [4.493507573183107]
大言語モデル(LLM)は自然言語データ処理のパラダイムをシフトさせた。
近年,LLMの品質属性(QA)は,逆入力テキストを生成することで検証されている。
本稿では,これらの問題に対処するメタモルフィック・テスト・フォー・アナライズ・LLM(METAL)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T01:29:19Z) - On the Robustness of Large Multimodal Models Against Image Adversarial
Attacks [81.2935966933355]
大規模マルチモーダルモデル(LMM)に対する視覚的敵攻撃の影響について検討する。
一般的に,LMMは視覚的逆入力に対して頑健ではない。
本稿では,クエリ分解と呼ばれる実世界の画像分類への新たなアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-06T04:59:56Z) - Q-Bench: A Benchmark for General-Purpose Foundation Models on Low-level
Vision [85.6008224440157]
MLLM(Multi-modality Large Language Models)は、コンピュータビジョンの特殊モデルから汎用基礎モデルへのシフトを触媒している。
Q-Benchは3つの領域(低レベル視覚知覚、低レベル視覚記述、全体視品質評価)でMLLMの潜在能力を評価するための総合的なベンチマークである。
論文 参考訳(メタデータ) (2023-09-25T14:43:43Z) - Point Cloud Quality Assessment using 3D Saliency Maps [37.290843791053256]
そこで本研究では,品質予測の容易化を目的として,実効的な完全参照PCQA指標を提案する。
具体的には、まず、点雲の幾何学的特性をよりよく反映する深度情報を導入し、プロジェクションに基づく点雲塩分濃度マップ生成法を提案する。
最後に、最終的な品質スコアを生成するために、サリエンシに基づくプーリング戦略を提案する。
論文 参考訳(メタデータ) (2022-09-30T13:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。