論文の概要: GT-PCQA: Geometry-Texture Decoupled Point Cloud Quality Assessment with MLLM
- arxiv url: http://arxiv.org/abs/2603.14951v1
- Date: Mon, 16 Mar 2026 08:04:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:36.146768
- Title: GT-PCQA: Geometry-Texture Decoupled Point Cloud Quality Assessment with MLLM
- Title(参考訳): GT-PCQA: MLLMによる幾何学的テクスチュアデカップリングポイントクラウド品質評価
- Authors: Guohua Zhang, Jian Jin, Meiqin Liu, Chao Yao, Weisi Lin, Yao Zhao,
- Abstract要約: 本稿では,MLLM をベースとした新しいno-reference PCQA フレームワーク GT-PCQA を提案する。
まず,PCQAの監督不足下での安定かつ効果的な指導訓練を可能にするために,2D-3D共同訓練戦略を提案する。
第2に、事前学習されたMLLMのテクスチャ優位バイアスを軽減するために、二重プロンプト機構と交互最適化スキームを統合した幾何学的テクスチャデカップリング戦略を提案する。
- 参考スコア(独自算出の注目度): 93.22843816779255
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid advancement of Multi-modal Large Language Models (MLLMs), MLLM-based Image Quality Assessment (IQA) methods have shown promising generalization. However, directly extending these MLLM-based IQA methods to PCQA remains challenging. On the one hand, existing PCQA datasets are limited in scale, which hinders stable and effective instruction tuning of MLLMs. On the other hand, due to large-scale image-text pretraining, MLLMs tend to rely on texture-dominant reasoning and are insufficiently sensitive to geometric structural degradations that are critical for PCQA. To address these gaps, we propose a novel MLLM-based no-reference PCQA framework, termed GT-PCQA, which is built upon two key strategies. First, to enable stable and effective instruction tuning under scarce PCQA supervision, a 2D-3D joint training strategy is proposed. This strategy formulates PCQA as a relative quality comparison problem to unify large-scale IQA datasets with limited PCQA datasets. It incorporates a parameter-efficient Low-Rank Adaptation (LoRA) scheme to support instruction tuning. Second, a geometry-texture decoupling strategy is presented, which integrates a dual-prompt mechanism with an alternating optimization scheme to mitigate the inherent texture-dominant bias of pre-trained MLLMs, while enhancing sensitivity to geometric structural degradations. Extensive experiments demonstrate that GT-PCQA achieves competitive performance and exhibits strong generalization.
- Abstract(参考訳): MLLM(Multi-modal Large Language Models)の急速な進歩に伴い,画像品質評価法(IQA)が有望な一般化を示した。
しかし、これらのMLLMベースのIQAメソッドを直接PCQAに拡張することは依然として困難である。
一方、既存のPCQAデータセットは規模が限られており、MLLMの安定かつ効果的な命令チューニングを妨げている。
一方、大規模な画像テキスト事前学習により、MLLMはテクスチャに支配的な推論に頼る傾向にあり、PCQAにとって重要な幾何学的構造劣化に十分敏感である。
これらのギャップに対処するため、我々はGT-PCQAと呼ばれるMLLMベースの新しいno-reference PCQAフレームワークを提案する。
まず,PCQAの監督不足下での安定かつ効果的な指導訓練を可能にするために,2D-3D共同訓練戦略を提案する。
この戦略はPCQAを相対的な品質比較問題として定式化し、大規模なIQAデータセットと限られたPCQAデータセットを統一する。
命令チューニングをサポートするためにパラメータ効率の低いローランド適応(LoRA)スキームが組み込まれている。
第2に, 2重プロンプト機構と交互最適化手法を統合し, 事前学習したMLLMのテクスチャ優位バイアスを軽減するとともに, 幾何構造劣化に対する感度を高める。
大規模な実験により、GT-PCQAは競争性能を達成し、強力な一般化を示すことが示された。
関連論文リスト
- FLRQ: Faster LLM Quantization with Flexible Low-Rank Matrix Sketching [4.01326804806241]
Rank1-Sketch-based Flexible Rank Selection (R1-FLR) と Best Low-rank Approximation under Clipping (BLC) を導入する。
R1-FLRは高速な低ランク近似のためにガウス射影を持つR1-Sketchを適用し、各層に対して外向きのランク抽出を可能にする。
BLCは、スケーリングとクリッピング戦略の下での低ランク量子化誤差の最小化を目的としている。
論文 参考訳(メタデータ) (2026-01-09T10:06:45Z) - ALARM: Automated MLLM-Based Anomaly Detection in Complex-EnviRonment Monitoring with Uncertainty Quantification [16.05388703860442]
本稿では,我々のUQ支援MLLMに基づく視覚異常検出フレームワークであるALARMを紹介する。
AlARMは、推論チェーン、自己回帰、MLLMアンサンブルなどの品質保証技術を統合して、堅牢で正確なパフォーマンスを実現している。
実世界のスマートホームベンチマークデータと創傷画像分類データを用いて大規模な実験評価を行い、ALARMの優れた性能と、信頼性の高い意思決定のために異なる領域にまたがる汎用的な適用性を示す。
論文 参考訳(メタデータ) (2025-12-01T19:03:14Z) - Continual Action Quality Assessment via Adaptive Manifold-Aligned Graph Regularization [53.82400605816587]
アクション品質アセスメント(AQA)は、ビデオにおける人間の行動を定量化し、スポーツスコアリング、リハビリテーション、スキル評価の応用を支援する。
大きな課題は、現実世界のシナリオにおける品質分布の非定常的な性質にある。
本稿では,進化する分布を扱うための連続学習機能を備えた連続AQA(Continuous AQA)を紹介する。
論文 参考訳(メタデータ) (2025-10-08T10:09:47Z) - ALOPE: Adaptive Layer Optimization for Translation Quality Estimation using Large Language Models [8.518082319087375]
大規模言語モデル(LLM)は、幅広い自然言語処理タスクで顕著なパフォーマンスを示している。
QE for Machine Translation (MT)は、参照翻訳に頼ることなく、ソースとターゲットのペアの品質を評価する。
本稿では,LCMベースのQE向上を目的とした適応層最適化フレームワークであるALOPEを紹介する。
論文 参考訳(メタデータ) (2025-08-10T20:59:44Z) - Test-Time Alignment for Large Language Models via Textual Model Predictive Control [63.508812485566374]
Textual Model Predictive Control (TMPC) は、推論時に大規模言語モデルを調整するために適応された新しい予測計画フレームワークである。
TMPCは、談話レベル翻訳、長文応答生成、プログラム合成の3つの異なるセグメンテーション特性を持つタスクで評価される。
その結果、TMPCはパフォーマンスを継続的に改善し、一般性を強調している。
論文 参考訳(メタデータ) (2025-02-28T07:24:33Z) - Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [49.362750475706235]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。
反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。
GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文 参考訳(メタデータ) (2024-10-11T23:29:20Z) - NeuralQP: A General Hypergraph-based Optimization Framework for Large-scale QCQPs [8.503330120957052]
本稿では,大規模二次制約付き二次プログラム(QCQP)のための汎用ハイパーグラフベースフレームワークであるNeuralQPを紹介する。
ハイパーグラフ表現を用いたUniEGNNは2次プログラミングのための内部点法(IPM)と等価であることを示す。
QPLIBによる2つのベンチマーク問題と大規模な実世界のインスタンスの実験は、NeuralQPが最先端の解法よりも優れていることを示した。
論文 参考訳(メタデータ) (2024-09-28T10:42:47Z) - Few-Shot Image Quality Assessment via Adaptation of Vision-Language Models [93.91086467402323]
Gradient-Regulated Meta-Prompt IQA Framework (GRMP-IQA) は、視覚言語事前学習モデルのCLIPをIQAタスクに効率よく適応させるように設計されている。
GRMP-IQAは、 (i) Meta-Prompt 事前学習モジュールと (ii) Quality-Aware Gradient Regularization の2つのコアモジュールから構成される。
論文 参考訳(メタデータ) (2024-09-09T07:26:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。