論文の概要: Unleashing Vision Transformer Potential In Image Quality Assessment via Global-Local Adaptive Interaction
- arxiv url: http://arxiv.org/abs/2605.17748v1
- Date: Mon, 18 May 2026 02:02:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:48.588022
- Title: Unleashing Vision Transformer Potential In Image Quality Assessment via Global-Local Adaptive Interaction
- Title(参考訳): グローバル・ローカル・アダプティブ・インタラクションによる画質評価におけるアンリーディング・ビジョン・トランスフォーマーの可能性
- Authors: Yu Li, Puchao Zhou, Yachun Mi, Yanfeng Wu, Xiaoming Wang, Shaohui Liu,
- Abstract要約: 我々は、事前学習された視覚変換器を効果的に活用する新しいフレームワーク、GLIA(Global-Local Interaction Adapter)を紹介する。
グローバルな意味情報ときめ細かな局所的詳細を共同で保持することにより,予測精度とロバスト性を向上する。
- 参考スコア(独自算出の注目度): 21.95505854550097
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the field of Blind Image Quality Assessment (BIQA), accurately predicting the perceptual quality of authentically distorted images remains highly challenging due to the diverse and complex distortions present in natural environments. Although existing methods have achieved notable accuracy, their scalability is often constrained by the high cost of subjective annotation and the limited size of available datasets. Recent advances in large-scale pre-trained vision models have introduced powerful semantic and representational capabilities, yet their application to IQA tasks is hindered by substantial computational demands and suboptimal fine-tuning efficiency. To overcome these limitations, we introduce the Global-Local Interaction Adapter (GLIA), a novel framework that effectively harnesses pre-trained Vision Transformers through a dual-stream feature extraction mechanism coupled with interactive global-local fusion. By jointly retaining global semantic information and fine-grained local details, our approach delivers superior prediction accuracy and robustness while requiring significantly fewer trainable parameters. Extensive experiments on multiple benchmarks validate the effectiveness and superiority of our approach.
- Abstract(参考訳): ブラインド画像品質評価(BIQA)の分野では、自然環境に存在する多様で複雑な歪みのため、聴覚的に歪んだ画像の知覚的品質を正確に予測するのは難しい。
既存の手法は顕著な精度を達成したが、そのスケーラビリティは、高コストの主観的アノテーションと利用可能なデータセットの制限によって制約されることが多い。
大規模事前学習型視覚モデルの最近の進歩は、強力な意味論と表現能力を導入しているが、IQAタスクへの応用は、かなりの計算要求と準最適微調整効率によって妨げられている。
これらの制限を克服するために,対話型グローバル局所融合と結合したデュアルストリーム特徴抽出機構を通じて,事前学習型視覚変換器を効果的に活用する新しいフレームワークであるGlobal-Local Interaction Adapter (GLIA)を導入する。
グローバルな意味情報ときめ細かな局所的詳細を共同で保持することにより、トレーニング可能なパラメータを著しく少なくしながら、予測精度と堅牢性を向上する。
複数のベンチマークに関する大規模な実験は、我々のアプローチの有効性と優位性を検証する。
関連論文リスト
- Continual Action Quality Assessment via Adaptive Manifold-Aligned Graph Regularization [53.82400605816587]
アクション品質アセスメント(AQA)は、ビデオにおける人間の行動を定量化し、スポーツスコアリング、リハビリテーション、スキル評価の応用を支援する。
大きな課題は、現実世界のシナリオにおける品質分布の非定常的な性質にある。
本稿では,進化する分布を扱うための連続学習機能を備えた連続AQA(Continuous AQA)を紹介する。
論文 参考訳(メタデータ) (2025-10-08T10:09:47Z) - Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models [63.69856480318313]
AGILEは、対話的なプロセスとしてジグソー解決を定式化し、モデルが環境に徐々に関与できるようにする。
我々は AGILE がジグソータスクの性能を大幅に向上させることを示す。
また、9つの一般的な視覚タスクに対して強力な一般化を示し、平均3.1%の改善を実現した。
論文 参考訳(メタデータ) (2025-10-01T17:58:05Z) - Emulating Human-like Adaptive Vision for Efficient and Flexible Machine Visual Perception [93.20637973889434]
本稿では、"パッシブ"から"アクティブ"ビジョンモデルへのパラダイムシフトを促進するための一般的なフレームワークであるAdaptiveNNを紹介する。
AdaptiveNNは、視覚知覚を粗い連続的な意思決定プロセスとして定式化する。
アダプティブNNは、大規模な視覚認識、きめ細かい識別、視覚検索、実際の運転と医療シナリオからの画像処理を含む、9つのタスクにまたがる17のベンチマークで評価する。
論文 参考訳(メタデータ) (2025-09-18T18:25:43Z) - DEFNet: Multitasks-based Deep Evidential Fusion Network for Blind Image Quality Assessment [5.517243185525322]
ブラインド画像品質評価(BIQA)手法は、しばしば性能向上のために補助的なタスクを組み込む。
本稿では,BIQAのためのマルチタスクに基づくディープ・エビデンシャル・フュージョン・ネットワーク(DEFNet)を提案する。
論文 参考訳(メタデータ) (2025-07-25T16:36:45Z) - Towards Efficient and General-Purpose Few-Shot Misclassification Detection for Vision-Language Models [25.51735861729728]
現代のニューラルネットワークは、誤って分類された予測に対して過度に自信を示し、エラーを検出するための信頼度推定の必要性を強調している。
我々は、テキスト情報を利用した視覚言語モデル(VLM)を利用して、効率的で汎用的な誤分類検出フレームワークを確立する。
VLMのパワーを活用することで、MisDのためのFew-Shotプロンプト学習フレームワークであるFSMisDを構築し、スクラッチからトレーニングを控え、チューニング効率を向上させる。
論文 参考訳(メタデータ) (2025-03-26T12:31:04Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Local Distortion Aware Efficient Transformer Adaptation for Image
Quality Assessment [62.074473976962835]
局所歪み特性を適切に注入することにより、IQAタスクにおいて、より大きな事前訓練および固定された基礎モデルがより優れた性能を発揮することを示す。
具体的には、局所歪み構造と視覚変換器(ViT)の誘導バイアスの欠如に対して、別の事前学習畳み込みニューラルネットワーク(CNN)を用いる。
本研究では, 予め訓練したCNNから局所歪み特徴を得るための局所歪み抽出器と, 局所歪み特徴をViTに注入する局所歪み注入器を提案する。
論文 参考訳(メタデータ) (2023-08-23T08:41:21Z) - Surface EMG-Based Inter-Session/Inter-Subject Gesture Recognition by
Leveraging Lightweight All-ConvNet and Transfer Learning [17.535392299244066]
低解像度の瞬時HD-sEMG画像を用いたジェスチャー認識は、より流動的で自然な筋肉-コンピュータインターフェースを開発するための新たな道を開く。
セッション間とオブジェクト間シナリオ間のデータのばらつきは、大きな課題を示します。
既存のアプローチでは、非常に大きく複雑なConvNetまたは2SRNNベースのドメイン適応手法を使用して、これらのセッション間およびオブジェクト間データのばらつきに起因する分散シフトを近似した。
我々は、軽量なAll-ConvNetとTransfer Learning(TL)を利用した、セッション間およびオブジェクト間ジェスチャー認識の強化のための軽量All-ConvNet+TLモデルを提案する。
論文 参考訳(メタデータ) (2023-05-13T21:47:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。