論文の概要: Understanding Pure Textual Reasoning for Blind Image Quality Assessment
- arxiv url: http://arxiv.org/abs/2601.02441v1
- Date: Mon, 05 Jan 2026 11:43:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.672825
- Title: Understanding Pure Textual Reasoning for Blind Image Quality Assessment
- Title(参考訳): ブラインド画像品質評価のための純粋テキスト推論の理解
- Authors: Yuan Li, Shin'ya Nishida,
- Abstract要約: ブラインド画像品質評価(BIQA)においてテキスト推論が広く採用されている
テキスト情報がどのように品質予測に寄与するか、また、スコア関連画像の内容がどの程度の程度で表現できるかは、まだ不明である。
- 参考スコア(独自算出の注目度): 4.971551895830219
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Textual reasoning has recently been widely adopted in Blind Image Quality Assessment (BIQA). However, it remains unclear how textual information contributes to quality prediction and to what extent text can represent the score-related image contents. This work addresses these questions from an information-flow perspective by comparing existing BIQA models with three paradigms designed to learn the image-text-score relationship: Chain-of-Thought, Self-Consistency, and Autoencoder. Our experiments show that the score prediction performance of the existing model significantly drops when only textual information is used for prediction. Whereas the Chain-of-Thought paradigm introduces little improvement in BIQA performance, the Self-Consistency paradigm significantly reduces the gap between image- and text-conditioned predictions, narrowing the PLCC/SRCC difference to 0.02/0.03. The Autoencoder-like paradigm is less effective in closing the image-text gap, yet it reveals a direction for further optimization. These findings provide insights into how to improve the textual reasoning for BIQA and high-level vision tasks.
- Abstract(参考訳): テキスト推論はBlind Image Quality Assessment (BIQA)で広く採用されている。
しかし,テキスト情報がどのように品質予測に寄与するか,スコア関連画像の内容がどの程度の程度で表現できるかは明らかになっていない。
この研究は、既存のBIQAモデルと画像-テキスト-スコア関係(Chain-of-Thought、Self-Consistency、Autoencoder)を学ぶために設計された3つのパラダイムを比較することで、情報フローの観点からこれらの疑問に対処する。
実験の結果,既存モデルのスコア予測性能は,テキスト情報のみを用いて予測を行うと著しく低下することがわかった。
Chain-of-ThoughtパラダイムはBIQA性能をほとんど改善しないが、Self-Consistencyパラダイムは画像とテキスト条件による予測のギャップを大幅に減らし、PLCC/SRCCの差を0.02/0.03に縮める。
オートエンコーダのようなパラダイムは、画像とテキストのギャップを埋めるには効果が低いが、さらなる最適化の方向性を明らかにしている。
これらの知見は,BIQAと高レベル視覚タスクのテキスト推論を改善するための洞察を与える。
関連論文リスト
- Building Reasonable Inference for Vision-Language Models in Blind Image Quality Assessment [7.969076042774561]
我々は、矛盾する評価と不安定を引き起こす要因を分析する。
本稿では,視覚知覚を品質推定から明確に分離する2段階チューニング手法を提案する。
論文 参考訳(メタデータ) (2025-12-10T11:50:42Z) - Q-Insight: Understanding Image Quality via Visual Reinforcement Learning [27.26829134776367]
画像品質評価(IQA)は、画像の知覚的視覚的品質に焦点を当て、画像再構成、圧縮、生成などの下流タスクにおいて重要な役割を果たす。
グループ相対ポリシー最適化(GRPO)に基づく強化学習に基づくモデルQ-Insightを提案する。
評価結果から,Q-Insightは,評価結果の回帰と劣化知覚の両面において,既存の最先端手法を大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2025-03-28T17:59:54Z) - Vision-Language Consistency Guided Multi-modal Prompt Learning for Blind AI Generated Image Quality Assessment [57.07360640784803]
視覚言語による多モーダル・プロンプト学習による画像品質評価(AGIQA)を提案する。
具体的には、コントラスト言語-画像事前学習(CLIP)モデルの言語と視覚の分岐に学習可能なテキストと視覚的プロンプトを導入する。
我々は、上記のマルチモーダルプロンプトの最適化を導くために、学習された視覚言語一貫性の知識を用いて、テキストから画像へのアライメント品質予測タスクを設計する。
論文 参考訳(メタデータ) (2024-06-24T13:45:31Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Simple Token-Level Confidence Improves Caption Correctness [117.33497608933169]
Token-Level Confidence(TLC)は、字幕の正確さを評価するシンプルな方法であるが、驚くほど効果的である。
画像キャプションに関する視覚言語モデルを微調整し、画像と提案されたキャプションをモデルに入力し、単語やシーケンスに対するトークンの信頼度を集計し、画像キャプションの一貫性を推定する。
論文 参考訳(メタデータ) (2023-05-11T17:58:17Z) - Blind Image Quality Assessment via Vision-Language Correspondence: A
Multitask Learning Perspective [93.56647950778357]
ブラインド画像品質評価(BIQA)は、参照情報なしで画像品質の人間の知覚を予測する。
我々は,他のタスクからの補助的知識を活用するために,BIQAのための汎用的かつ自動化されたマルチタスク学習手法を開発した。
論文 参考訳(メタデータ) (2023-03-27T07:58:09Z) - Contrastive Semantic Similarity Learning for Image Captioning Evaluation
with Intrinsic Auto-encoder [52.42057181754076]
自動エンコーダ機構とコントラスト表現学習の進歩により,画像キャプションのための学習基準を提案する。
文レベルの表現を学習するための3つのプログレッシブモデル構造を開発する。
実験結果から,提案手法は他の指標から得られるスコアとよく一致できることが示唆された。
論文 参考訳(メタデータ) (2021-06-29T12:27:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。