論文の概要: Evaluating Remote Sensing Image Captions Beyond Metric Biases
- arxiv url: http://arxiv.org/abs/2604.22855v1
- Date: Wed, 22 Apr 2026 12:28:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:06.997393
- Title: Evaluating Remote Sensing Image Captions Beyond Metric Biases
- Title(参考訳): Metric Biasesを超えるリモートセンシング画像キャプションの評価
- Authors: Ziyun Chen, Fan Liu, Liang Yao, Chuanyi Zhang, Yuye Ma, Wei Zhou,
- Abstract要約: 本稿では,レファレンスフリー評価指標ReconScoreを紹介する。
我々はReconScoreを使ってキャプションの品質を評価し、生成したテキストからのみオリジナルのビジュアル要素を再構築する。
ReconScoreを自己補正機構として利用することにより、計算微調整のオーバーヘッドを伴わずにMLLM出力のセマンティック精度を反復的に改善する。
- 参考スコア(独自算出の注目度): 20.77920438007019
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The core objective of image captioning is to achieve lossless semantic compression from visual signals into textual modalities. However, the reliance on manually curated reference texts for evaluation essentially forces models to mimic specific human annotation styles, thereby masking the true descriptive capabilities of advanced foundation models. This systemic misalignment prompts a critical question: Is task-specific fine-tuning truly necessary for Remote Sensing Image Captioning, or is the perceived performance gap merely an artifact of flawed evaluation criteria? To investigate this discrepancy, we propose ReconScore, a novel reference-free evaluation metric. Rather than computing textual similarities, we assess caption quality by its capability to reconstruct the original visual elements solely from the generated text, effectively neutralizing human annotation biases. Applying this metric, we uncover a profound, counterintuitive truth: inherently powerful, unfine-tuned MLLMs surpass their fine-tuned counterparts in authentic zero-shot RSIC tasks. Driven by this structural discovery, we introduce RemoteDescriber, a completely training-free generation methodology. By employing ReconScore as a self-correction mechanism, we iteratively refine the semantic precision of MLLM outputs without any computational fine-tuning overhead. Comprehensive experiments demonstrate that RemoteDescriber achieves state-of-the-art performance on three datasets. Furthermore, we validate ReconScore's reliability and analyze the flaws of traditional metrics. Our code is available at https://github.com/hhu-czy/RemoteDescriber.
- Abstract(参考訳): 画像キャプションの主目的は、視覚信号からテキストモダリティへの無意味なセマンティック圧縮を実現することである。
しかし、評価のための手作業による基準テキストへの依存は、基本的にはモデルに特定の人間のアノテーションスタイルを模倣させ、高度な基礎モデルの真の記述能力を隠蔽する。
リモートセンシング画像キャプチャにはタスク固有の微調整が本当に必要か、それとも、認識されるパフォーマンスギャップは単なる欠陥評価基準の成果物なのか?
そこで本研究では,新しい基準フリー評価指標ReconScoreを提案する。
テキストの類似性を計算するのではなく、生成したテキストのみからオリジナルの視覚要素を再構築し、人間のアノテーションバイアスを効果的に中和する能力によってキャプション品質を評価する。
本質的に強力で、微調整されていないMLLMは、真にゼロショットのRSICタスクにおいて、細調整されたタスクを超越している。
この構造発見によって、完全にトレーニング不要な生成手法であるRemoteDescriberを導入する。
ReconScoreを自己補正機構として利用することにより、計算微調整のオーバーヘッドを伴わずにMLLM出力のセマンティック精度を反復的に改善する。
総合的な実験により、RemoteDescriberは3つのデータセットで最先端のパフォーマンスを達成する。
さらに、ReconScoreの信頼性を評価し、従来のメトリクスの欠陥を分析します。
私たちのコードはhttps://github.com/hhu-czy/RemoteDescriber.comで利用可能です。
関連論文リスト
- Q-DeepSight: Incentivizing Thinking with Images for Image Quality Assessment and Refinement [58.15004031934379]
我々は、この人間のようなプロセスをエミュレートする思考とイメージのフレームワークであるQ-DeepSightを提案する。
Q-DeepSightは、自然、復元、AI生成コンテンツなど、さまざまなベンチマークで最先端のパフォーマンスを実現している。
本稿では,Q-DeepSight の診断が反復画像強調を導くトレーニングフリーフレームワークであるPerceptual-in-Generation (PiG) を用いて,その実用的価値を示す。
論文 参考訳(メタデータ) (2026-04-18T06:10:57Z) - PoSh: Using Scene Graphs To Guide LLMs-as-a-Judge For Detailed Image Descriptions [55.95282725491425]
PoShは、LLMs-as-a-Judgeをガイドするために、シーングラフを構造化ルーリックとして使用する詳細な画像記述のメトリクスである。
PoShはレプリカ可能で、解釈可能で、既存のメトリクスよりも人間のレーダのプロキシが優れている。
我々は,オープンウェイトな選択肢よりも,DOCENTにおける人間の判断とPoShの相関が強いことを示す。
論文 参考訳(メタデータ) (2025-10-21T20:30:20Z) - TokBench: Evaluating Your Visual Tokenizer before Visual Generation [75.38270351179018]
さまざまな画像トークンやVAEに対して,テキストと顔の復元品質をさまざまな尺度で分析する。
以上の結果から, 現代の視覚トークン化器は, 特に小規模では, 細粒度保存に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2025-05-23T17:52:16Z) - Extract Free Dense Misalignment from CLIP [7.0247398611254175]
この研究はCLIP4DMと呼ばれる新しいアプローチを提案する。
我々は、個々のテキストトークンの負の勾配を誤適応を示すために、勾配に基づく属性計算法を改良する。
提案手法は,ゼロショットモデル間の最先端性能と微調整モデルとの競合性能を示す。
論文 参考訳(メタデータ) (2024-12-24T12:51:05Z) - BRIDGE: Bridging Gaps in Image Captioning Evaluation with Stronger Visual Cues [47.213906345208315]
本稿では,新たな学習可能かつ参照不要な画像キャプション指標BRIDGEを提案する。
提案手法は,既存の基準フリー評価スコアと比較して,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-07-29T18:00:17Z) - Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - DisCLIP: Open-Vocabulary Referring Expression Generation [37.789850573203694]
大規模ビジュアル・セマンティック・モデルであるCLIPを用いてLCMを誘導し、画像中のターゲット概念の文脈記述を生成する。
本研究では、シーン内の記述対象を正確に識別する受信機モデルの能力を評価することにより、生成されたテキストの品質を測定する。
本結果は,事前学習した視覚意味論モデルを用いて,高品質な文脈記述を生成する可能性を強調した。
論文 参考訳(メタデータ) (2023-05-30T15:13:17Z) - Evaluating Factual Consistency of Texts with Semantic Role Labeling [3.1776833268555134]
本稿では,テキスト要約を念頭に設計した参照不要評価指標SRLScoreを紹介する。
最終事実度スコアは、調整可能なスコアリング機構により算出される。
英語の要約データセットにおける人間の判断との相関は、SRLScoreが最先端の手法と競合していることを示している。
論文 参考訳(メタデータ) (2023-05-22T17:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。