論文の概要: ReFrame: Rectification Framework for Image Explaining Architectures
- arxiv url: http://arxiv.org/abs/2506.18272v1
- Date: Mon, 23 Jun 2025 03:58:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.844474
- Title: ReFrame: Rectification Framework for Image Explaining Architectures
- Title(参考訳): ReFrame: イメージ記述型アーキテクチャのための宣言フレームワーク
- Authors: Debjyoti Das Adhikary, Aritra Hazra, Partha Pratim Chakrabarti,
- Abstract要約: 画像説明中に認識される物体の不整合や不完全性を緩和する新しい手法を提案する。
本稿では,画像キャプチャ,視覚質問回答(VQA),PromptベースのAIなど,さまざまな画像説明フレームワーク上にプラグイン可能な解釈可能なフレームワークを提案する。
補正された説明の有効性を測定し,画像説明の不整合性および完全性の向上を示す。
- 参考スコア(独自算出の注目度): 2.9767565026354195
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Image explanation has been one of the key research interests in the Deep Learning field. Throughout the years, several approaches have been adopted to explain an input image fed by the user. From detecting an object in a given image to explaining it in human understandable sentence, to having a conversation describing the image, this problem has seen an immense change throughout the years, However, the existing works have been often found to (a) hallucinate objects that do not exist in the image and/or (b) lack identifying the complete set of objects present in the image. In this paper, we propose a novel approach to mitigate these drawbacks of inconsistency and incompleteness of the objects recognized during the image explanation. To enable this, we propose an interpretable framework that can be plugged atop diverse image explaining frameworks including Image Captioning, Visual Question Answering (VQA) and Prompt-based AI using LLMs, thereby enhancing their explanation capabilities by rectifying the incorrect or missing objects. We further measure the efficacy of the rectified explanations generated through our proposed approaches leveraging object based precision metrics, and showcase the improvements in the inconsistency and completeness of image explanations. Quantitatively, the proposed framework is able to improve the explanations over the baseline architectures of Image Captioning (improving the completeness by 81.81% and inconsistency by 37.10%), Visual Question Answering(average of 9.6% and 37.10% in completeness and inconsistency respectively) and Prompt-based AI model (0.01% and 5.2% for completeness and inconsistency respectively) surpassing the current state-of-the-art by a substantial margin.
- Abstract(参考訳): 画像説明はディープラーニング分野における重要な研究の1つだ。
長年にわたり、ユーザから入力された画像を説明するために、いくつかのアプローチが採用されてきた。
画像中の物体を検出すること、人間の理解可能な文章で説明すること、画像を記述する会話を行うことなど、この問題は長年にわたって大きな変化を遂げてきたが、既存の作品はしばしば発見されている。
(a)画像及び/又は画像に存在しない幻覚物
b) 画像に存在するオブジェクトの完全な集合を特定していないこと。
本稿では,画像説明中に認識される物体の不整合や不完全性を緩和する新しい手法を提案する。
これを実現するために,LLMを用いた画像キャプチャ,視覚質問回答(VQA),PromptベースのAIなど,さまざまな画像説明フレームワーク上にプラグイン可能な解釈可能なフレームワークを提案する。
提案手法により得られた補正説明の有効性をさらに測定し,画像説明の不整合性および完全性の向上を実証する。
定量的に、提案されたフレームワークは、イメージキャプションのベースラインアーキテクチャ(完全性を81.81%向上し、非一貫性を37.10%向上させる)、ビジュアル質問回答(平均9.6%と37.10%の完全性と不整合性)、PromptベースのAIモデル(それぞれ0.01%と5.2%の完全性と不整合性)に関する説明を改善することができる。
関連論文リスト
- ExIQA: Explainable Image Quality Assessment Using Distortion Attributes [0.3683202928838613]
本稿では属性学習に基づく歪み同定のための説明可能なアプローチを提案する。
効率的なトレーニングのために,10万の画像からなるデータセットを生成する。
提案手法はPLCCとSRCCの両方で複数のデータセットにまたがるSOTA(State-of-the-art)性能を実現する。
論文 参考訳(メタデータ) (2024-09-10T20:28:14Z) - DaLPSR: Leverage Degradation-Aligned Language Prompt for Real-World Image Super-Resolution [19.33582308829547]
本稿では, 精度, 精細度, 高忠実度画像復元のために, 劣化対応言語プロンプトを活用することを提案する。
提案手法は,新しい最先端の知覚品質レベルを実現する。
論文 参考訳(メタデータ) (2024-06-24T09:30:36Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Dynamic Visual Semantic Sub-Embeddings and Fast Re-Ranking [0.5242869847419834]
情報エントロピーを低減するために動的ビジュアルセマンティックサブエンベッドディングフレームワーク(DVSE)を提案する。
生成した候補埋め込みに様々な意味的変動を捉えるよう促すため,混合分布を構築した。
3つのベンチマークデータセット上の4つの画像特徴エンコーダと2つのテキスト特徴エンコーダを用いて,既存のセットベース手法と比較した。
論文 参考訳(メタデータ) (2023-09-15T04:39:11Z) - Introspective Deep Metric Learning [91.47907685364036]
本稿では,不確実性を考慮した画像比較のためのイントロスペクティブな深度学習フレームワークを提案する。
提案するIDMLフレームワークは,不確実性モデリングによるディープメトリック学習の性能を向上させる。
論文 参考訳(メタデータ) (2023-09-11T16:21:13Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - STEEX: Steering Counterfactual Explanations with Semantics [28.771471624014065]
ディープラーニングモデルは、安全クリティカルなアプリケーションでますます使われています。
低解像度の顔画像のような単純な画像では、視覚的対実的な説明が最近提案されている。
本稿では, 可塑性, スパースな修正を生み出す, 新たな生成的対実的説明フレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-17T13:20:29Z) - Explainers in the Wild: Making Surrogate Explainers Robust to
Distortions through Perception [77.34726150561087]
説明における歪みの影響を知覚距離を埋め込むことで評価する手法を提案する。
Imagenet-Cデータセットの画像の説明を生成し、サロゲート説明書の知覚距離を使用して歪んだ画像と参照画像のより一貫性のある説明を作成する方法を示しています。
論文 参考訳(メタデータ) (2021-02-22T12:38:53Z) - ORD: Object Relationship Discovery for Visual Dialogue Generation [60.471670447176656]
視覚対話生成のためのオブジェクトインタラクションを保存するためのオブジェクト関係探索(ORD)フレームワークを提案する。
階層的なグラフ畳み込みネットワーク (HierGCN) が提案され、オブジェクトノードと近傍の関係を局所的に保持し、オブジェクトとオブジェクトの接続をグローバルに洗練する。
実験により,視覚的関係の文脈情報を活用することにより,対話の質を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2020-06-15T12:25:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。