論文の概要: A Fine-Grained Image Description Generation Method Based on Joint
Objectives
- arxiv url: http://arxiv.org/abs/2311.12799v1
- Date: Sat, 2 Sep 2023 03:22:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 15:59:48.242808
- Title: A Fine-Grained Image Description Generation Method Based on Joint
Objectives
- Title(参考訳): 関節対象物に基づく微細粒度画像記述生成法
- Authors: Yifan Zhang and Chunzhen Lin and Donglin Cao and Dazhen Lin
- Abstract要約: 本稿では, 共同目的物に基づく微細な画像記述生成モデルを提案する。
我々は、記述繰り返しと省略を扱う際のモデルの性能をより直感的に評価するために、新しいオブジェクトベースの評価指標を導入する。
実験の結果,提案手法はCIDErの評価基準を大幅に改善することが示された。
- 参考スコア(独自算出の注目度): 7.565093400979752
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of fine-grained image description generation techniques is to learn
detailed information from images and simulate human-like descriptions that
provide coherent and comprehensive textual details about the image content.
Currently, most of these methods face two main challenges: description
repetition and omission. Moreover, the existing evaluation metrics cannot
clearly reflect the performance of models on these two issues. To address these
challenges, we propose an innovative Fine-grained Image Description Generation
model based on Joint Objectives. Furthermore, we introduce new object-based
evaluation metrics to more intuitively assess the model's performance in
handling description repetition and omission. This novel approach combines
visual features at both the image level and object level to maximize their
advantages and incorporates an object penalty mechanism to reduce description
repetition. Experimental results demonstrate that our proposed method
significantly improves the CIDEr evaluation metric, indicating its excellent
performance in addressing description repetition and omission issues.
- Abstract(参考訳): 細粒度画像記述生成技術の目的は、画像から詳細な情報を学習し、画像内容に関するコヒーレントで包括的なテキスト的詳細を提供する人間的な記述をシミュレートすることである。
現在、これらの手法のほとんどは、説明の繰り返しと省略の2つの主な課題に直面している。
さらに、既存の評価指標は、これらの2つの問題におけるモデルの性能をはっきりと反映できない。
これらの課題に対処するため,我々は,共同目的に基づく微細な画像記述生成モデルを提案する。
さらに、記述繰り返しや省略処理において、モデルの性能をより直感的に評価するための新しいオブジェクトベース評価指標を導入する。
この新しいアプローチは、画像レベルとオブジェクトレベルの両方の視覚的特徴を組み合わせて、その利点を最大化し、記述の繰り返しを減らすためにオブジェクトペナルティメカニズムを組み込む。
実験の結果,提案手法はcider評価指標を著しく改善し,記述反復や欠落問題に対処する上で優れた性能を示すことがわかった。
関連論文リスト
- Generalizable Single-view Object Pose Estimation by Two-side Generating and Matching [19.730504197461144]
本稿では,RGB画像のみを用いてオブジェクトのポーズを決定するために,新しい一般化可能なオブジェクトポーズ推定手法を提案する。
本手法は,オブジェクトの参照画像1枚で操作し,3次元オブジェクトモデルやオブジェクトの複数ビューの必要性を解消する。
論文 参考訳(メタデータ) (2024-11-24T14:31:50Z) - A Survey on All-in-One Image Restoration: Taxonomy, Evaluation and Future Trends [67.43992456058541]
画像復元(IR)とは、ノイズ、ぼかし、気象効果などの劣化を除去しながら、画像の視覚的品質を改善する過程である。
従来のIR手法は、一般的に特定の種類の劣化をターゲットとしており、複雑な歪みを伴う現実のシナリオにおいて、その効果を制限している。
オールインワン画像復元(AiOIR)パラダイムが登場し、複数の劣化タイプに順応的に対処する統一されたフレームワークを提供する。
論文 参考訳(メタデータ) (2024-10-19T11:11:09Z) - Beyond Thumbs Up/Down: Untangling Challenges of Fine-Grained Feedback for Text-to-Image Generation [67.88747330066049]
きめ細かいフィードバックは、画像の品質と迅速な調整におけるニュアンスドの区別を捉えます。
粗いフィードバックに対する優位性を示すことは、自動ではないことを示す。
きめ細かいフィードバックを抽出し活用する上で重要な課題を特定します。
論文 参考訳(メタデータ) (2024-06-24T17:19:34Z) - Six-CD: Benchmarking Concept Removals for Benign Text-to-image Diffusion Models [58.74606272936636]
テキスト・ツー・イメージ(T2I)拡散モデルは、テキスト・プロンプトと密接に対応した画像を生成する際、例外的な機能を示す。
モデルは、暴力やヌードの画像を生成したり、不適切な文脈で公共の人物の無許可の肖像画を作成するなど、悪意ある目的のために利用することができる。
悪質な概念や望ましくない概念の発生を防ぐために拡散モデルを変更する概念除去法が提案されている。
論文 参考訳(メタデータ) (2024-06-21T03:58:44Z) - Inpainting the Gaps: A Novel Framework for Evaluating Explanation Methods in Vision Transformers [10.97134072427802]
本研究では,textbfInpainting the Gaps (InG) と呼ばれる新しい評価フレームワークを提案する。
InGはPartImageNetデータセットに適用され、ビジョントランスフォーマー(ViT)の3つのトレーニング戦略に対する一般的な説明手法の性能を評価する。
我々の知る限りでは、InGはViT説明法の評価のための最初の半合成フレームワークである。
論文 参考訳(メタデータ) (2024-06-17T13:37:35Z) - Information Theoretic Text-to-Image Alignment [49.396917351264655]
本稿では,ステア画像生成のための情報理論アライメント尺度を用いた新しい手法を提案する。
提案手法は最先端の手法よりも優れているが,MIを推定するためには事前学習されたデノナイジングネットワークを必要としない。
論文 参考訳(メタデータ) (2024-05-31T12:20:02Z) - Confidence-aware Reward Optimization for Fine-tuning Text-to-Image Models [85.96013373385057]
人間のフィードバックデータに基づいて訓練された報酬関数を持つ微調整テキスト・ツー・イメージモデルは、モデル行動と人間の意図との整合性を実証した。
しかし、そのような報酬モデルによる過度な最適化は、単にプロキシの目的として機能し、微調整されたモデルの性能を損なう可能性がある。
本研究では,テキストプロンプトの集合に対して推定された報酬モデル信頼度に基づいてアライメントを強化する手法であるTextNormを提案する。
論文 参考訳(メタデータ) (2024-04-02T11:40:38Z) - QUASAR: QUality and Aesthetics Scoring with Advanced Representations [20.194917729936357]
本稿では,画像品質と美学評価のための新しいデータ駆動非パラメトリック手法を提案する。
データに効率的な画像アンカーを提案することで、表現力のあるテキスト埋め込みの必要性を解消する。
論文 参考訳(メタデータ) (2024-03-11T16:21:50Z) - A Visual Navigation Perspective for Category-Level Object Pose
Estimation [41.60364392204057]
本稿では,単一の単眼画像に基づくカテゴリレベルのオブジェクトポーズ推定について検討する。
ポーズ認識生成モデルの最近の進歩は、分析バイシンセシスを用いてこの課題に対処する方法を舗装している。
論文 参考訳(メタデータ) (2022-03-25T10:57:37Z) - STEEX: Steering Counterfactual Explanations with Semantics [28.771471624014065]
ディープラーニングモデルは、安全クリティカルなアプリケーションでますます使われています。
低解像度の顔画像のような単純な画像では、視覚的対実的な説明が最近提案されている。
本稿では, 可塑性, スパースな修正を生み出す, 新たな生成的対実的説明フレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-17T13:20:29Z) - Revisiting The Evaluation of Class Activation Mapping for
Explainability: A Novel Metric and Experimental Analysis [54.94682858474711]
クラスアクティベーションマッピング(cam)アプローチは、アクティベーションマップの平均を重み付けすることで、効果的な可視化を提供する。
説明マップを定量化するための新しいメトリクスセットを提案し、より効果的な方法を示し、アプローチ間の比較を簡素化します。
論文 参考訳(メタデータ) (2021-04-20T21:34:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。