論文の概要: A Fine-Grained Image Description Generation Method Based on Joint
Objectives
- arxiv url: http://arxiv.org/abs/2311.12799v1
- Date: Sat, 2 Sep 2023 03:22:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 15:59:48.242808
- Title: A Fine-Grained Image Description Generation Method Based on Joint
Objectives
- Title(参考訳): 関節対象物に基づく微細粒度画像記述生成法
- Authors: Yifan Zhang and Chunzhen Lin and Donglin Cao and Dazhen Lin
- Abstract要約: 本稿では, 共同目的物に基づく微細な画像記述生成モデルを提案する。
我々は、記述繰り返しと省略を扱う際のモデルの性能をより直感的に評価するために、新しいオブジェクトベースの評価指標を導入する。
実験の結果,提案手法はCIDErの評価基準を大幅に改善することが示された。
- 参考スコア(独自算出の注目度): 7.565093400979752
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of fine-grained image description generation techniques is to learn
detailed information from images and simulate human-like descriptions that
provide coherent and comprehensive textual details about the image content.
Currently, most of these methods face two main challenges: description
repetition and omission. Moreover, the existing evaluation metrics cannot
clearly reflect the performance of models on these two issues. To address these
challenges, we propose an innovative Fine-grained Image Description Generation
model based on Joint Objectives. Furthermore, we introduce new object-based
evaluation metrics to more intuitively assess the model's performance in
handling description repetition and omission. This novel approach combines
visual features at both the image level and object level to maximize their
advantages and incorporates an object penalty mechanism to reduce description
repetition. Experimental results demonstrate that our proposed method
significantly improves the CIDEr evaluation metric, indicating its excellent
performance in addressing description repetition and omission issues.
- Abstract(参考訳): 細粒度画像記述生成技術の目的は、画像から詳細な情報を学習し、画像内容に関するコヒーレントで包括的なテキスト的詳細を提供する人間的な記述をシミュレートすることである。
現在、これらの手法のほとんどは、説明の繰り返しと省略の2つの主な課題に直面している。
さらに、既存の評価指標は、これらの2つの問題におけるモデルの性能をはっきりと反映できない。
これらの課題に対処するため,我々は,共同目的に基づく微細な画像記述生成モデルを提案する。
さらに、記述繰り返しや省略処理において、モデルの性能をより直感的に評価するための新しいオブジェクトベース評価指標を導入する。
この新しいアプローチは、画像レベルとオブジェクトレベルの両方の視覚的特徴を組み合わせて、その利点を最大化し、記述の繰り返しを減らすためにオブジェクトペナルティメカニズムを組み込む。
実験の結果,提案手法はcider評価指標を著しく改善し,記述反復や欠落問題に対処する上で優れた性能を示すことがわかった。
関連論文リスト
- QUASAR: QUality and Aesthetics Scoring with Advanced Representations [22.06149682695759]
本稿では,画像品質と美学評価のための新しいデータ駆動非パラメトリック手法を提案する。
データに効率的な画像アンカーを提案することで、表現力のあるテキスト埋め込みの必要性を解消する。
論文 参考訳(メタデータ) (2024-03-11T16:21:50Z) - Diffusion Model Based Visual Compensation Guidance and Visual Difference
Analysis for No-Reference Image Quality Assessment [82.13830107682232]
本稿では, 複雑な関係をモデル化する能力を示す, 最先端(SOTA)生成モデルを提案する。
生成した拡張画像とノイズを含む画像を利用する新しい拡散復元ネットワークを考案する。
2つの視覚評価枝は、得られた高レベル特徴情報を包括的に解析するように設計されている。
論文 参考訳(メタデータ) (2024-02-22T09:39:46Z) - Anomaly Score: Evaluating Generative Models and Individual Generated
Images based on Complexity and Vulnerability [24.00142413503534]
生成した画像の表現空間と入力空間の関係について検討する。
異常スコア(AS)と呼ばれる画像生成モデルを評価するための新しい指標を提案する。
論文 参考訳(メタデータ) (2023-12-17T07:33:06Z) - Separate-and-Enhance: Compositional Finetuning for Text2Image Diffusion
Models [58.46926334842161]
この研究は、注意力の低いアクティベーションスコアとマスクオーバーラップに関連する問題を指摘し、このような不一致の根本的な理由を照らしている。
本稿では,物体マスクの重なりを低減し,注目度を最大化する2つの新しい目的,分離損失とエンハンス損失を提案する。
提案手法は従来のテスト時間適応手法と異なり,拡張性と一般化性を高める重要なパラメータの微調整に重点を置いている。
論文 参考訳(メタデータ) (2023-12-10T22:07:42Z) - DisCLIP: Open-Vocabulary Referring Expression Generation [37.789850573203694]
大規模ビジュアル・セマンティック・モデルであるCLIPを用いてLCMを誘導し、画像中のターゲット概念の文脈記述を生成する。
本研究では、シーン内の記述対象を正確に識別する受信機モデルの能力を評価することにより、生成されたテキストの品質を測定する。
本結果は,事前学習した視覚意味論モデルを用いて,高品質な文脈記述を生成する可能性を強調した。
論文 参考訳(メタデータ) (2023-05-30T15:13:17Z) - A Visual Navigation Perspective for Category-Level Object Pose
Estimation [41.60364392204057]
本稿では,単一の単眼画像に基づくカテゴリレベルのオブジェクトポーズ推定について検討する。
ポーズ認識生成モデルの最近の進歩は、分析バイシンセシスを用いてこの課題に対処する方法を舗装している。
論文 参考訳(メタデータ) (2022-03-25T10:57:37Z) - STEEX: Steering Counterfactual Explanations with Semantics [28.771471624014065]
ディープラーニングモデルは、安全クリティカルなアプリケーションでますます使われています。
低解像度の顔画像のような単純な画像では、視覚的対実的な説明が最近提案されている。
本稿では, 可塑性, スパースな修正を生み出す, 新たな生成的対実的説明フレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-17T13:20:29Z) - Image Quality Assessment in the Modern Age [53.19271326110551]
本チュートリアルは、画像品質評価(IQA)の基礎的理論、方法論、現状の進歩を聴衆に提供する。
まず,視覚刺激を適切に選択する方法に着目し,主観的品質評価手法を再考する。
手書きのエンジニアリングと(深い)学習ベースの手法の両方をカバーします。
論文 参考訳(メタデータ) (2021-10-19T02:38:46Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - Revisiting The Evaluation of Class Activation Mapping for
Explainability: A Novel Metric and Experimental Analysis [54.94682858474711]
クラスアクティベーションマッピング(cam)アプローチは、アクティベーションマップの平均を重み付けすることで、効果的な可視化を提供する。
説明マップを定量化するための新しいメトリクスセットを提案し、より効果的な方法を示し、アプローチ間の比較を簡素化します。
論文 参考訳(メタデータ) (2021-04-20T21:34:24Z) - Captioning Images with Novel Objects via Online Vocabulary Expansion [62.525165808406626]
新規なオブジェクトを含む画像から記述を生成するための低コストな手法を提案する。
本稿では,少数の画像特徴量から推定したオブジェクトの単語埋め込みを用いて,新たなオブジェクトで画像を説明する手法を提案する。
論文 参考訳(メタデータ) (2020-03-06T16:34:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。