Fugu-MT 論文翻訳(概要): A Fine-Grained Image Description Generation Method Based on Joint Objectives

論文の概要: A Fine-Grained Image Description Generation Method Based on Joint Objectives

arxiv url: http://arxiv.org/abs/2311.12799v1
Date: Sat, 2 Sep 2023 03:22:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-15 15:59:48.242808
Title: A Fine-Grained Image Description Generation Method Based on Joint Objectives
Title（参考訳）: 関節対象物に基づく微細粒度画像記述生成法
Authors: Yifan Zhang and Chunzhen Lin and Donglin Cao and Dazhen Lin
Abstract要約: 本稿では, 共同目的物に基づく微細な画像記述生成モデルを提案する。我々は、記述繰り返しと省略を扱う際のモデルの性能をより直感的に評価するために、新しいオブジェクトベースの評価指標を導入する。実験の結果,提案手法はCIDErの評価基準を大幅に改善することが示された。
参考スコア（独自算出の注目度）: 7.565093400979752
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The goal of fine-grained image description generation techniques is to learn detailed information from images and simulate human-like descriptions that provide coherent and comprehensive textual details about the image content. Currently, most of these methods face two main challenges: description repetition and omission. Moreover, the existing evaluation metrics cannot clearly reflect the performance of models on these two issues. To address these challenges, we propose an innovative Fine-grained Image Description Generation model based on Joint Objectives. Furthermore, we introduce new object-based evaluation metrics to more intuitively assess the model's performance in handling description repetition and omission. This novel approach combines visual features at both the image level and object level to maximize their advantages and incorporates an object penalty mechanism to reduce description repetition. Experimental results demonstrate that our proposed method significantly improves the CIDEr evaluation metric, indicating its excellent performance in addressing description repetition and omission issues.
Abstract（参考訳）: 細粒度画像記述生成技術の目的は、画像から詳細な情報を学習し、画像内容に関するコヒーレントで包括的なテキスト的詳細を提供する人間的な記述をシミュレートすることである。現在、これらの手法のほとんどは、説明の繰り返しと省略の2つの主な課題に直面している。さらに、既存の評価指標は、これらの2つの問題におけるモデルの性能をはっきりと反映できない。これらの課題に対処するため,我々は,共同目的に基づく微細な画像記述生成モデルを提案する。さらに、記述繰り返しや省略処理において、モデルの性能をより直感的に評価するための新しいオブジェクトベース評価指標を導入する。この新しいアプローチは、画像レベルとオブジェクトレベルの両方の視覚的特徴を組み合わせて、その利点を最大化し、記述の繰り返しを減らすためにオブジェクトペナルティメカニズムを組み込む。実験の結果,提案手法はcider評価指標を著しく改善し,記述反復や欠落問題に対処する上で優れた性能を示すことがわかった。

関連論文リスト

From Visual Explanations to Counterfactual Explanations with Latent Diffusion [11.433402357922414]
本稿では,近年の顕著な研究における2つの課題に対処するための新しいアプローチを提案する。まず、ターゲットクラスの"概念"と元のクラスを区別するために、どの特定の反事実的特徴が重要かを決定する。第二に、非ロバスト分類器に対して、対向的に堅牢なモデルのサポートに頼ることなく、重要な説明を提供する。
論文参考訳（メタデータ） (2025-04-12T13:04:00Z)
Grounding Descriptions in Images informs Zero-Shot Visual Recognition [47.66166611138081]
我々は,表現を細かなレベルと粗いレベルの両方で同時に調整することを目的とした,新しい事前学習戦略であるGRAINを提案する。我々は,現在の最先端技術と比較して,モデルのゼロショット性能の向上を実証する。
論文参考訳（メタデータ） (2024-12-05T18:52:00Z)
Generalizable Single-view Object Pose Estimation by Two-side Generating and Matching [19.730504197461144]
本稿では,RGB画像のみを用いてオブジェクトのポーズを決定するために,新しい一般化可能なオブジェクトポーズ推定手法を提案する。本手法は,オブジェクトの参照画像1枚で操作し,3次元オブジェクトモデルやオブジェクトの複数ビューの必要性を解消する。
論文参考訳（メタデータ） (2024-11-24T14:31:50Z)
A Survey on All-in-One Image Restoration: Taxonomy, Evaluation and Future Trends [67.43992456058541]
画像復元(IR)とは、ノイズ、ぼかし、気象効果などの劣化を除去しながら、画像の視覚的品質を改善する過程である。従来のIR手法は、一般的に特定の種類の劣化をターゲットとしており、複雑な歪みを伴う現実のシナリオにおいて、その効果を制限している。オールインワン画像復元(AiOIR)パラダイムが登場し、複数の劣化タイプに順応的に対処する統一されたフレームワークを提供する。
論文参考訳（メタデータ） (2024-10-19T11:11:09Z)
Beyond Thumbs Up/Down: Untangling Challenges of Fine-Grained Feedback for Text-to-Image Generation [67.88747330066049]
きめ細かいフィードバックは、画像の品質と迅速な調整におけるニュアンスドの区別を捉えます。粗いフィードバックに対する優位性を示すことは、自動ではないことを示す。きめ細かいフィードバックを抽出し活用する上で重要な課題を特定します。
論文参考訳（メタデータ） (2024-06-24T17:19:34Z)
Six-CD: Benchmarking Concept Removals for Benign Text-to-image Diffusion Models [58.74606272936636]
テキスト・ツー・イメージ(T2I)拡散モデルは、テキスト・プロンプトと密接に対応した画像を生成する際、例外的な機能を示す。モデルは、暴力やヌードの画像を生成したり、不適切な文脈で公共の人物の無許可の肖像画を作成するなど、悪意ある目的のために利用することができる。悪質な概念や望ましくない概念の発生を防ぐために拡散モデルを変更する概念除去法が提案されている。
論文参考訳（メタデータ） (2024-06-21T03:58:44Z)
Inpainting the Gaps: A Novel Framework for Evaluating Explanation Methods in Vision Transformers [10.97134072427802]
本研究では,textbfInpainting the Gaps (InG) と呼ばれる新しい評価フレームワークを提案する。 InGはPartImageNetデータセットに適用され、ビジョントランスフォーマー(ViT)の3つのトレーニング戦略に対する一般的な説明手法の性能を評価する。我々の知る限りでは、InGはViT説明法の評価のための最初の半合成フレームワークである。
論文参考訳（メタデータ） (2024-06-17T13:37:35Z)
Information Theoretic Text-to-Image Alignment [49.396917351264655]
本稿では,ステア画像生成のための情報理論アライメント尺度を用いた新しい手法を提案する。提案手法は最先端の手法よりも優れているが,MIを推定するためには事前学習されたデノナイジングネットワークを必要としない。
論文参考訳（メタデータ） (2024-05-31T12:20:02Z)
Confidence-aware Reward Optimization for Fine-tuning Text-to-Image Models [85.96013373385057]
人間のフィードバックデータに基づいて訓練された報酬関数を持つ微調整テキスト・ツー・イメージモデルは、モデル行動と人間の意図との整合性を実証した。しかし、そのような報酬モデルによる過度な最適化は、単にプロキシの目的として機能し、微調整されたモデルの性能を損なう可能性がある。本研究では,テキストプロンプトの集合に対して推定された報酬モデル信頼度に基づいてアライメントを強化する手法であるTextNormを提案する。
論文参考訳（メタデータ） (2024-04-02T11:40:38Z)
QUASAR: QUality and Aesthetics Scoring with Advanced Representations [20.194917729936357]
本稿では,画像品質と美学評価のための新しいデータ駆動非パラメトリック手法を提案する。データに効率的な画像アンカーを提案することで、表現力のあるテキスト埋め込みの必要性を解消する。
論文参考訳（メタデータ） (2024-03-11T16:21:50Z)
DreamArtist++: Controllable One-Shot Text-to-Image Generation via Positive-Negative Adapter [63.622879199281705]
いくつかの例に基づく画像生成手法が提案されており、例えば、いくつかの入力参照の健全な特徴を吸収して新しい概念を生成する。本研究では,DreamArtistというシンプルなフレームワークを提案する。このフレームワークは,事前学習した拡散モデルに対して,新しい正負の学習戦略を採用する。我々は,画像類似性(忠実度)と多様性,生成制御性,スタイルのクローニングから,幅広い実験を行い,提案手法の評価を行った。
論文参考訳（メタデータ） (2022-11-21T10:37:56Z)
A Visual Navigation Perspective for Category-Level Object Pose Estimation [41.60364392204057]
本稿では,単一の単眼画像に基づくカテゴリレベルのオブジェクトポーズ推定について検討する。ポーズ認識生成モデルの最近の進歩は、分析バイシンセシスを用いてこの課題に対処する方法を舗装している。
論文参考訳（メタデータ） (2022-03-25T10:57:37Z)
STEEX: Steering Counterfactual Explanations with Semantics [28.771471624014065]
ディープラーニングモデルは、安全クリティカルなアプリケーションでますます使われています。低解像度の顔画像のような単純な画像では、視覚的対実的な説明が最近提案されている。本稿では, 可塑性, スパースな修正を生み出す, 新たな生成的対実的説明フレームワークを提案する。
論文参考訳（メタデータ） (2021-11-17T13:20:29Z)
Revisiting The Evaluation of Class Activation Mapping for Explainability: A Novel Metric and Experimental Analysis [54.94682858474711]
クラスアクティベーションマッピング(cam)アプローチは、アクティベーションマップの平均を重み付けすることで、効果的な可視化を提供する。説明マップを定量化するための新しいメトリクスセットを提案し、より効果的な方法を示し、アプローチ間の比較を簡素化します。
論文参考訳（メタデータ） (2021-04-20T21:34:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。