論文の概要: Evaluating Pragmatic Abilities of Image Captioners on A3DS
- arxiv url: http://arxiv.org/abs/2305.12777v1
- Date: Mon, 22 May 2023 07:15:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 17:50:25.563067
- Title: Evaluating Pragmatic Abilities of Image Captioners on A3DS
- Title(参考訳): a3ds画像キャプションの実用性評価
- Authors: Polina Tsvilodub, Michael Franke
- Abstract要約: 我々は,新しいオープンソース画像テキストデータセットAnnotated 3D Shapes (A3DS)を提案する。
マルチエージェント通信環境において,タスクニュートラル画像キャプタを微調整し,コントラストのあるキャプタを生成することにより,実用能力の評価を行う。
モデルが人間のようなパターンを発達させることを示す(特定の特徴に対するインフォーマティビティ、簡潔性、過剰なインフォーマティビティ)。
- 参考スコア(独自算出の注目度): 3.42658286826597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating grounded neural language model performance with respect to
pragmatic qualities like the trade off between truthfulness, contrastivity and
overinformativity of generated utterances remains a challenge in absence of
data collected from humans. To enable such evaluation, we present a novel open
source image-text dataset "Annotated 3D Shapes" (A3DS) comprising over nine
million exhaustive natural language annotations and over 12 million
variable-granularity captions for the 480,000 images provided by Burges & Kim
(2018). We showcase the evaluation of pragmatic abilities developed by a
task-neutral image captioner fine-tuned in a multi-agent communication setting
to produce contrastive captions. The evaluation is enabled by the dataset
because the exhaustive annotations allow to quantify the presence of
contrastive features in the model's generations. We show that the model
develops human-like patterns (informativity, brevity, over-informativity for
specific features (e.g., shape, color biases)).
- Abstract(参考訳): 人間から収集されたデータがない場合、発話の真理性、コントラスト、過剰な情報化の間のトレードオフのような実用的性質に関して、根拠付きニューラルネットワークモデルのパフォーマンスを評価することは課題である。
このような評価を可能にするために,Burges & Kim (2018) が提供した480,000の画像に対して,900万以上の徹底した自然言語アノテーションと1200万以上の可変粒度キャプションを含む,オープンソースの画像テキストデータセット "Annotated 3D Shapes" (A3DS) を提案する。
本稿では,マルチエージェント通信環境で微調整されたタスクニュートラル画像キャプションにより,コントラスト的なキャプションを生成するための実用的能力の評価を示す。
この評価は、モデル世代における対照的な特徴の存在を定量化できるため、データセットによって可能となる。
このモデルが人間に似たパターン(インフォマティビティ、簡潔さ、特定の特徴(例えば形状、色バイアス)に対する過剰なインフォマティビティ)を発達させることを示している。
関連論文リスト
- An Ensemble Model with Attention Based Mechanism for Image Captioning [1.249418440326334]
本稿では,アテンションメカニズムが果たす重要な役割を強調し,トランスフォーマーモデルについて検討する。
提案モデルは、トランスフォーマーエンコーダデコーダアーキテクチャを用いて、テキストキャプションとディープラーニング畳み込みニューラルネットワークを作成し、画像から特徴を抽出する。
キャプションを作成するために,生成されたキャプションの豊かさを向上する新しいアンサンブル学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-22T12:28:37Z) - A Novel Evaluation Framework for Image2Text Generation [15.10524860121122]
本稿では,画像生成が可能な現代大規模言語モデル(LLM)に根ざした評価フレームワークを提案する。
高い類似度スコアは、画像キャプションモデルが正確にテキスト記述を生成することを示唆している。
類似度の低いスコアは相違点を示し、モデルの性能の潜在的な欠点を明らかにする。
論文 参考訳(メタデータ) (2024-08-03T09:27:57Z) - StableSemantics: A Synthetic Language-Vision Dataset of Semantic Representations in Naturalistic Images [5.529078451095096]
視覚シーンの意味を理解することはコンピュータビジョンの基本的な課題である。
テキストと画像のフレームワークの最近の進歩は、自然のシーン統計を暗黙的に捉えるモデルにつながっている。
提案するStableSemanticsは、224万件の人為的なプロンプト、処理された自然言語キャプション、200万以上の合成画像、そして個々の名詞のチャンクに対応する1000万のアテンションマップからなるデータセットである。
論文 参考訳(メタデータ) (2024-06-19T17:59:40Z) - Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。
具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。
我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2024-05-21T18:02:07Z) - Holistic Evaluation of Text-To-Image Models [153.47415461488097]
我々はテキスト・ツー・イメージ・モデル(HEIM)の全体的評価という新しいベンチマークを導入する。
テキスト・イメージ・アライメント、画像品質、美学、独創性、推論、知識、バイアス、毒性、公正性、堅牢性、多言語性、効率性を含む12の側面を識別する。
以上の結果から,異なるモデルが異なる強みを示すことにより,すべての面において単一のモデルが優れているものはないことが明らかとなった。
論文 参考訳(メタデータ) (2023-11-07T19:00:56Z) - DeVAn: Dense Video Annotation for Video-Language Models [68.70692422636313]
実世界のビデオクリップに記述を生成する視覚言語モデルの有効性を評価するために,人間の注釈付きデータセットを提案する。
データセットには、20秒から60秒間の8.5KのYouTubeビデオクリップが含まれており、幅広いトピックや関心事をカバーしている。
論文 参考訳(メタデータ) (2023-10-08T08:02:43Z) - FaceGemma: Enhancing Image Captioning with Facial Attributes for Portrait Images [0.0]
FaceGemmaは感情、表情、特徴などの顔の特徴を正確に記述するモデルである。
平均BLEU-1スコアは0.364, METEORスコアは0.355であった。
論文 参考訳(メタデータ) (2023-09-24T10:30:22Z) - Simple Token-Level Confidence Improves Caption Correctness [117.33497608933169]
Token-Level Confidence(TLC)は、字幕の正確さを評価するシンプルな方法であるが、驚くほど効果的である。
画像キャプションに関する視覚言語モデルを微調整し、画像と提案されたキャプションをモデルに入力し、単語やシーケンスに対するトークンの信頼度を集計し、画像キャプションの一貫性を推定する。
論文 参考訳(メタデータ) (2023-05-11T17:58:17Z) - Visual Clues: Bridging Vision and Language Foundations for Image
Paragraph Captioning [78.07495777674747]
我々は、視覚的手がかりを用いて、大きな事前訓練された視覚基盤モデルと言語モデルをブリッジすることで、余分なクロスモーダルトレーニングなしでそれを行うことができると論じる。
基礎モデルの強力なゼロショット機能のおかげで、画像のリッチなセマンティック表現を構築することから始める。
大規模言語モデルを用いて視覚的コンテンツを包括的に記述し、視覚モデルによって再度検証し、画像に最適な候補を選択する。
論文 参考訳(メタデータ) (2022-06-03T22:33:09Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。