Fugu-MT 論文翻訳(概要): Evaluating Pragmatic Abilities of Image Captioners on A3DS

論文の概要: Evaluating Pragmatic Abilities of Image Captioners on A3DS

arxiv url: http://arxiv.org/abs/2305.12777v1
Date: Mon, 22 May 2023 07:15:33 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-23 17:50:25.563067
Title: Evaluating Pragmatic Abilities of Image Captioners on A3DS
Title（参考訳）: a3ds画像キャプションの実用性評価
Authors: Polina Tsvilodub, Michael Franke
Abstract要約: 我々は,新しいオープンソース画像テキストデータセットAnnotated 3D Shapes (A3DS)を提案する。マルチエージェント通信環境において,タスクニュートラル画像キャプタを微調整し,コントラストのあるキャプタを生成することにより,実用能力の評価を行う。モデルが人間のようなパターンを発達させることを示す(特定の特徴に対するインフォーマティビティ、簡潔性、過剰なインフォーマティビティ)。
参考スコア（独自算出の注目度）: 3.42658286826597
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Evaluating grounded neural language model performance with respect to pragmatic qualities like the trade off between truthfulness, contrastivity and overinformativity of generated utterances remains a challenge in absence of data collected from humans. To enable such evaluation, we present a novel open source image-text dataset "Annotated 3D Shapes" (A3DS) comprising over nine million exhaustive natural language annotations and over 12 million variable-granularity captions for the 480,000 images provided by Burges & Kim (2018). We showcase the evaluation of pragmatic abilities developed by a task-neutral image captioner fine-tuned in a multi-agent communication setting to produce contrastive captions. The evaluation is enabled by the dataset because the exhaustive annotations allow to quantify the presence of contrastive features in the model's generations. We show that the model develops human-like patterns (informativity, brevity, over-informativity for specific features (e.g., shape, color biases)).
Abstract（参考訳）: 人間から収集されたデータがない場合、発話の真理性、コントラスト、過剰な情報化の間のトレードオフのような実用的性質に関して、根拠付きニューラルネットワークモデルのパフォーマンスを評価することは課題である。このような評価を可能にするために,Burges & Kim (2018) が提供した480,000の画像に対して,900万以上の徹底した自然言語アノテーションと1200万以上の可変粒度キャプションを含む,オープンソースの画像テキストデータセット "Annotated 3D Shapes" (A3DS) を提案する。本稿では,マルチエージェント通信環境で微調整されたタスクニュートラル画像キャプションにより,コントラスト的なキャプションを生成するための実用的能力の評価を示す。この評価は、モデル世代における対照的な特徴の存在を定量化できるため、データセットによって可能となる。このモデルが人間に似たパターン(インフォマティビティ、簡潔さ、特定の特徴(例えば形状、色バイアス)に対する過剰なインフォマティビティ)を発達させることを示している。

関連論文リスト

The Devil is in the Distributions: Explicit Modeling of Scene Content is Key in Zero-Shot Video Captioning [89.64905703368255]
ゼロショットビデオキャプションのためのプログレッシブな多粒性テキストプロンプト戦略を提案する。提案手法は,名詞句,名詞句のシーングラフ,全文を含む3つの異なる記憶バンクを構築する。
論文参考訳（メタデータ） (2025-03-31T03:00:19Z)
An Ensemble Model with Attention Based Mechanism for Image Captioning [1.249418440326334]
本稿では,アテンションメカニズムが果たす重要な役割を強調し,トランスフォーマーモデルについて検討する。提案モデルは、トランスフォーマーエンコーダデコーダアーキテクチャを用いて、テキストキャプションとディープラーニング畳み込みニューラルネットワークを作成し、画像から特徴を抽出する。キャプションを作成するために,生成されたキャプションの豊かさを向上する新しいアンサンブル学習フレームワークを提案する。
論文参考訳（メタデータ） (2025-01-22T12:28:37Z)
A Novel Evaluation Framework for Image2Text Generation [15.10524860121122]
本稿では,画像生成が可能な現代大規模言語モデル(LLM)に根ざした評価フレームワークを提案する。高い類似度スコアは、画像キャプションモデルが正確にテキスト記述を生成することを示唆している。類似度の低いスコアは相違点を示し、モデルの性能の潜在的な欠点を明らかにする。
論文参考訳（メタデータ） (2024-08-03T09:27:57Z)
StableSemantics: A Synthetic Language-Vision Dataset of Semantic Representations in Naturalistic Images [5.529078451095096]
視覚シーンの意味を理解することはコンピュータビジョンの基本的な課題である。テキストと画像のフレームワークの最近の進歩は、自然のシーン統計を暗黙的に捉えるモデルにつながっている。提案するStableSemanticsは、224万件の人為的なプロンプト、処理された自然言語キャプション、200万以上の合成画像、そして個々の名詞のチャンクに対応する1000万のアテンションマップからなるデータセットである。
論文参考訳（メタデータ） (2024-06-19T17:59:40Z)
Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文参考訳（メタデータ） (2024-05-21T18:02:07Z)
Learning from Models and Data for Visual Grounding [55.21937116752679]
データ駆動学習と様々な大規模事前学習モデルからの知識伝達を組み合わせたフレームワークであるSynGroundを紹介する。マスク注意目的を最適化することにより、トレーニング済みの視覚・言語モデルをこのデータセット上に微調整する。得られたモデルは、既成のビジョン・アンド・ランゲージモデルの接地能力を向上する。
論文参考訳（メタデータ） (2024-03-20T17:59:43Z)
Holistic Evaluation of Text-To-Image Models [153.47415461488097]
我々はテキスト・ツー・イメージ・モデル(HEIM)の全体的評価という新しいベンチマークを導入する。テキスト・イメージ・アライメント、画像品質、美学、独創性、推論、知識、バイアス、毒性、公正性、堅牢性、多言語性、効率性を含む12の側面を識別する。以上の結果から,異なるモデルが異なる強みを示すことにより,すべての面において単一のモデルが優れているものはないことが明らかとなった。
論文参考訳（メタデータ） (2023-11-07T19:00:56Z)
DeVAn: Dense Video Annotation for Video-Language Models [68.70692422636313]
実世界のビデオクリップに記述を生成する視覚言語モデルの有効性を評価するために,人間の注釈付きデータセットを提案する。データセットには、20秒から60秒間の8.5KのYouTubeビデオクリップが含まれており、幅広いトピックや関心事をカバーしている。
論文参考訳（メタデータ） (2023-10-08T08:02:43Z)
FaceGemma: Enhancing Image Captioning with Facial Attributes for Portrait Images [0.0]
FaceGemmaは感情、表情、特徴などの顔の特徴を正確に記述するモデルである。平均BLEU-1スコアは0.364, METEORスコアは0.355であった。
論文参考訳（メタデータ） (2023-09-24T10:30:22Z)
Visual Clues: Bridging Vision and Language Foundations for Image Paragraph Captioning [78.07495777674747]
我々は、視覚的手がかりを用いて、大きな事前訓練された視覚基盤モデルと言語モデルをブリッジすることで、余分なクロスモーダルトレーニングなしでそれを行うことができると論じる。基礎モデルの強力なゼロショット機能のおかげで、画像のリッチなセマンティック表現を構築することから始める。大規模言語モデルを用いて視覚的コンテンツを包括的に記述し、視覚モデルによって再度検証し、画像に最適な候補を選択する。
論文参考訳（メタデータ） (2022-06-03T22:33:09Z)
On Advances in Text Generation from Images Beyond Captioning: A Case Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文参考訳（メタデータ） (2022-05-24T00:52:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。