論文の概要: Evaluating Pragmatic Abilities of Image Captioners on A3DS
- arxiv url: http://arxiv.org/abs/2305.12777v1
- Date: Mon, 22 May 2023 07:15:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 17:50:25.563067
- Title: Evaluating Pragmatic Abilities of Image Captioners on A3DS
- Title(参考訳): a3ds画像キャプションの実用性評価
- Authors: Polina Tsvilodub, Michael Franke
- Abstract要約: 我々は,新しいオープンソース画像テキストデータセットAnnotated 3D Shapes (A3DS)を提案する。
マルチエージェント通信環境において,タスクニュートラル画像キャプタを微調整し,コントラストのあるキャプタを生成することにより,実用能力の評価を行う。
モデルが人間のようなパターンを発達させることを示す(特定の特徴に対するインフォーマティビティ、簡潔性、過剰なインフォーマティビティ)。
- 参考スコア(独自算出の注目度): 3.42658286826597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating grounded neural language model performance with respect to
pragmatic qualities like the trade off between truthfulness, contrastivity and
overinformativity of generated utterances remains a challenge in absence of
data collected from humans. To enable such evaluation, we present a novel open
source image-text dataset "Annotated 3D Shapes" (A3DS) comprising over nine
million exhaustive natural language annotations and over 12 million
variable-granularity captions for the 480,000 images provided by Burges & Kim
(2018). We showcase the evaluation of pragmatic abilities developed by a
task-neutral image captioner fine-tuned in a multi-agent communication setting
to produce contrastive captions. The evaluation is enabled by the dataset
because the exhaustive annotations allow to quantify the presence of
contrastive features in the model's generations. We show that the model
develops human-like patterns (informativity, brevity, over-informativity for
specific features (e.g., shape, color biases)).
- Abstract(参考訳): 人間から収集されたデータがない場合、発話の真理性、コントラスト、過剰な情報化の間のトレードオフのような実用的性質に関して、根拠付きニューラルネットワークモデルのパフォーマンスを評価することは課題である。
このような評価を可能にするために,Burges & Kim (2018) が提供した480,000の画像に対して,900万以上の徹底した自然言語アノテーションと1200万以上の可変粒度キャプションを含む,オープンソースの画像テキストデータセット "Annotated 3D Shapes" (A3DS) を提案する。
本稿では,マルチエージェント通信環境で微調整されたタスクニュートラル画像キャプションにより,コントラスト的なキャプションを生成するための実用的能力の評価を示す。
この評価は、モデル世代における対照的な特徴の存在を定量化できるため、データセットによって可能となる。
このモデルが人間に似たパターン(インフォマティビティ、簡潔さ、特定の特徴(例えば形状、色バイアス)に対する過剰なインフォマティビティ)を発達させることを示している。
関連論文リスト
- Learning from Models and Data for Visual Grounding [55.21937116752679]
データ駆動学習と様々な大規模事前学習モデルからの知識伝達を組み合わせたフレームワークであるSynGroundを紹介する。
マスク注意目的を最適化することにより、トレーニング済みの視覚・言語モデルをこのデータセット上に微調整する。
得られたモデルは、既成のビジョン・アンド・ランゲージモデルの接地能力を向上する。
論文 参考訳(メタデータ) (2024-03-20T17:59:43Z) - ViGoR: Improving Visual Grounding of Large Vision Language Models with Fine-Grained Reward Modeling [35.098725056881655]
最近の大規模視覚言語モデル(LVLM)は、前例のない視覚的推論能力を示している。
生成されたテキストは、しばしば視覚入力の不正確な接地に悩まされ、既存のシーン要素の幻覚などのエラーが発生する。
そこで我々は,LVLMの視覚的接地性を高めるために,微粒な報酬モデルを用いた新しいフレームワークViGoRを提案する。
論文 参考訳(メタデータ) (2024-02-09T01:00:14Z) - Evaluating VLMs for Score-Based, Multi-Probe Annotation of 3D Objects [73.50105018389958]
ラベルのない3Dオブジェクトは、様々なアノテーションタスクで事前訓練された視覚言語モデル(VLM)を利用する機会を提供する。
提案手法は, VLM のスコアをサンプル応答に用いて, VLM の問合せ毎に異なる因子を疎外する手法である。
論文 参考訳(メタデータ) (2023-11-29T17:54:22Z) - Holistic Evaluation of Text-To-Image Models [153.47415461488097]
我々はテキスト・ツー・イメージ・モデル(HEIM)の全体的評価という新しいベンチマークを導入する。
テキスト・イメージ・アライメント、画像品質、美学、独創性、推論、知識、バイアス、毒性、公正性、堅牢性、多言語性、効率性を含む12の側面を識別する。
以上の結果から,異なるモデルが異なる強みを示すことにより,すべての面において単一のモデルが優れているものはないことが明らかとなった。
論文 参考訳(メタデータ) (2023-11-07T19:00:56Z) - FuseCap: Leveraging Large Language Models for Enriched Fused Image
Captions [11.274127953112574]
本稿では,「凍った」視覚専門家を用いて,既存のキャプションを視覚的詳細で拡張するための自動アプローチを提案する。
提案手法であるFuseCapは,そのような視覚専門家の出力を,大規模言語モデルを用いて原文のキャプションと融合する。
私たちはこの大規模な画像キャプチャーペアのデータセットをコミュニティ向けにリリースします。
論文 参考訳(メタデータ) (2023-05-28T13:16:03Z) - Simple Token-Level Confidence Improves Caption Correctness [117.33497608933169]
Token-Level Confidence(TLC)は、字幕の正確さを評価するシンプルな方法であるが、驚くほど効果的である。
画像キャプションに関する視覚言語モデルを微調整し、画像と提案されたキャプションをモデルに入力し、単語やシーケンスに対するトークンの信頼度を集計し、画像キャプションの一貫性を推定する。
論文 参考訳(メタデータ) (2023-05-11T17:58:17Z) - Learning Human-Human Interactions in Images from Weak Textual
Supervision [15.71242350678679]
静止画像から自由テキストとして人間と人間の相互作用を学習する新しいパラダイムを提案する。
本手法により生成された擬似ラベルは,キャプションモデルのトレーニングに利用できることを示す。
私たちはWaldoやWendaとともにコードと擬似ラベルを公開します。
論文 参考訳(メタデータ) (2023-04-27T11:32:48Z) - Visual Clues: Bridging Vision and Language Foundations for Image
Paragraph Captioning [78.07495777674747]
我々は、視覚的手がかりを用いて、大きな事前訓練された視覚基盤モデルと言語モデルをブリッジすることで、余分なクロスモーダルトレーニングなしでそれを行うことができると論じる。
基礎モデルの強力なゼロショット機能のおかげで、画像のリッチなセマンティック表現を構築することから始める。
大規模言語モデルを用いて視覚的コンテンツを包括的に記述し、視覚モデルによって再度検証し、画像に最適な候補を選択する。
論文 参考訳(メタデータ) (2022-06-03T22:33:09Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。