論文の概要: Describe me an Aucklet: Generating Grounded Perceptual Category
Descriptions
- arxiv url: http://arxiv.org/abs/2303.04053v2
- Date: Wed, 8 Mar 2023 08:14:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-09 16:21:49.471361
- Title: Describe me an Aucklet: Generating Grounded Perceptual Category
Descriptions
- Title(参考訳): Aucklet: 接地された知覚カテゴリー記述の生成
- Authors: Bill Noble, Nikolai Ilinykh
- Abstract要約: クラス表現で学習し、操作する計算モデルは、言語とビジョンの分野では未定である。
我々は、クラスレベルの記述を生成し解釈するために、別々のニューラルネットワークを訓練する。
解釈モデルでは,クラスレベルでの多様性の低い記述がより良好であり,頻繁に発生する特徴に強く依存していることが示唆される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human language users can generate descriptions of perceptual concepts beyond
instance-level representations and also use such descriptions to learn
provisional class-level representations. However, the ability of computational
models to learn and operate with class representations is under-investigated in
the language-and-vision field. In this paper, we train separate neural networks
to generate and interpret class-level descriptions. We then use the zero-shot
classification performance of the interpretation model as a measure of
communicative success and class-level conceptual grounding. We investigate the
performance of prototype- and exemplar-based neural representations grounded
category description. Finally, we show that communicative success reveals
performance issues in the generation model that are not captured by traditional
intrinsic NLG evaluation metrics, and argue that these issues can be traced to
a failure to properly ground language in vision at the class level. We observe
that the interpretation model performs better with descriptions that are low in
diversity on the class level, possibly indicating a strong reliance on
frequently occurring features.
- Abstract(参考訳): 人間の言語ユーザは、インスタンスレベルの表現を超えた知覚概念の記述を生成したり、そのような記述を使って暫定的なクラスレベルの表現を学ぶことができる。
しかし、クラス表現で学習し、操作できる計算モデルの能力は、言語とビジョンの分野では未定である。
本稿では,クラスレベルの記述を生成し解釈するために,ニューラルネットワークを個別に訓練する。
次に,解釈モデルのゼロショット分類性能を,コミュニケーション成功とクラスレベルの概念的基礎化の尺度として利用する。
本稿では,プロトタイプと模範型ニューラル表現のカテゴリー記述に基づく性能について検討する。
最後に,従来のNLG評価指標によって捉えられていない世代モデルの性能問題を明らかにすることを示し,これらの問題は,クラスレベルで言語を適切に理解できないことに起因している,と論じる。
解釈モデルでは,クラスレベルでの多様性の低い記述がより良好であり,頻繁に発生する特徴に強く依存していることが示唆される。
関連論文リスト
- Neural Language of Thought Models [18.930227757853313]
我々は、LoTHにインスパイアされた表現と生成の教師なし学習のための新しいアプローチであるNeural Language of Thought Model (NLoTM)を紹介する。
NLoTMは,(1)オブジェクトとその特性に整合した階層的かつ構成可能な離散表現を学習するSemantic Vector-Quantized Variational Autoencoder,(2)意味概念トークンを合成的に生成する自動回帰変換器であるAutoregressive LoT Prior,の2つの重要なコンポーネントから構成される。
我々は、NLoTMを複数の2次元および3次元画像データセット上で評価し、下流タスクにおける優れた性能、分布外一般化、画像生成を示す。
論文 参考訳(メタデータ) (2024-02-02T08:13:18Z) - Advancing Ante-Hoc Explainable Models through Generative Adversarial Networks [24.45212348373868]
本稿では,視覚的分類タスクにおけるモデル解釈可能性と性能を向上させるための新しい概念学習フレームワークを提案する。
本手法では, 教師なし説明生成器を一次分類器ネットワークに付加し, 対角訓練を利用する。
この研究は、タスク整合概念表現を用いた本質的に解釈可能なディープビジョンモデルを構築するための重要なステップを示す。
論文 参考訳(メタデータ) (2024-01-09T16:16:16Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Seeing in Words: Learning to Classify through Language Bottlenecks [59.97827889540685]
人間は簡潔で直感的な説明を使って予測を説明することができる。
特徴表現がテキストである視覚モデルでは,画像ネットイメージを効果的に分類できることを示す。
論文 参考訳(メタデータ) (2023-06-29T00:24:42Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - Unifying Vision-Language Representation Space with Single-tower
Transformer [29.604520441315135]
両モダリティを同時にモダリティに依存しない方法で符号化する統一視覚言語表現空間を学習するためにモデルを訓練する。
我々は、モダリティ固有の表現空間を学習する以前の作品とOneRを区別する興味深い性質を発見する。
論文 参考訳(メタデータ) (2022-11-21T02:34:21Z) - Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文 参考訳(メタデータ) (2022-10-18T17:01:35Z) - Towards explainable evaluation of language models on the semantic
similarity of visual concepts [0.0]
本稿では,視覚語彙の意味的類似性に焦点をあて,ハイパフォーマンスな事前学習言語モデルの振る舞いを考察する。
まず、検索したインスタンスの概念的品質を理解するために必要となる、説明可能な評価指標の必要性に対処する。
第二に、健全なクエリセマンティクスに対する敵対的な介入は、不透明なメトリクスの脆弱性を露呈し、学習された言語表現におけるパターンを強調します。
論文 参考訳(メタデータ) (2022-09-08T11:40:57Z) - Learnable Visual Words for Interpretable Image Recognition [70.85686267987744]
モデル予測動作を2つの新しいモジュールで解釈するLearable Visual Words (LVW)を提案する。
意味的な視覚的単語学習は、カテゴリ固有の制約を緩和し、異なるカテゴリ間で共有される一般的な視覚的単語を可能にする。
6つの視覚的ベンチマーク実験により,提案したLVWの精度とモデル解釈における優れた効果が示された。
論文 参考訳(メタデータ) (2022-05-22T03:24:45Z) - Building a visual semantics aware object hierarchy [0.0]
視覚的意味論を意識したオブジェクト階層を構築するための新しい教師なし手法を提案する。
この論文の直感は、概念が階層的に組織化されている現実世界の知識表現から来ています。
評価は2つの部分から構成され、まず、構築された階層をオブジェクト認識タスクに適用し、その上で、視覚的階層と既存の語彙階層を比較して、提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-02-26T00:10:21Z) - Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文 参考訳(メタデータ) (2020-11-18T20:21:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。